0 Notas de Clase PDF

NOTAS DE CLASE:
ELEMENTOS DE
ECONOMETRÍA Y
ESTADÍSTICA
FINANCIERA
Carlos Mendoza Astroz
Universidad Nacional de Colombia

Facultad de Economía
Este documento es un borrador

sujeto a correcciones y cambios con
la única finalidad de servir como
complemento a una actividad
docente
NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 1
Tabla de contenido
PARTE I. CONCEPTOS BÁSICOS ........................................................................................................................................................ 3
1. TEORÍA ASINTÓTICA ................................................................................................................................................................. 4
3. VALORES Y VECTORES PROPIOS ........................................................................................................................................14
4. DISTRIBUCION NORMAL MULTIVARIANTE ..................................................................................................................20
PARTE II MODELOS MULTIVARIANTES......................................................................................................................................30
1. ANÁLISIS DE COMPONENTES PRINCIPALES (ACP) .....................................................................................................31
1.1. INTRODUCCIÓN ................................................................................................................................................................31
1.2 INTERPRETACIÓN GEOMETRICA ....................................................................................................................................32
1.3. RESULTADOS MATEMATICOS Y GRAFICOS DEL ACP.......................................................................................35
1.4. CÁLCULO DE LOS COMPONENTES PRINCIPALES ..............................................................................................38
1.5. PROCESO DE EXTRACCIÓN ..........................................................................................................................................41
1.6. TEOREMAS ..........................................................................................................................................................................45
1.7. COMPONENTES PRINCIPALES NORMADO O POR CORRELACIONES ........................................................52
1.8. COMPONENTES PRINCIPALES PARA MATRICES DE COVARIANZAS CON ESTRUCTURAS
ESPECIALES ......................................................................................................................................................................................61
1.9. COMPONENTES PRINCIPALES A PARTIR DE UNA MUESTRA ......................................................................65
1.10 IDENTIFICACIÓN DE LOS COMPONENTES PRINCIPALES ..................................................................................73
1.11. PRUEBAS ESTADÍSTICAS .........................................................................................................................................75
1.12. CONCLUSIONES ............................................................................................................................................................78
PARTE III. MODELOS DE DATOS PANEL LINEALES ...............................................................................................................79
INTRODUCCIÓN ..........................................................................................................................................................................80
ESPECIFICACIÓN GENERAL DE UN MODELO DE DATOS DE PANEL .....................................................................88
OVERVIEW DE MODELOS DE PANELES DE DATOS ......................................................................................................91
REGRESIÓNES AGRUPADAS, EFECTOS FIJOS Y ALEATORIOS ..................................................................................97
VARIACION BETWEEN-WITHIN...........................................................................................................................................99
CARACTERISTICAS ADICIONALES DE DATOS PANEL .............................................................................................. 103
SUPUESTOS DE TRABAJO EN METODOLOGIAS DE DATOS PANEL ..................................................................... 107
METODOLOGIAS DE ESTIMACION DE MODELOS DE DATOS PANEL ................................................................. 117
COMPARATIVO DE MODELOS DE ESTIMACIÓN PANEL .......................................................................................... 169
INFERENCIA ESTADÍSTICA CON METODOLOGÍAS ROBUSTAS............................................................................. 174
ESTRUCTURA DE PRUEBAS DE HIPOTESIS .................................................................................................................. 186
PRUEBA DE HAUSMAN: ¿EFECTOS FIJOS O EFECTOS ALEATORIOS? ................................................................ 203
DIAGNÓSTICO, ESTIMACIÓN Y ESPECIFICACIÓN DE MODELOS PANEL EN STATA..................................... 208
EJEMPLO. ECUACIÓN DE SALARIOS PARA LOS HOMBRES..................................................................................... 215
PRUEBAS SOBRE SUPUESTOS DEL MODELO PANEL ................................................................................................ 220
¿CÓMO SOLUCIONAR LOS PROBLEMAS DE HETEROGENEIDAD, CORRELACIÓN CONTEMPORÁNEA,
HETEROSCEDASTICIDAD Y AUTOCORRELACIÓN?.................................................................................................... 226
VENTAJAS Y DESVENAJAS DEL MODELO DE DATOS PANELES ............................................................................ 229
PARTE IV. ANALISIS DE SERIES DE TIEMPO UNIVARIADAS ........................................................................................... 235
INTRODUCCIÓN ....................................................................................................................................................................... 236
COMPOSICIÓN DE PATRONES SISTEMÁTICOS Y ESTOCÁSTICOS ....................................................................... 237
SERIE DE TIEMPO Y PROCESOS ESTOCÁSTICOS ........................................................................................................ 240
ESTRUCTURA DE MODELOS ARMA ................................................................................................................................. 246
OPERADOR Y POLINOMIO DE REZAGOS........................................................................................................................ 250
CONDICIONES DE ESTACIONAREIDAD EN SERIES DE TIEMPO ........................................................................... 251
FUNCIÓN DE AUTOCORRELACION SIMPLE (FAS) Y FUNCIÓN DE AUTOCORRELACION PARCIAL (FAP)
........................................................................................................................................................................................................ 259
|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

PRUEBAS DE AUTOCORRELACION: LJUNG-BOX......................................................................................................... 271

ESTACIONAREIDAD E INVERTIBILIDAD ....................................................................................................................... 273
TRANSFORMACIONES A LA SERIE ................................................................................................................................... 278
CONCEPTO DE INTEGRACIÓN............................................................................................................................................ 297
ANÁLISIS DE RAÍZ UNITARIA............................................................................................................................................. 299
ESTIMACIÓN ............................................................................................................................................................................. 338
DIAGNÓSTICO DE LOS RESIDUOS ..................................................................................................................................... 341
PRONOSTICO............................................................................................................................................................................. 354
SELECCIÓN Y EVALUACION DE MODELOS.................................................................................................................... 361
METODOLOGÍA BOX – JENKINS......................................................................................................................................... 363
PROCESOS ESTACIONALES (SARIMA) ............................................................................................................................ 367
ANALISIS DE SERIES DE TIEMPO MULTIVARIADA ............................................................................................................. 407
VECTORES AUTOREGRESIVOS (VAR) ............................................................................................................................. 407

PARTE I. CONCEPTOS BÁSICOS

1. TEORÍA ASINTÓTICA
El análisis asintótico esta interesado en varias clases de
convergencia de sucesiones de estimadores a medida que los
tamaños de muestra crecen.
Se comienza con algunas de las definiciones respecto a

sucesiones no estocásticas de números. Cuando se aplican estos
resultados en econometría, N es el tamaño de muestra, y esto se
efectúa para todos los números enteros positivos.
Definición 1. Una sucesión de números no aleatorios

{an|n=1,2,3,….,N+ converge a un valor a (tiene limite en a) si para
todo ε>0, existe un Nε tal que si N>Nε entonces, |an-a|<ε. Se nota
como an→a como N→∞.
Definición 2. Una sucesión {an|n=1,2,3,….,n+ es acotada, si y solo,

si existe algún b<∞ tal que |an|≤b para todo n=1,2,3,….,N. de
otro modo, se dice que {an} es no acotada. Estas definiciones
aplican a vectores y matrices elemento a elemento.
Ejercicio. Suponga las siguientes series:

1. an=2+1/n entonces an converge a 2, an→2.
2. an=(-1)n entonces no es convergente pero es acotada.
3. an=n1/4 entonces an no es convergente ni es acotada.
Serie 1 Serie 2 Serie 3

Convergencia en Probabilidad
Definición 3. La variable aleatoria xn converge en probabilidad a
una constante c si
lim n para cualquier
La definición anterior indica que se hace cada vez más

improbable que xn tome valores distintos a c, a medida que n, el
tamaño de la muestra, aumenta. La convergencia en
probabilidad se denomina convergencia débil.
Ejemplo. Supongamos que tenemos una variable aleatoria xn

cuya distribución de probabilidad es la siguiente:
 1
1  si xn  0
f ( xn ) n
1
 si xn  n
 n
En este caso,
limn Prob( xn 0 > )=0
Es decir, xn converge en probabilidad a cero. A medida que n

aumenta, xn, toma el valor de n con una probabilidad cada vez
menor (1/n converge a cero a medida que n→∞). Esto es, toda la
masa de la distribución se concentra en aquellos puntos en la
vecindad de cero. En general, si, xn, converge en probabilidad a c,
es posible escribir
plim xn=c o x  c
P
n
Definición 4. Convergencia “casi segura” (almost surely o “a.s”) o

con probabilidad 1 se denomina convergencia fuerte. Esta se
define como:

Prob{ limn xn( )=x( )} = 1
Esto es, la sucesión {xn} converge a x con probabilidad 1. Esto se

simboliza como:
a .s .
xn 1
Ejemplo 2. La convergencia fuerte, se observa en los siguientes

casos:
a. Si {xn} es una sucesión de variables aleatorias
independientes e idénticamente distribuidas con
E(xn)=μ<, entonces:
_ a.s.
xn  
Por la ley fuerte de los grandes números.

b. Prob{lim n xn=0} = 1 0 x 0
a .s .
n
Es común encontrar notaciones O(1/n) y o(1/n). Se dice

que cn es O(1/n) ocurre que si plim(ncn) es una constante
finita distinta de cero. En tanto, se dice que c es o(1/n) si
ocurre que plim(ncn)=0. Por ejemplo,
1 3 es O(1/n) dado que plim(nc )=1
c   n n
n n2
1
cn  2es o(1/n) dado que plim(ncn)=0
n
Si xn es una sucesión de variables aleatorias con media μn y
varianza  , tal que:
2
n
limn n = y limn  =0 2
n
Entonces se dice que xn converge en media cuadrática (quadratic

mean o“q.m”). Esto se representa como:
q .m.
xn  

Además, se tiene que plim xn=μ. Este último resultado se basa en

la desigualdad de Chebychev, la cual establece que si xn es una
variable aleatoria con c y como constantes, entonces:
Prob( xn c > ) E(xn c)2/ 2
Si hacemos c=mn, tenemos que
Prob( xn n ) E(xn n)2/ 2=  /  . Si tomamos límites en
2
n
2
ambos lados de la desigualdad cuando n tenemos:

limn Prob( xn n ) limn  /  2
n
2
Lo cual implica que plim xn= , dado que limn n= y lim n  2

n
=0. La Convergencia en media cuadrática implica convergencia

en probabilidad, pero no viceversa.
Estimador Consistente
Se dice que un estimador  de un parámetro θ es consistente si y

sólo
plim  =θ

La media muestral x de cualquier población con media finita y

varianza finita ς2 es un estimador consistente de . La media
muestral esta dada por x   x donde x1,...,xn es una muestra de
__ n
i
i 1
una población cuya distribución tiene media y varianza finitas

y ς2, respectivamente. Entonces:
 ___ 1 n
  1
E  x    E xi  (n )  
  n i 1 n
2
 ___ 1 n
 1
Var  x   2 Var xi  2 (n 2 ) 
  n i 1 n n
Asumiendo que las variables aleatorias x son independientes e

idénticamente distribuidas. De lo anterior, limn E(x)= y

limn Var(x)=0. Por lo tanto, x converge en media cuadrática a

. Ello implica que plim x =
__
Teorema 1. Con muestreo aleatorio, para cualquier función g(x),

si E(g(x)) y Var(g(x)) son constantes finitas, se tiene que:
1 n
p lim  g ( xi )  Eg ( xi )
n i 1
Teorema de Slutsky. Para una función continua g(xn) que no es
una función de n se tiene:
plim g(xn)=g(plim xn).
Reglas de la Probabilidad Límite

Escalares. Si xn e yn son variables aleatorias con plim xn=c y plim
yn=d, entonces:
1. plim(xn+yn)=c + d (regla de la suma)
2. plim(xn yn)=c d (regla del producto)
3. p lim x   c (regla de la división (con d≠0).
n
 yn  d
Ejemplo. Supongamos que la media y varianza muestral del

conjunto de variables aleatorias i.i.d de x1,..,xn tienen una
esperanza y varianza poblacional μ y ς2 respectivamente, que
son estimadores consistentes. Esto es,
plim x =plim 1  x   y plim s2 = 1  ( x  x)  
__ n n __
2 2
n  1 i 1
i i
n i 1
Entonces,
Matrices. Sea Wn una matriz cuyos elementos son variables

aleatorias, tal que plimWn=𝛀, con 𝛀 matriz invertible. Entonces:
plim Wn-1= 𝛀 -1

Si Xn e Yn son matrices de variables aleatorias, tal que plim Xn=A

y plim Yn=B, entonces,
plim(XnYn)=AB (regla de la matriz producto)
Convergencia en Distribución
xn converge en distribución a una variable aleatoria x con
función distribución acumulada (f.d.a) F(x) si:
limn ( F(xn) F(x) )=0
En todos aquellos puntos de continuidad de F(x). Esto se
simboliza como:
d
xn  x
Reglas para la Distribución Límite. Si y plim yn=c, entonces:

d
xn  x
d
1. Si xn  y n  c  x
d
2. Si xn y n  cx
3. Si x  x y g(xn) es una función continua, entonces g ( x )  g ( x)

d d
n n
4. Si plim(xn-yn)=0, entonces xn e yn tienen la misma

distribución límite.
Ejemplo. Supongamos una muestra de n observaciones i.i.d.

extraídas de la distribución x~N(0, ς2). Sabemos que la
distribución se comporta bajo una distribución de la forma:
Donde,
Bajo ciertas condiciones de regularidad, se tiene que plim s2=ς2

y n x  N (0, ) . Entonces,
__ d
2

1 __ d
n x  N (0,1)
s
La convergencia en probabilidad implica convergencia en
distribución, pero no viceversa. Es decir, el concepto de
convergencia en probabilidad es más fuerte. En primer término,
si plim( ), entonces   . Ello, porque:

n

n
d
 
lim n  f ( n )  1 si  n 
0 e.o. p..
Gráficamente,
Por otra parte, convergencia en distribución no implica

convergencia en probabilidad a una constante. Para probar tal
aseveración, basta con dar un contraejemplo. Supongamos que:
Se tiene que , donde

d
xn  x
Es decir, xn converge a una variable aleatoria pero no a una

constante.

Distribución Asintótica de una Función de una Variable Aleatoria

Supongamos que n ( z   )  N (0, ) entonces si g(zn) es una función
d
2
n
continua que no depende de n, se tiene que:

d
n ( g ( z n )  g (  ))  N (0, ( g (  )) 2  2 )
Para analizar el caso multivariado, consideremos un vector zn de

variables aleatorias, μ un vector de medias, ambos de tamaño
kx1 y Σ la matriz de covarianzas de tamaño kxk, tal que,
n ( z   )  N (0, ) . g(zn) es un vector de J funciones continuas de z n
d
n
que no dependen de n, entonces:

d
n ( g ( z n )  g (  ))  N (0, CC T )
Donde C es una matriz jx k cuya j-ésima fila es el vector de

derivadas parciales de la j-ésima función con respecto a zn,
evaluado en μ:
Consistencia y Normalidad Asintótica de Mínimos Cuadrados

Ordinarios (MCO)
Consideremos el modelo clásico de regeresión lineal expresado
en términos matriciales:
y=Xβ +ε donde E(ε|X)=0, E(εεT)=ς2I, con ς2 constante finita.
Asumamos que = limn (1/n)XTX=Q, matriz positiva definida e

invertible, donde, por simplicidad, se asume que X es una matriz
de variables no estocásticas. El estimador MCO viene dado por:

 1 1
  ( X T X )1 X T Y    ( X T X )1 ( X T  )
n n

  ( X T X )1 X T Y  ( X T X )1 X T ( X   )
 1 1
  ( X T X )1 X T Y    ( X T X )1 ( X T  )
n n
Entonces,
plim  = β +limn limn

1 T 1 1 T
(X X ) (X  )
n n
Por las propiedades de probabilidad límite descritas en
secciones anteriores se tiene que:
n n __
1 T
( X  )   xi i   wi  w
n i 1 i 1
Donde xi es el vector 1xk correspondiente a la i-esima fila de la

matriz X y wi≡xiεi. Se tiene que:
De ello, se puede observar que:
Esto implica que w converge en media cuadrática a cero y, por lo

__
tanto, plim w =0. Es decir, plim (1/n)XTε=0. En consecuencia, el

estimador MICO es consistente.
 =Q-10=β

Distribución Asintótica del Test de Restricciones Lineales

Supongamos que queremos contrastar un conjunto de J
restricciones lineales. Se realiza la prueba sobre la hipótesis
nula, H0, contra la hipótesis alternativa H1.
H0: Rβ=q
H1: Rβ ≠q,

Donde R es una matriz J x k, β es un vector k x 1 y q es un vector J

x 1. Por ejemplo, se dea comprobar si un subconjunto de los
coeficientes es igual a cero, de la forma:
H0: β1=0, β2=0, β3=0
H1: βi≠0 ∀ i
Con las siguientes matrices
Dicho conjunto de J restricciones puede ser contrastado con el

siguiente estadístico:
Donde  es el estimador MCO no restringido. Este se distribuye


F(J, n-k) bajo normalidad de los errores poblacionales del

modelo lineal. No obstante, aun cuando el supuesto de
normalidad no se satisfaga, es posible obtener la distribución
asintótica del estadistico. Específicamente, en muestras grandes
se tiene que:

3. VALORES Y VECTORES PROPIOS

I. Conceptos.
Los vectores propios, valor característico o eigenvectores de un
operador lineal son los vectores no nulos que cuando son
transformados por el operador dan lugar a un múltiplo escalar
de sí mismos, con lo que no cambian su dirección.
Suponga la transformación del espacio para la siguente pintura:
En esta transformación de la MONALISA, la imagen se ha

deformado. El vector azul, representado por la flecha azul que va
desde el pecho hasta el hombro, ha cambiado de dirección,
mientras que el rojo, representado por la flecha roja, no ha
cambiado. El vector rojo es entonces un vector propio de la
transformación, mientras que el azul no lo es.

Dado que el vector rojo no ha cambiado de longitud, su valor

propio es uno (1). Todos los vectores de esta misma dirección
son vectores propios, con el mismo valor propio.
El escalar λ recibe el nombre valor propio, valor característico o
eigenvalor. A menudo, una transformación del espacio queda
completamente determinada por sus vectores propios y valores
propios.
Las transformaciones lineales del espacio como rotación,
reflexión, ensanchamiento, o cualquier combinación de las
anteriores pueden interpretarse mediante el efecto que
producen en los vectores.
Los vectores pueden visualizarse como flechas de una cierta

longitud apuntando en una dirección y sentido determinados.
Dado lo anterior se puede inferir que:
1. Los vectores propios de las transformaciones lineales son
vectores que, o no se ven afectados por la transformación o
se ven multiplicados por un escalar, y por tanto, no varían
su dirección.
2. El valor propio de un vector propio es el factor de escala por
el que ha sido multiplicado para que no se vean afectados
por la transformación.
Por ejemplo, un vector propio de una rotación en tres

dimensiones es un vector situado en el eje de rotación sobre el
cual se realiza la rotación. El valor propio correspondiente es 1 y
el espacio propio es el eje de giro. Como es un espacio de una

dimensión, su multiplicidad geométrica es uno. Es el único valor

propio del espectro (de esta rotación) que es un número real.
Otro ejemplo sería una lámina de metal que se expandiera

uniformemente a partir de un punto de tal manera que las
distancias desde cualquier punto al punto fijo se duplicasen. Esta
expansión es una transformación con valor propio 2. Cada vector
desde el punto fijo a cualquier otro es un vector propio, y el
espacio propio es el conjunto de todos esos vectores.
II. Definiciones.
Sea una matriz simétrica Σ con de orden PxP con las siguientes
características:
 12  12  1p 
 
  21  22  2p 

     
 
 p1  p 2   pp 
Definición 1. La traza de Σ denotada por tr(Σ) se define como:
P
 11   11     pp   ii
i 1
Por lo tanto, la traza es la suma de todos los elementos de la

diagonal.

Definición 2. Los valores propios (llamados raíces

características) de Σ son las raíces de la ecuación polinomica.
|Σ-𝛌I|=0 (1)
Cuando es desarrollada la expresión del determinante la
ecuación resultante es:
c1 p  c2  p 1    c p   c p 1  0 (2)
La ecuación (2) es una ecuación polinominal de λ con grado p.
Los valores propios son la solución a la ecuación anterior.
Definición 3. Cada valor propio tiene asociado un vector no cero

correspondiente, e, llamado vector propio que satisface la
condición:
Σe =𝛌e (1)
Debido a que Σ tiene P valores propios (ya que la matriz es de
orden PxP), tendrá P vectores propios. Denotemos, por e1,e2,…ep
los vectores propios de Σ correspondientes a los valores propios
λ1, λ2,… λp respectivamente.
Ejemplo. Suponga la siguiente matriz de covarianzas, encuentre

sus valores y vectores propios.
6 2
Σ=0 1
2 3
a. Valores propios
6 2
Σ=0 1
2 3
6 2 1 0
Σ λI = 0 1 λ0 1
2 3 0 1
6 λ 2
Σ λI = 0 1
2 3 λ

El determinante de la matriz Σ-𝛌I, |Σ-𝛌I|, es igual a la siguiente

ecuación cuadrática o ecuación característica:
𝛌2-9𝛌+14=(𝛌-7)(𝛌-2)=0.
La solución son dos valores propios reales, diferentes y positivos
𝛌1=7 y 𝛌2=2.
b. Vectores propios
Es necesario calcular el vector propio asociado para la matriz Σ,
que para este caso corresponde al valor propio más grande
(λ1=7) por lo tanto se construye el siguiente sistema de
ecuaciones:
Σe=λe
6 2 e e
0 1 0 1=70e 1
2 3 e
Construyendo un sistema de ecuaciones se llega a que:
6e1+2e2=7e1
2e1+3e2=7e2
Resolviendo y dejándolo en términos de vectores se tiene que:
2e 7e 6e 2e e
[ ]=[ ][ ]=02e 1
3e 7e 2e 4e
Existen infinitas soluciones. De manera que cualquier vector
propio de tamaño 2X1 que tenga su primer elemento igual al
doble del segundo será el vector propio de Σ asociado con el
primer valor propio λ1.
Si se asume, para eliminar infinitas soluciones, que la variación

de la primera componente del vector propio e es igual a uno
(e2=1) se tiene que:
e2=1: 2e2= e1 e1=2 y por tanto
e1=2: 4e2=2e1 e2=1

Entonces el vector propio asociado para el primer valor propio

(λ=7) es:
2
x=0 1
1
Es usual en la práctica determinar un valor propio de modo que
su tamaño sea la unidad. Es decir, si existe el sistema 𝚺x=𝛌x, es
posible tener e=x/√x x , entonces:
√x x =√,2 1- 021=√5
1
El vector propio normalizado de Σ correspondiente al primer
valor propio 𝛌1=7, corresponde a:
2/√5 0.8944
e1= [ ]=0 1
1/√5 0.4472
Programación en STATA
matrix input A = (6,2\2,3)
matrix symeigen Vectores Valores = A
matrix list Valores
matrix list Vectores
Ejercicio. Encuentre los valores y vectores propios de la

siguiente matriz de covarianzas:
7 4
𝚺=0 1
4 9

4. DISTRIBUCION NORMAL MULTIVARIANTE

Cuando se trabaja en la vida real, un supuesto habitual asume
que la variable en estudio, X, se distribuye con un
comportamiento normal. Por ejemplo, la altura, riqueza o
inteligencia de las personas, entre otras. La distribución normal
univariada es una expresión de este hecho partiendo de un
promedio muestral µ y varianza muestral ς2, que tiene la función
de densidad de probabilidad:
1 1 / 2( x   ) /  2
f ( x)  e
2 2 -∞<x<∞
Un gráfico de esta función es una forma de campana que agrupa
en el intervalo de una desviación estándar alrededor de la media
el 68.0% de la población, es decir, P(µ-ς≤X≤ µ+ς)=68% y
agrupa en el intervalo con dos desviaciones estándar alrededor
de la media el 95.0% de la población P(µ-2ς≤X≤ µ+2ς)=95%.
La función de densidad normal univariada usualmente se nota
como N~(µ,ς2). Esta formulación puede ser extendida al caso
cuando p>1. El tratamiento generalizado sobre variables como
una distribución normal se encuentra fundamentado en el
Teorema del Límite Central, que demuestra como la suma de
variables independientes se distribuye en el límite, o cuando la
muestra tiende al infinito, bajo esta función de distribución.
Teorema 1. Teorema de límite central. Sea X1,…..,Xn

observaciones independientes de cualquier población con media
µ y covarianza ςij, entonces:
n ( X   ) se aproxima a NP(0, ς)
____

Para tamaños de muestra grande donde n debe ser más grande

que p. De una manera simplificada, indica que si existen X1,...,Xp
variables aleatorias (v.a.) independientes con media µ y varianza
común ς2<∞, la función de densidad se aproxima a la
distribución normal Z∼N(0,1) cuando el tamaño de muestra, n,
es grande. Esto es, para n grande
X 1  X 2  X 3 ......  X n __
 X  N ( , )
n
Para observar la aplicación en un ejemplo práctico sobre una
muestra aleatoria, es posible verificar el cumplimiento del
teorema del límite central bajo el supuesto de diferentes tamaños
de muestra.
n=30 n=1000 n=5000

Distribución normal bivariante
Es una generalización para vectores continuos del modelo
normal univariado. En el caso bivariante, la distribución normal
no se basa en un número, sino en un vector de variables
aleatorias (X1,X2) con vector medias muestrales µ = (µ1, µ2) y
matriz de covarianzas Σ, definida por:
Basado en el caso univariado tiene como función de densidad
Una distribución normal bivariada con media µ y matriz de

covarianzas Σ se nota como N(µ, Σ), y se puede representar
gráficamente como:

Propiedades
1. La distribución marginal de X es N(µ1,ς1)
2. La distribución marginal de Y es N(µ2,ς2)
3. La distribución de Y condicionada por X = x0 se puede
representar como:
Donde ρ es el coeficiente de correlación para el caso bivariado.

ρ= cov(X1,X2)
ς1ς2
4. Si un vector aleatorio (X1,X2) tiene distribución N(µ,Σ) y
Cov(X1,X2)=0, entonces se puede representar su matriz de
covarianzas, Σ, de la forma:
Sustituyendo esta expresión en la función de densidad de

probabilidad para una distribución normal bivariada se obtiene
que f(x,y)=f(x)·f(y), en este caso se denominan factores los
vectores aleatorios estadísticamente independientes.

Distribución Normal Multivariada

Se dice que un vector de variables aleatorias XT=[X1,X2…..Xp]
tiene una distribución normal multivariada si existe un vector
a=[a1,a2,…..,ap], tal que:
p
a X   ai xi
T
i 1
Donde cada uno de sus elementos del vector tiene una

distribución univariada para todos los conjuntos posibles de
valores seleccionados. La media de un vector de variables
aleatorias X se denota por μ1xp y la matriz de covarianzas de X se
denota por 𝚺pxp. Definidas por:
 E ( X 1 )   1 ) 
   
 E ( X 2 )   2 )
  E( X )  
   
 E ( X )   )
 p   p 
La matriz de covarianzas 𝚺 =Cov(X)=E[(X- μ)( X- μ)], de orden

pXp puede ser calculada como:
 12  12  1p 
 
  22  2p 
   21
     
 
 p1  p 2   pp 
Donde ςii=Var(Xi)=E[(Xi-μi)2] y ςij=cov(Xi)=E[(Xi-μi)(Xj-μj)]
Función de densidad de probabilidad normal multivariada

Suponga p variables estandarizadas aleatorias independientes e
idénticamente distribuidas (v.a.i.i.d.), Zi, i=1,…n por el Teorema
del Limite Central poseen una función de distribución de
probabilidad Zi~N(0,Σ) si n es grande. Puesto que Zi es

independiente y con la matriz Σ es posible obtener una función

de distribución de probabilidad de la forma:
n
f ( Z1 ,.....Z n )  f ( z )   f ( zi ) si se supone una distribución
i 1
normal multivariada
 
n
f ( Z1 ,.....Z n )  f ( z )   (2 ) 1 / 2 |  |-1e  2zi
2
i 1
 n 2
f ( Z1 ,.....Z n )  f ( z )  2 n / 2
|  | e   zi 
-n 1
2
 i 1 
f (Z1 ,.....Z n )  f ( z )  2  n / 2 |  |- n e 12 Z T Z  
Donde ZT=(Z1,...,Zt) es un vector transpuesto de v.a.i.i.d.
normales. Ahora suponga la transformación X=AZ+B donde A es
una matriz no singular de tamaño nxn y B es un vector es un
vector nX1 de constantes. Es posible realizar la siguiente
transformación:
g ( z )  2  n / 2 | A |1 e12 Z T Z  pero Z=A-1(X-B)
g ( z )  2  n / 2 | A |1 e 12 A1 ( X  B)    A
T 1

( X  B)
 
g ( z )  2  n / 2 | A |1 e 12 ( X  B)T At )( A1 ( X  B) ) 
Puesto que E[Z]=0, entonces E[X]=B y la propiedad de
independencia que implica sobre la matriz de covarianzas
cov[Z]=In, por tanto cov(X)=AAT. Estableciendo que μ=B y Σ=
AAT es posible reescribir g(x) de la forma estándar:
 
g ( z )  2  n / 2 |  |1 / 2 e 12 ( x   )T 1 ( x   ) ) 
La cual se conoce como distribución normal multivariada con
media μ y matriz de covarianza Σ.

Teoremas
Teorema 2. Si Σ es positiva de modo que Σ-1 existe, entonces
Σe=𝛌e implica que Σ-1 e=  1  e
 
Así el par de valores propios y vectores propios de Σ

correspnden al par (1/𝛌,e) para Σ-1. También Σ-1 es definida
positiva.
Teorema 3. Si X es distribuido como una NP(μ,Σ) las q

combinaciones lineales
 a11 X 1  a11 X 2    a1 p X p 
 a X  a X  a X 
AX  
11 1 11 2 1p p 
  
 
X 
 q1 1 q 2 2
a a X    a qp X p
Son distribuidos Nq(Aμ,AΣAT) . También, X+d donde d es un
vector de constantes es distribuida Nq(A+b,Σ).
Teorema 4. Si X es distribuido N(μ,Σ), entonces cualquier

combinación lineal de variables aTX=a1X1+a2x2+…..+apXp es
distribuido N(aTμ,aTΣa). También, si la combinación lineal aTX es
distribuida como N(aTμ, aTΣa) para cada a, entonces X debe ser
N(μ,Σ).
Teorema 5. Todos los subconjuntos de X están normalmente

distribuidos. Si se particiona X, su vector de medias μ y matriz de
covariazas Σ será de la forma,

 X1    1    11 | 12 
        
X          
X2       21 |  22 
   2  
Teorema 6. Si X1 y X2 son dos vectores aleatorios independientes
de orden qX1 y qX2 respectivamente, entonces
a. Las covarianzas entre dichos vectores son iguales a cero,
Cov(X1,X2)=0. La matriz de ceros es de orden q1Xq2.
b. Si es      |    entonces X1 y X2 son independientes si y
 X1 
 
1 11 12
  
N q1q 2   ,     
X2     2   21 |

 22  
   
solo si Σ12=0.
c. Si X1 y X2 son independientes y distribuidas Nq1(μ1,Σ11) y
Nq2(μ,Σ) respectivamente, entonces [X1 X2] es normal
multivariante distribuido como:
  1  11 | 0  
 
N q1q 2   ,     

  
  2   0
 | 11  
Teorema 7. Sea X una variable distribuida Np(𝛍,𝚺) con |𝚺|>0.

Entonces,
a. La matriz (x-μ)TΣ-1(x-μ) es distribuida como una chi-
cuadrado con p grados de libertad, χ2(0.5,2).
b. La distribución Np(𝛍,𝚺) asigna una probabilidad 1-𝛂 a la
elipse solida tal que {x|(x-μ)TΣ-1(x-μ) χ2(0.5,2)+, donde χ2(𝛂,p)
denota el contorno superior del 𝛂 y se describe como el
percentil de la distribución χ2.
Ejemplo. Suponga las diez empresas más grandes de Colombia

con los datos de ventas, utilidades y activos expresados en
millones de dólares.

No ventas utilidades activos

Ecopetrol 126.97 4.22 173.29
Avianca 96.93 3.83 160.89
Suramerica 86.65 3.51 83.21
Tablemac 63.43 3.75 77.73
Coltejer 55.26 3.93 128.34
Coltabaco 50.97 1.8 39.08
Éxito 39.06 2.94 38.52
ETB 36.15 0.35 51.038
ISA 35.2 2.48 34.71
Argos 32.41 2.41 25.63
Determine si las ventas y utilidades registradas por estas
empresas hacen parte de una distribución normal bivariada. El
resultado puede ser comparado utilizando el resultado
establecido como:
(x-μ)TΣ-1(x-μ) ≤ χ2(0.5,2)
Si no se conoce la varianza poblacional, Σ, es necesario utilizar la

varianza muestral, S, de la forma:
(x-μ)TS-1(x-μ) ≤ χ2(0.5,2)
Donde se prueba si se encuentra sobre un distribución normal
bivariada con una distribución chi cuadrado con dos grados de
libertad que toma un valor de 1.39 χ2(0.5,2)=1.39. Valores
superiores afirma que no se encuentra sobre una distribución
normal.
POBLACIONAL MUESTRAL Variables centradas
9005.32 230.38 1000.59 25.60 No ventas utilidades χ2(0.5,2)
varianza
230.38 12.89 25.60 1.43 Ecopetrol 64.667 1.298 4.343
Avianca 34.627 0.908 1.199
0.0002 -0.00366 0.0018 -0.032915 Suramerica 24.347 0.588 0.594
inversa
-0.00366 0.14296 -0.0329 1.2866317 Tablemac 1.127 0.828 0.823
Coltejer -7.043 1.008 1.866
Coltabaco -11.333 -1.122 1.019
Éxito -23.243 0.018 1.023
ETB -26.153 -2.572 5.343
ISA -27.103 -0.442 0.815
Argos -29.893 -0.512 0.975
El resultado indica que siete de esas distancias (70%) son

inferiores a 1.39. Si fuera una distribución normalmente

distribuida es de esperarse que cerca de la mitad, cinco

observaciones, se encuentren dentro del contorno, razón por la
cual se rechaza la hipótesis que esta sea una distribución normal
bivariada.
Constrastes de multinormalidad
Para contrastar la normalidad univariada,como primer pasose
han desarrollado estrategias graficas que alertan sobre la
normalidad de un conjunto de datos. Al estrategia mas usada
consiste en graficar cuantilas de datos frente a cuantilas de
distribución univariada, estos graficos se conocen como QxQ
plot. Las cuantilas son similares a los percentiles, un grafico QxQ
plot se obtiene:
1. Se ordenan las observaciones de mayor a menor. Así la
cuartila muestral xi es la cuartila i/n.
2. Se ubican los pares y se examina la linealidad resultante.
Ejemplo. Suponga que se generaron números aleatorios

distribuidos bajo una distribución normal estándar con 500
observaciones. Se genera
Normal gráfico Q-Q el siguiente QxQ plot.
de VAR00001
4
-1
-2
-3
-4
-4 -3 -2 -1 0 1 2 3 4
Valor observado
El contraste estadístico de mayor significancia y utilización de

para corroborar la normalidad univariada es el Kolmogorov-

Smirnov. Este estadístico calcula la distancia entre la función de

distribución empírica de la muestra, Fn(X) y la teórica, F(X), en
este caso la normal. El estadístico de prueba consiste en:
Dn=max{|Fn(X)-F(X)|}
Donde max es la función máximo. Lo que intenta la prueba es

determinar la distancia máxima entre la distribución teórica y la
muestral, con ello realizar el estadístico. La prueba de hipótesis
asociada
H0: no es normal la muestra
H1: es normal la muestra
Ejemplo. Suponga que se generaron números aleatorios

distribuidos bajo una distribución normal estándar con 500
observaciones. Se demostrara el uso del estadístico Kolmogorov-
Smirnov (KS).
La prueba parte de un estadístico KS con un valor de 0.555 lo

que indica que la significaciona tiene un valor de 0.917 lo cual
rechaza la hipótesis nula de no normalidad de la muestra. Con
este resultado se puede asegurar con un 95.0% de confianza que
la muestra parte de una distribución normal.

PARTE II MODELOS MULTIVARIANTES

1. ANÁLISIS DE COMPONENTES PRINCIPALES (ACP)

1.1. INTRODUCCIÓN
Un análisis de componentes principales (ACP) está interesado en
explicar la estructura de varianzas y covarianzas (información)
de un conjunto de variables a través de combinaciones lineales
de estas.
Dicha representación debe ser tal que al desechar dimensiones

superiores (generalmente de la tercera o cuarta en adelante) la
pérdida de información sea mínima.
El objetivo principal que persigue el ACP es la representación de

las medidas numéricas de varias variables en un espacio de
pocas dimensiones donde puedan percibir relaciones que de otra
manera permanecerían ocultas en dimensiones superiores y
permitir, en primer lugar, reducir los datos, y en segundo lugar,
efectuar interpretación de resultados.
Aunque p componentes son necesarias para reproducir la

variabilidad completa del sistema, muchas veces esta puede ser
resumida por un pequeño número k de componentes principales
(k<p).
Si es así (casi siempre) mucha información en los k componentes

se refleja como si existiera en las p variables originales.

1.2 INTERPRETACIÓN GEOMETRICA

La representación gráfica implica la creación de un plano r-
dimensional y ubicarlo de tal manera que se encuentre lo más
aproximado al gráfico de dispersión de los datos originales.
Suponga un plano inicial que cruza a través del origen

determinado por la combinación lineal u1, u2,…,ur consistente de
todos los puntos con las siguientes caracteristicas:
x=b1u1+b2u2+………..+brur=UB para algun B
Este plano, puede ser trasladado a cualquier ubicación a través

de un punto a lo cual se convierte en a+UB para algún b.
El objetivo de los componentes principales (ACP) es seleccionar

un plano r-dimensional a+UB que minimice la suma de las
distancias al cuadrado, ∑ d , entre las observaciones xj y el
plano r-dimensional a+UB.
Grafico 1. Visión grafica del análisis de componentes principales

Las k componentes principales pueden reemplazar las p

variables iniciales del conjunto de datos originales, consistente
de p variables reducidas a un conjunto de datos de k
componentes principales.
Un análisis de componentes principales muchas veces revela

relaciones que no fueron previamente sospechadas, por lo tanto,
permite efectuar interpretaciones que ordinariamente no
tendrían algún tipo de sustento.
El análisis de componentes principales es un paso intermedio,

más que un fin en si mismo, debido a que es un intermediario
para procesos más largos de investigación. Por ejemplo, puede
ser insumo para regresiones múltiples, análisis de cluster,
construcción de indicadores, entre otros.
Se quiere construir un nuevo sistema de coordenadas

ortogonales (perpendiculares) en el cual los puntos puedan ser
representados de una manera tal que sus proyecciones sobre el
nuevo primer eje recojan la mayor cantidad posible de variación
(varianza). Las proyecciones sobre el segundo eje recoja el resto,
y asi sucesivamente.
Intuitivamente, para un grafico con dos variables, encontramos

que tales ejes corresponden a las rectas F1 y F2, representadas
en la gráfica 2 cuyo origen se encuentra en la intersección de los
promedios de las variables X y Y, que desde ahora será
denominado centro de gravedad G de la nube de puntos.

Grafica 2. ACP para dos componentes
Con mucha frecuencia se maneja simultáneamente un número p

de variables numéricas. Si cada variable se representa sobre un
eje, se necesitaría un sistema de coordenadas con p ejes
perpendiculares entre sí para ubicar las coordenadas de los
puntos y poderlos representar.
Este grafico es imposible incorporarlo cuando p≥4, pero la idea

esbozada en el ejemplo anterior sigue siendo válida, buscar un
nuevo sistema de coordenadas con origen en el centro de
gravedad, G, de tal manera que el primer eje del nuevo sistema
(F1) refleje la mayor cantidad posible de variación a través de la
minimización de las distancias entre el plano y los datos. El
segundo eje (F2), refleje la mayor cantidad posible entre la
variación restante, el tercer eje (F3) la mayor variación posible
remanente después de las dos anteriores, y así sucesivamente.
Observando la figura anterior se puede deducir que el nuevo

sistema de coordenadas se logra después de dos movimientos en
la nube de puntos. Un primer movimiento es una traslación que
permite situar el nuevo origen en el centro de gravedad de la
nube, G.

La nueva nube, obtenida después de esta traslación se llama

nube centrada. Un segundo movimiento que se hace sobre la
nube centrada es una rotación, usando el centro de gravedad
como punto pivotal. Existe una visión alternativa de rotación a
través de senos y cosenos
Esta rotación ha de hacerse de tal manera que el nuevo primer

eje del sistema de coordenadas apunte en la dirección de
máxima dispersión de la nube centrada. El segundo eje apunte
en la dirección con la segunda mayor dispersión y perpendicular
al anterior. El tercer eje en la dirección de tercera mayor
dispersión perpendicular a las dos anteriores y así
sucesivamente.
Es evidente que el nuevo sistema de coordenadas tiene entonces

tantos ejes perpendiculares entre sí como tenía el antiguo, es
decir, tantos ejes como variables se hayan considerado
inicialmente.
1.3. RESULTADOS MATEMATICOS Y GRAFICOS DEL ACP

Suponga considerar los componentes principales derivados de
variables aleatorias con una distribución normal multivariante.
Suponga X es distribuido como N(μ,Σ), aunque este supuesto no

es necesario. Se puede demostrar que la densidad de X es
constante sobre elipsoides centrados μ con la formula:
(X-μ)Σ-1(X-μ)=c2

La cual tiene ejes ±c√λ ei i=1,2,….p donde (λi,ei) es la

combinación de valor propio y vector propio de Σ. Es decir,
Gráfico 3. Representación grafica por elipsoides
Un punto sobre el eje i-esimo de la elipsoide tendrá coordenadas

a =[ei1,ei2,……,eip] en el sistema de coordenadas que tiene
origen en μ y los ejes son paralelos a los ejes originales x1,x2,….,xp.
Será conveniente, en principio, establecer el punto en el origen,

es decir, μ=0 de manera que con A=Σ-1 es posible reescribir:
c2=xtΣ-1x= ( )2+ ( )2+……..+ ( )2
Esta ecuación define una elipsoide (puesto que λ1,λ2,…..,λp son
positivas) en un sistema de coordenadas con ejes y1,y2,….yn en
las direcciones e1,e2,….,ep, respectivamente.
Si λ1 es el valor propio más grande, entonces el eje principal tiene

que ir a en la dirección e1. Los restantes ejes serán definidos por
las direcciones de e2,…,ep.

Para resumir, los componentes principales y1= x, y2= x,…..

yp= x se encuentran en las direcciones de los ejes de una
elipsoide con densidad constante. Por lo tanto, cualquier punto
sobre el eje de la elipsoide i-esima tiene coordenadas x
proporcionales a =[ei1,ei2,……, eip] y necesariamente la
coordenada de la primera componente principal tiene la forma
,0,0,….,yi,0,……0-.
Cuando μ≠0, es la componente principal centrada en la medida

que yi= (x-μ) tiene media cero y dirección del vector propio ei.
Una elipse de densidad constante y componentes principales
para un vector aleatorio normal bivariante con μ=0 y 𝛒=0.75 se
demuestran en la siguiente figura.
Grafico 4. Elipse de densidada constante de tamaño xtΣx=c2 y las

componentes principales y1,y2 para un vector aleatorio normal
bivaraido X teniendo una media de cero.
Se puede observar que las componentes son obtenidas rotando

las coordenadas de los ejes originales en un angulo θ hasta que
coincida con los ejes de un plano r-esimo con densidad

constante. Este resultado aplica para p>2 dimensiones de igual

forma.
En conclusión, los resultados algebraicos y graficos indican que

los componentes principales son combinaciones de P variables
aleatorias x1,…,xp. Geometricamente estas combinaciones
representan una selección de un nuevo sistema de coordenadas
obtenido de rotar el sistema original con x1,…,xp como eje de
coordenadas. Los nuevos ejes representan las direcciones con
máxima variablilidad y proporciona una descripción más simple y
parsimoniosa de la estructura de covarianza de los datos.
1.4. CÁLCULO DE LOS COMPONENTES PRINCIPALES

Consideremos p variables aleatorias de tipo numérico X1,X2,….,Xp
las cuales posiblemente estén correlacionadas entre sí. Podemos
pensar que las p variables anteriores, consideradas
conjuntamente, forman una variable aleatoria multivariada,
denotada por un vector X=(X1,X2,….,Xp).
La matriz de covarianzas asociada al vector X está definida como

Σ donde la entrada en la fila i columna j es el valor de la
covarianza entre Xi y Xj , Cov(Xi,Xj). Esto hace que la diagonal de Σ
esté conformada por las varianzas Var(X1),Var(X2),….,Var(Xp) y
que sea simétrica1. Estas características también implican que
sean semidefinida positiva.
1 Se puede probar que es una matriz definida positiva, es decir, la forma cuadrática asociada a ella tiene todas sus raíces positivas.

La idea que se persigue es determinar un nuevo conjunto de

variables y1,y2,...,yp, no correlacionadas entre sí (ortogonales o
perpendiculares), cuyas varianzas decrezcan desde la primera
nueva variable hasta la última, llamadas componentes
principales.
Cada componente principal yj (donde j=1,...,p) es una

combinación lineal de las x1,x2, ...,xp variables originales, es decir:
Suponga para el conjunto de variables iniciales representados

por un vector de variables X la j-esima componente principal:
yj = aj1x1+aj2x2+...+ajpxp (1)
O de forma matricial:
yj = aTx (2)
Donde aT=(aj1,…..,ajp) es un vector de constantes y xT=[x1,x2,... ,xp]

es un vector de p variables aleatorias que componene la j-esima
variable ortogonal, yj. El objetivo es recoger la mayor cantidad
posible de variación (maximizar la varianza explicada) por cada
combinación lineal yj.
La forma para maximizar la varianza explicada es modificar los

coeficientes aij por cada combinación lineal yj incorporando las
condiciones de ortogonalidad definidas anteriormente.

Por ello, para mantener la ortogonalidad de la transformación, y

evitar esta solución trivial de crecimiento infinito, se impone que
la suma de cuadrados de los coeficientes sea igual a uno y este
sea el módulo del vector aT=(a1j, a2j,..., apj), es decir, expresado de
manera formal:
p
a a j   akj2  1
T
j
k 1
(3)
El primer componente se calcula eligiendo el vector de
parámetros que maximice la información expresada, o minimice
la distancia entre el plano y los datos a través del valor del vector
a1.
La primera componente (y1) tiene la mayor varianza posible y se

calcula obteniendo los parámetros que minimizan la distancia
entre los datos y el plano r-dimensional a través de las
ponderaciones a1 del vector y1= x, sujeta a la restricción que los
parámetros no aumenten infinitamente, expresado como que la
suma de los cuadrados de las ponderaciones sobre las variables
originales, X, sea igual a la unidad, es decir, =1.
El segundo componente principal, y2, se calcula obteniendo los

parámetros que minimizan la distancia entre los datos y el plano
r-dimensional a través de las ponderaciones a2 del vector y2= x.
Además, sujeta a la restricción que los parámetros no aumenten
infinitamente y la variable obtenida esté no correlacionada con
la primera componente principal (y1). Es decir, exprese la mayor
varianza posible no explicada por el primer componente.

Del mismo modo, se eligen y3,y4,···,yp componentes no

correlacionadas entre sí, de manera que las nuevas variables
obtenidas tengan cada vez menor varianza.
1.5. PROCESO DE EXTRACCIÓN

El objetivo del proceso para encontrar las componentes
principales (yi) es elegir un vector de constantes a1 de modo que
se maximice la varianza de y1 sujeta a la restricción de que
=1, como ya fue justificado.
El método habitual para maximizar una función de varias

variables sujeta a restricciones de igualdad es el método de
multiplicadores de Lagrange, usualmente aplicado en economía.
El problema consiste en maximizar la varianza explicada

ponderada por un vector de coeficientes a que determinan los
pesos de cada variable, a Σa , sujeta a la restricción =1.
La incógnita que se busca es un vector a1 desconocido de

parámetros sobre el vector de variables originales X que balance
las p variables existentes y determine una combinación lineal
óptima que maximiza la varianza explicada o que minimice las
distancias entre un plano y cada uno de los puntos originales.

De esta forma, se puede representar un problema de

optimización matemática y su representación en una función
lagrangiana, ℓ(•), de la forma:
Max 𝚺 (4)
a1
S.A. a1T a1  1
La función lagrangiana esta representada por:

(a1 )  a1T a1   (a1T a1  I )
Las condiciones de primer orden (CPO) del problema de

optimización respecto a los parámetros a están dadas por:
()
 2a1  2Ia1  0
a1
(  I )  0 (5)
Desarrollando la expresión anterior se tiene que:
(Σ λI) = 0
Σ = λI premultiplicando por
Σa1 = λIa1
Var(y1) = λIa1 pero Σa1=Var(y1)
Var(y1) = λIa1
Var(y1) = λ a1 pero a1=1
Var(y1) = λ (6)
De este modo, λ, es conocido como el primer valor propio de la

matriz de covarianzas, Σ, que es solución de la ecuación
característica (5) expresado en la ecuación (6).

Este resultado puede ser interpretado como la varianza de la

primera componente principal (y1) esta representada por el
primer valor propio de la matriz, Σ, Var(y1)=λ1.
El segundo componente principal se calcula como y2= x y se

obtiene mediante un argumento parecido.
Además, se requiere que y2 esté no correlacionado con el

anterior componente y1, es decir, para asegurar la ortogonalidad
o independencia, se tiene que imponer que la covarianza entre
las variables (y2,y1) sea igual a cero, Cov(y2,y1)=0.
Por lo tanto, suponga la covarianza entre la primera (y1) y

segunda (y2) componente principal de la forma:
Cov(y2, y1) = Cov( x, x)
= E[ (x µ)·(x µ)T ]
= Σ
Cov(y2, y1) = Σ
Por los resultados de la primera componente que:

Σ = λI
Σa1 = λI
Cov(y2, y1) = Σa1 = λ
= λ a1 pero λ> 0 entonces
Σa1 = 0.
Es decir, se demuestra que los vectores de las ponderaciones de

la primera y segunda componente principal son ortogonales.

De este modo, se tiene que maximizar la varianza de la segunda

componente principal, y2, es decir, a2Σa2, sujeta a dos
restricciones.
La primera, sobre el tamaño restringido de la suma de cuadrados

del vector de ponderaciones de la segunda componente
principal, a2=1.
La segunda, la independencia entre las ponderaciones de la

primera (y1) y segunda (y2) componente principal descrita como
a1=0.
De esta forma, es posible construir un problema de optimización

lagrangiana, ℓ(•), de la forma:
Max 𝚺
a2
a2T a2  1
Sujeto a a T a  0
2 1
La función lagrangiana, ℓ(•), es representada entonces por

(a2 )  a2T a2  1 (a2T a2  1)   2 (a2T a1 )
Las condiciones de primer orden (CPO) del problema están
dadas por:
()
 2a2  21 Ia2   2 a1  0
a2

Si se premultiplica por la CPO en la ecuación entonces:

= 2 Σ -2 δ1Ia2- δ2 =0
= 2 Σ -2δ1I a2-δ2 =0
Si se conoce que =1 y =0. Entonces:
0=2 Σ -δ2
O lo que es lo mismo:
δ2=2 Σ
Pero se demostró anteriormente que Σ = Σa1=0. De este
modo, queda finalmente la CPO como:
()
 2a2  2 2 Ia2  0
a2
Usando el mismo procedimiento que antes, elegimos λ2 como el

segundo valor propio mayor de la matriz de covarianzas, Σ, con
su vector propio asociado a2.
1.6. TEOREMAS
Los resultados anteriores se pueden expresar de una manera
sintética y con el formalismo necesario en los siguientes
teoremas.
Teorema 1. Sea Σ una matriz de covarianza asociada con vectores

aleatorios xT=x1, x2,……,xp. Suponga que la matriz Σ tiene pares
de valores y vectores propios (λ1,e1), (λ2,e2),…..,(λp,ep) donde
λ1≥λ2≥……≥λp≥0, la i-esima componente principal esta dada
por:
yi  eiT x  e1i x1  e2i x2  ....e pi x p i  1,2,...., p
De esta forma,

Var ( yi )  eiT ei  i

cov( yi , yk )  eiT ek  0 ik
Si algunos λi son iguales la elección del coeficiente ei asi como yi
no son únicos.
La solución a los problemas de optimización planteados

anteriormente por un método lagrangiano son resueltos
paralelamente a través de hallar los valores y vectores propios de
la matriz de covarianzas, Σ.
Teorema 2. Suponga que xT=x1, x2,……,xp tienen una matriz de

covarianzas con pares de valores y vectores propios (λ1,e1),
(λ2,e2),…..,(λp,ep) donde λ1≥λ2≥……≥λp≥0. Por otra parte, sea la
siguiente combinación y1= x, y2= x,……., yp= x. Entonces:
p p
ς11+ς22+…..+ςpp = Var ( X i )  1  2  ....   p   var( yi )

i 1 i 1
El resultado indica que la varianza poblacional (VP) es la suma

de los valores propios o el valor de la traza de la matriz Λ. La
proporción total de la varianza explicada (PVE) por la k-esima
componente es:

PVE= k=1,2,….p
k
1  2  ....  k
Muchas veces este porcentaje es bastante alto con un pequeño
valor de k<p lo que se traduce en una alta representatividad en
un espacio de pocas dimensiones.
Como puede deducirse de lo anterior, la varianza total se

descompone en un número finito de partes disjuntas λj de
tamaños cada vez menores, lo que en la práctica proporciona un

mecanismo para reducir la dimensionalidad de representación

de las variables.
En efecto, si se olvidan las últimas p-k componentes principales,

las primeras p tendrán una tasa de representatividad igual a
1  2     p k
100% de la varianza total de las variables
VT
originales.
Si por ejemplo, 80% o 90%, de la varianza poblacional total

puede ser atribuida a la primera y segunda componente
entonces estos pueden sustituir las p variables originales por las
componentes sin perdida de demasiada información.
Teorema 3. Si y1= x, y2= x,….. yp= x son componentes

principales obtenidos de la matriz de covarianzas, Σ, entonces:
eki i
Y , X 
1 k
 kk i=1,2….p
Son los coeficientes de correlación entre la componente principal
i-esima (Yi) y la variable k-esima (xk). Lo que indica el teorema
anterior es que cada componente del vector =[ei1,e12,…,eip]
también debe ser inspeccionado.
La magnitud de eik mide la importanica de la k-esima variable

sobre i esima componente principal, sin tener en cuenta otras
variables que se denominara “driver”.

En particular eik es proporcional al coeficiente de correlación

entre la componente (Yi) y la variable (xk). Aunque las
correlaciones de las variables (X) con la componente principal
(Yi) muchas veces ayuda a interpretar los componentes, ellas
miden únicamente la contribución univariada de un individuo X
frente a la componente Y.
Es decir, ellas no indican la importancia de la variable X a la

componente principal Y, solo su grado de correlación en la
presencia de otras variables X.
Aunque coeficientes del vector propio y correlaciones calculadas
pueden conducir a distintas clasificaciones como medidas de
importancia, no se aprecian diferencias sustanciales en sus
valores.
En la práctica financiera, variables con relativamente altos

coeficientes de los componentes del vector (en valor absoluto)
tienden a tener alternativamente más correlacion entre la
componente y la variable.
De este modo las dos medidas, la primera multivariada

(coeficiente eik) y la segunda univariada (correlacion)
frecuentemente arrojan resultados similares.
Siempre es recomendado examinar los coeficientes y las

correlaciones en búsqueda de interpretar los componentes, por
esta razón, se recomienda en primera instancia verificar los
coeficientes eik, posteriormente las correlaciones aunque en la
mayoría de los casos arrojen resultados similares.

Ejemplo. Suponga la siguiente de matriz de varianzas y

covarianzas, Σ, con variables aleatorias X1, X2, X3:
1 2 0
Σ=[ 2 5 0]
0 0 2
Despues de incluir la matriz en STATA se utiliza el comando

pcamat abc, n(0) names(x1 x2 x3) components(3) covariance que
arroja los siguientes resultados:
Tabla 1
La conclusión arroja los valores y vectores propios determinados

como:
λ1=5.83 =[-0.383, 0.924,0]
λ2=2.00 =[0, 0, 1]
λ3=0.17 =[0.924, 0.383, 0]
Por lo tanto, las componentes principales se convierten en:

Y1=e =-0.383X1+0.924X2
Y2=e =X3
Y3=e =0.924X1+0.383X2

La suma de los componentes principales λ1+λ2+λ3 extraidos de

la matriz de covarianzas Σ es igual a la traza de esta matriz.
Ambos son iguales a ocho (8).
Utilizando los resultados del TEOREMA 1, se desea determinar la

varianza de la primera componente (Y1), es decir:
Var(y1)=e Σe1
O mejor
Var(y1)=Var(-0.383X1+0.924X2)
Var(y1)=(0.383)2Var(X1)+(0.924)2Var(X2)-2(0.383)(0.924)
Recurriendo a la matriz de covarianzas, Σ, implica que

Var(X1)=1, Var(X2)=5 y cov(X1, X2)=-2. Entonces:
Var(y1) = 0.147(1)+0.854(5)-0.708(-2)
Var(y1) = 5.83
Var(y1) = λ1
La varianza de la primera componente principal corresponde al
primer valor propio.
La varianza total utiliza el TEOREMA 2 a partir de la matriz de

covarianzas, Σ, la calcula de la siguiente forma:
p p
Var ( X )         var( y ) = ς11+ ς22+ ς33=1+5+2

i 1
i 1 2 3
i 1
i
La proporcion de la varianza explicada por la primera

componente principal (VEC1) es:
. .
VEC1= = = =0.7286
.

Es decir, la primera componente explica el 72.86% de la varianza

total.
Este mismo procedimiento se efectua para las demás

componentes. En este caso, los componentes Y1 y Y2 podrían
reemplazar las tres variables originales (X1, X2, X3) sin mayor
perdida de información ya que entre los dos explican el 97.86%
de la varianza total.
Es decir, la proporcion de la varianza explicada por la primera y

segunda componente principal (VEC1|2) es:
. .
VEC1|2= = = . =0.9786
Por otra parte, utilizando el TEOREMA 3 es posible encontrar el

coeficiente de correlacion entre la primera componente (Y1) y la
variable X1 de la forma:
√ . √ .
ρY1,X1= = = -0.925
√ √
Para la componente (Y1) y la variable X2 se calcula de la siguiente
forma:
√ . √ .
ρY1,X2= = = 0.998
√ √
Observese la variable x2 con el coeficientea asociado del valor

propio de -0.925 que recibe en la primera componente Y1.
Tambien tiene la más alta correlacion con 0.998 (en valor
absoluto).

La correlación de x1 con Y1 (-0.925), por otra parte, es casi tan

grande como la de x2 (.0.998) son casi igualmente importantes
para la primera componente principal (Y1).
Los pesos relativos (en valor absoluto) de los coeficientes de X1 y

X2 suguiere que X2 contribuye mas en la determinación de Y1 de
lo que hace X2. Puesto que ambos coeficientes son
razonablemente grandes y de signos opuestos, se puede afirmar
que ambas variables colaboran en la interpretación de Y1.
1.7. COMPONENTES PRINCIPALES NORMADO O POR

CORRELACIONES
Todo lo mencionado anteriormente tiene un sentido geométrico
y matemático muy claro pero en la práctica tiene un problema de
interpretación.
¿Qué significado tiene una variable artificial Fj que ha sido

construída, como una combinación de otras variables cuyas
naturalezas pueden ser muy diferentes?
¿Qué nombre puede recibir por ejemplo, una variable

conformada por una combinación de edad, peso, ingresos, etc?
Por otra parte, el peso de cada variable original, traducido

fundamentalmente en volatilidad, puede ser muy diferente para
cada variable.
Una variable muy dispersa puede contribuir enormemente a la

varianza total mientras que una variable más homogénea
contribuye menos. Esto finalmente determina la participación de

cada variable en la conformación de un factor generando ruido

en el cálculo.
El cálculo de los componentes principales de una serie de

variables x1,x2...,xp depende habitualmente de las unidades de
medida empleadas. Si transformamos las unidades de medida, lo
más probable es que cambien a su vez los componentes
obtenidos.
Una solución frecuente es usar variables x1,...,xp normalizadas.

Con ello, se eliminan las diferentes unidades de medida y se
consideran todas las variables implícitamente equivalentes en
cuanto a la información recogida.
Realizar ACP con variables originales estandarizadas resuelve

los dos problemas. El primero, con las variables estandarizadas
no tiene nombre, son simplemente números sin unidades en las
cuales se expresen las mediciones.
De otra parte, la estandarización lleva todas las escalas de

medida a una forma común de media 0 y varianza 1, con lo cual
se elimina el problema de medición y variabilidad diferente de
las variables originales.
El ACP realizado con variables originales estandarizadas se llama

ACP normado. El ACP normado equivale al ACP corriente pero
partiendo de la matriz de correlaciones ρ en vez de la matriz de
covarianzas Σ.

El ACP normado debe ser la técnica a seguir en cualquier caso, a

menos que se quieran explorar algunas otras posibilidades de tipo
teórico o que se tengan variables muy similares tanto en su
naturaleza como en su escala de medida.
Los componentes principales de la matriz de correlaciones, le da

igual importancia a todas las variables originales, a diferencia del
ACP por matriz de covarianzas. En la matriz de correlaciones
todos los elementos de la diagonal son iguales a 1.
Si las variables originales están normalizadas, esto implica que

su matriz de covarianzas es igual a la de correlaciones, con lo que
la variabilidad total (la traza) es igual al número total de
variables.
La suma total de todos los valores propios será p y la proporción

de varianza recogida por el valor propio j-ésimo (componente)
será de λj/p. Los componentes principales pueden ser obtendos
de variables estandarizadas de la forma:
( )
Z1= ;
√
( )
Z2= ;
√
:
:
( )
Zp=
√
En notación matricial:
Z=(V1/2)-1(X-μ)

Donde la matriz V1/2 es diagonal constituida por desviaciones

estándar. Donde E(Z)=0 y su matriz de covariazas es igua a:
Cov(Z)=(V1/2)-1Σ(V1/2)-1=ρ
Los componentes principales de Z pueden ser obtenidos de los

vectores propios de la matriz de correlaciones ρ de X. Todos los
resultados previos aplican exactamente igual con algunas
simplificaciones, puesto que la varianza de Zi es la unidad.
En el caso de variables estandarizadas se utilizará la misma

notación Yi para referirse a la i-esima componente principal y
(λi,ei) al par de valores y vectores propios de la matriz de
correlaciones, ρ, o matriz de covarianzas Σ.
Sin embargo, (𝛌i,ei) derivado de la matriz de covarianzas Σ en

general no son las mismas que las derivadas a través de la matriz
de correlaciones.
Teorema 4. La i-esima componente principal de variables

estandarizadas Z=[Z1,Z2,….,Zp] con una matriz de covarianzas
cov(Z)=ρ esta dada por:
Yi= Z= ,(V1/2)-1](X-μ) i=1,…..,p
De forma matricial, (V1/2)-1 es una matriz diagonal con cada uno

de los componentes de la diagonal igual a la desviación estándar
de la j-esima variable, 1/√ς . Ademas:
∑ Var(Y ) = ∑ Var(Z ) = p

Las covarianzas entre las variables estandarizadas y las

componentes principales esta definida como:
ρYi,Zk=eik√λ i,k=1,2,…..,p
En este caso (λ1,e1), (λ2,e2),….., (λp,ep) son los pares de valores y

vectores propios de la matriz de correlaciones ρ dada la
característica de λ1≥λ2,….. ≥λp≥0.
La varianza total poblacional (variables estandarizadas) es

simplemente p, la suma de los elementos de la diagonal de la
matriz de correlaciones ρ.
Con variables estandarizadas Z en vez de variables sin

estandarizar (X) es posible encontrar la proporción de varianza
total explicada (VTE) por la k-esima componente principal de Z
como:
VTE = k=1,2,……,p
Ejemplo. Suponga la siguiente de matriz de covarianzas, Σ, con
variables aleatorias X1, X2:
Σ=0 1
Y una matriz de correlaciones, ρ, asociada:
.
𝛒=0 1
.
Se calularon los pares de valores y vectores propios en STATA

con la siguiente sintaxis:
pcamat covarianza, n(0) names(x1 x2) components(2) covariance

Para la matriz de covarianzas, ρ, y para la matriz de

correlaciones, Σ, se utilizó:
pcamat correlaciones, n(0) names(x1 x2) forcepsd
components(2).
Grafico. Comparación resultados de PCA con matriz de

covarianzas y correlaciones
CORRELACIONES COVARIANZAS
a. Matriz de covarianzas
Los valores y vectores propios de la matriz de covarianzas, Σ, se
tienen que:
λ1=100.16 =[0.04, 0.99]
λ2= 0.84 =[0.99,-0.04]
Las componentes principales se convierten en:

Y1=e =0.04X1+0.99X2
Y2=e =0.99X1 - 0.04X2

b. Matriz de correlaciones
Los valores y vectores propios de la matriz de correlaciones, ρ, se
tiene que:
λ1=1+ρ=1.4 =[0.707, 0.707]
λ2=1-ρ= 0.6 =[0.707,-0.707]
Las componentes principales se convierten en:

Y1=e =0.707X1+0.707X2
Y2=e =0.707X1 - 0.707X2
Por ejemplo, para la primera componente, Y1, se tiene que:

Y1=0.707Z1+0.707Z2=0.7070 1+0.7070 1
√
Para la segunda componente Y2, se tiene que:

Y2=0.707Z1+0.707Z2=0.7070 1-0.7070 1
√
Dada la diferencia de las varianzas observadas por los valores

propios (λ1=100.16 y λ2=0.84), la variable X2 domina
completamente la primera componente principal (Y1)
determinada por la matriz Σ.
Ademas, La primera componente principal explica una

proporción de la varianza poblacional de 99.2%, es decir:
λ 100.16
= = 0.992
λ +λ 100.16 + 0.84
Cuando las variables están estandarizadas, sin embargo, el

resultado de las variables contribuye de igual manera a las

componentes principales determinadas por la matriz de

correlaciones ρ.
Utilizando el TEOREMA 4 se puede obtener que la correlación

entre la variable estandarizada Z1 respecto a la primera
componente principal se calcula como:
ρY1,Z1=e11√λ =0.707√1.4=0.837
La correlacion entre la variable estandarizada Z2 respecto a la

segunda componente principal se calcula como:
ρY1,Z1=e21√λ =0.707√1.4=0.837
En el caso de la primera componente principal explica una

proporción de 70% dela varianza total estandarizada, es decir:
λ 1.4
= = 0.7
p 2
La importancia relativa de las variables, por ejemplo, la primera
componente principal se ve significativamente afectada por la
estandarización.
Cuando la primera componente principal se obtiene de la matriz

de correlaciones ρ esta expresada en términos de X1 y X2, las
magnitudes relativas calculadas de las ponderaciones son 0.707
y 0.707, valores equilibrados, que están en oposición directa a
aquellas ponderaciones 0.04 y 0.99 obtenidas de la componente
principal calculada por la matriz de covarianzas Σ.

El ejemplo precedente demuestra que los componentes

derivados de la matriz de covarianzas Σ son diferentes a los
derivados de la matriz de correlaciones 𝛒.
Ademas, se puede establecer que los componentes principales no

es una función simple de otra. Es decir, efectuar el proceso de
estandarización tiene consecuencias en el cálculo y conclusiones.
Las variables deberían estar estandarizadas si ellas están

medidas en escalas con amplios rangos de diferencia o unidades
de medida que no son fácilmente comparables.
Por ejemplo, Si X1 representa ventas anuales en un rango de

$10.000 y $350.000 y X2 es la razón de rentabilidad sobre el
activo (ingreso brutos/total de activos) que se encuentra en un
rango de 1.0% y 6.0%.
Si se calcula utilizando la matriz de covarianzas, Σ, la variación

total será exclusivamente correspondiente a las ventas anuales.
En este caso se debe esperar una sola primera componente muy
importante (recoge la mayor cantidad de varianza explicada)
con una alta ponderación para X1.
Alternativamente, si ambas variables están estandarizadas, sus

magnitudes pueden ser del mismo orden, y X2 o (Z2) juega un rol
importante en la construcción de los componentes principales.

1.8. COMPONENTES PRINCIPALES PARA MATRICES DE

COVARIANZAS CON ESTRUCTURAS ESPECIALES
Existen ciertos patrones sobre la matriz de covarianzas o
correlaciones donde los componentes principales pueden ser
expresados en formas simples.
Suponga la matriz diagonal de covarianzas, Σ, es decir:
Si se tiene un vector propio de la forma =,0,0,….,1,….,0,0- con

un uno (1) en la posición i-esima se observa que:
O visto de otra manera Σei=𝛔iiei. Se puede concluir de lo anterior

que (𝛔ii,ei) es el par valor propio vector propio.
Puesto que la combinación lineal X=Xi, por tanto, se establece

que el conjunto de componentes principales corresponde al total
de variables original aleatorias no correlacionadas.
Con una matriz diagonal de covarianzas, Σ, no se gana nada

extrayendo componentes principales.

Desde otro punto de vista, si X esta distribuido Np(μ,Σ), el

contorno de la densidad constante son elipsiodes donde los ejes
cartesianos se encuentran en la dirección de la maxima varianza.
Consecuentemente no es necesario rotar las coordenadas del
sistema.
Si se desea efecuar estandarización de las variables, este

procediento substancialmente no altera la situación para una
matriz diagonal de covarianzas, Σ. En este caso se llega a que la
matriz de correlaciones, ρ, es iguala a la matriz identidad de
orden pxp, o mejor ρ=I.
De este modo, si ρei=1ei, el valor propio de uno (1) que

pertenence al vector de valores propios e es multiplicado por el
correspondiente coeficiente de correlacion ρ, asi las cosas,
=[0,0,…..,1,…..,0,0- con i=1,2,…,p son elecciones convenientes
para los valores propios. Consecuentemente, las componentes de
la matriz de correlaciones ρ son también las variables originales
Z1,…Zp.
Otro patrón de matriz de varianzas y covarianzas, Σ, el cual

describe algún tipo de correlación entre variables, tiene la
siguiente forma general:
La matriz de correlaciones, ρ, resultante es:

Es también la matriz de covarianzas de variables estandarizadas.

La matriz de correlaciones anterior implica que las variables
X1,X2,….,Xp estan igualmente correlacionadas. Para este caso, los
p valores propios de la matriz de correlaciones correspondiente
pueden ser divididos en dos grupos.
Cuando el coeficiente de correlacion ρ es positivo, el más grande

es:
λ1=1+(p-1)ρ
Con vectores propios asociados:
Los restantes (p-1) valores propios son:

λ2= λ3=……….=λp=1-ρ
Los restantes vectores propios son:
La primera componente principal sobre variables estandarizadas

corresponde a:

Es proporcional a la suma de p variables estandarizadas y puede

ser juzgada como un índice con igual ponderación.
Esta componente principal explica una proporción del total de la

varianza de la población como:
Si λ1/p=ρ para la correlacion cercana a uno (1) o p muy grande.
Por ejemplo, si la correlacion es ρ=0.8 y el numero de variables

p=5, la primera componente explica el 84% del la varianza total.
Cuando la correlación es cercana a uno, ρ=0.8, las ultimas p-1
componentes colectivamente contribuyen muy poco a la
varianza total y muchas veces pueden ser ignoradas.
En este caso especial, retener únicamente al primera

componente principal Y1=(1/√p),1,1,….,1-X, una medida de
tamaño total, explica la misma proporción de la varianza de la
forma:
Si las variables están estandarizadas Z1,Z2,…,Zp tienen una

distribución normal multivariante con matriz de covarianzas
dada por:

Las elipsoides de densidad son constantes, con el eje principal

proporcional a la primera componente principal
Y1=(1/√p),1,1,….,1-Z,. Esta componente principal es la
proyección de Z sobre el plano 1t =,1,1,….,1- .
El eje secundario (y restantes componentes principales) ocurren

de forma simétrica y esférica en dirección perpendicular al eje
principal (y la primera componente principal).
1.9. COMPONENTES PRINCIPALES A PARTIR DE UNA MUESTRA

La matriz de covarianzas, Σ, por ser desconocida, no puede ser
usualmente utilizada directamente en los cálculos. En la práctica,
se usa la matriz de covarianzas estimada, S, a partir de una
muestra observada de n individuos.
Esta matriz constituye una estimación de Σ, por tanto, los

resultados obtenidos con ella constituyen estimaciones de los
valores poblacionales. Sin embargo, es necesaria una muestra
aleatoria cuyo tamaño n sea mayor que el número p de variables
consideradas.
El hecho de usar la matriz de covarianzas muestrales, S, en vez

de la matriz de covarianzas poblacionales, Σ, puede
eventualmente acarrear complicaciones de tipo computacional.

Suponga x1,x2,…,xn representan n variables independientes de

alguna población p-dimensional con vector de media μ y matriz
de covarianzas, Σ. Estos datos arrojan una media muestral, ̅, la
matriz de covarianza muestral S y la matriz de correlaciones
muestrales R.
El objetivo es construir combinaciones lineales no

correlacionadas entre si de las medidas características que
cuentan en mayor medida con la variación en la muestra.
La combinación no correlacionada de variables que explican la

varianza serán llamadas componentes principales muestrales. La
combinación se encuentra descrita como:
x=a11,xj1+a12xj2+………+a1pxjp para j=1,2,….,n
Tiene una media muestral a ̅ y varianza muestral a a .

Tambien, los pares (a ̅, a ̅), para dos combinaciones lineales
tienen la covarianza muestral a a .
Los componentes principales muestrales están definidos como

aquellas combinaciones lineales las cuales tienen máxima
varianza muestral.
Como para las cantidades poblacionales, se tiene que reescribir

los coeficientes de los vectores para satisfacer =1.
Especificamente:

Primera componente = Combinacion lineal a xj que

principal muestral maximiza la varianza muestral de
a xj sujeto a =1.
Segunda componente = Combinacion lineal a xj que

a xj sujeto a =1 y la covarianza
muestral de los pares
COV(a xj, a xj)=0.
:::::: ::::::
:::::: ::::::
i-esima componente = Combinacion lineal a xj que

a xj sujeto a =1 y la covarianza
muestral de todos los pares
COV(a xk, a xj)=0 ∀k.
La primera componente principal plantea el siguiente problema

de maximización:
MAXIMIZAR a a
S.A. =1
La varianza corresponde al máximo valor propio, λ̂1, tal como se
demostró para los resultados poblacionales. Lograda por la
elección del vector propio ̂ 1 de la matriz de covarianzas
muestrales S.

La eleccion sucesiva de maximizar las ponderaciones ai sujeto la

función objetivo a ê =a λ̂ ê =0, o mejor perpendicular al
vector propio ̂ .De este modo, se tiene el siguiente teorema.
Teorema 5. Si S={sik} es una matriz de covarianza muestral de

orden pxp con pares de valores y vectores propios
(λ̂ ê ),( λ̂ ê ),….,( λ̂ ê ), la i-esima componente principal esta
dada por:
ŷ = ê = ê x1+ ê x1+…….+ê xp
Donde λ̂ ≥λ̂ ≥…….≥λ̂ ≥0 y x es cualquier observación de las
variables X1, X2,….,Xp.
Tambien, se puede observar que:

Varianza muestral (ŷ )= λ̂ para k=1,2,…..,p
Covarianza poblacional (ŷ , ŷ )=0 i≠k
Adicionalmente:
Varianza total muestral =∑ S = λ̂ +λ̂ +…….+λ̂
El coeficiente de correlación entre la componente i-esima y la

variable k-esima se calcula como:
ê √λ̂
r̂ , =
√s
Existe una notación diferenciada entre la visión poblacional y
muestral. Se denotan los componentes principales muestrales

como ŷ , ŷ ,….,ŷ independiente si son obtenidas por la matriz

de covarianzas muestrales S o de correlaciones muestrales R.
El proceso de extracción de los componentes construidos de la

matriz de covarianzas muestrales, S, o de la matriz de
correlaciones muestrales, R, no son los mismos, en general y
como se demostró para el caso poblacional, pero debe ser claro
del contexto la cual esta siendo utilizado, y la notación ŷ se
mantiene.
También es conveniente nombrar de manera adecuada los

vectores de coeficientes muestrales y el vector propio ̂ y la
varianza de los valores propios λ̂ para ambas situaciones.
Los componentes principales muestrales pueden ser obtenidos

̂=S como estimaciones por máxima verosimilitud de valores
de 𝚺
poblacionales de la matriz de covarianzas Σ, si Xj esta
normalmente distribuido.
En este caso los valores propios de Σ son distintos y en estos

casos los componentes principales muestrales como
estimaciones máximo verosímiles de sus correspondientes
contrapartes poblacionales.
̂ tiene valores propios [(n-

La matriz de covarianzas muestrales 𝚺
1)/n] λ̂ y sus correspondientes vectores propios, ̂ , donde
(λ̂ , ̂ ) son los pares de valores propios y vectores propios
para la matriz de covarianza muestrales S.

De este modo, tanto la matriz de covarianzas muestrales S y la

matriz de covarianzas estimada por máxima verosimilitud 𝚺 ̂
tienen la misma primera componente principal ̂ x y la misma
̂ +λ̂ + λ̂ ).
proporción de la varianza explicada λ̂ /(λ
Finalmente, ambas S y 𝚺 ̂ arrojan la misma matriz de

correlaciones R asintoticamente, si las variables son
̂ es irrelavante.
estandarizadas la elección entre S o 𝚺
Las observaciones xj son muchas veces centradas sustrayendo la

media muestral, x̅. Esto no afecta la matriz de covarianzas
muestrales y arroja la i-esima componente principal.
ŷ = ̂ ( ̅) i=1,2,….,p
Los componentes principales muestrales también puede ser

obtenida de 𝚺̂=S, la estimación por máxima verosimilitud de la
matriz de covarianzas, Σ, si Xj esta normalente distribuida.
Ejemplo 3. En el cálculo de un score de crédito se proporciona

información sobre 5 variables sociodemográficas en el área de
Bogotá y sus alrededores. Los datos corresponden a 6100
potenciales clientes.
Los datos de la muestra seleccionada tienen las siguientes

estadísticas:

X1 X2 X3 X4 X5
̅t = 4.47 3.96 71.42 26.91 1.64
Variable Total Grado Edad por Empleado del Valor medio
poblacional profesional empleado gobierno de vivienda
Medida Cientos (porcentaje) (porcentaje) (porcentaje) Cientos
La matriz de covarianzas muestrales de la forma:
Se puede resumir la información anterior en uno o dos

componentes principales?
La operatividad de STATA parte de una matriz creada en Excel la

importa a STATA, posteriomente los datos son convertidos en
una matriz a través del comando
mkmat var1 var2 var3 var4 var5, matrix(ejercicio)
rowprefix(Matriz)
Donde genera una matriz llamada ejercicio. Posteriomente,

ejecuta en análisis de componentes principales utilizando la
sentencia
pcamat ejercicio, n(0) names(x1 x2 x3 x4 x5).

Tabla 2
La primera componente explica el 67.7% de la varianza

muestral. Las primeras dos componentes, colectivamente
explican el 92.8% del total de la varianza.
Consecuentemente, la variacion muestral es resumida muy bien

por las dos componentes principales sin mayor pérdida de
información.
La primera componente aparece esencialmente como una

diferencia ponderada para esta base de variables
sociodemográficas entre el porcentaje del empleo del gobierno
(x4) y edad por empleado (x3). La segunda componente aparece
como una suma ponderada de las dos.
Las componentes poblacionales, los coeficientes ̂ y las

correlaciones r̂ deben ser examinados en cada uno de los
componentes principales para efectuar una adecuada
interpretación.

Cada componente de los vectores propios ei=[e1i, e2i,… epi] debe

ser analizada en la medida que corresponden a la magnitud de la
componentes del vector propio i-esimo, eki, que mide la
importancia de la k-esima variable en la i-esima componente
principal sin relacionar las demás variables.
En particular, eki es proporcional al coeficiente de correlación

entre yi y xk. Este análisis debe hacerse obligatoriamente con la
primera componente, es decir, ek1 que mide la importancia de la
k-esima variable en primera componente principal, además
especifica eki el coeficiente de correlación entre yi y x1.
1.10 IDENTIFICACIÓN DE LOS COMPONENTES PRINCIPALES

Cuántos factores son suficientes para una buena representación
de un problema? Tal vez los dos más extendidos son:
a. El criterio de Kaiser, según el cual se deben retener tantos
factores como valores propios de la matriz de covarianzas Σ
estén por encima del promedio de varianza total sobre
componentes existentes (VT/P).
b. Otro criterio, quizás más natural y lógico, consiste en
retener tantos factores como sean necesarios para lograr un
alto porcentaje de explicación de la varianza total. Para ello
se usan los porcentajes acumulados de los valores propios
con base en la varianza total del problema, junto con un
criterio personal acerca de qué se considera un buen
porcentaje de explicación.

Habitualmente, se conservan sólo aquellos componentes que

recogen la mayor parte de la variabilidad, hecho que permite
representar los datos en dos o tres dimensiones si se conservan
dos o tres ejes principales, pudiéndose identificar entonces
grupos naturales entre las observaciones.
Si la varianza poblacional se encuentra concentrada en un 80%

en las dos o tres componentes es posible trabajar con estas
variables sin mayor perdida de información.
La herramienta grafica de verificación utiliza el gráfico de

sedimentación (scree plot) para determinar el peso de los
componentes principales dentro de la varianza explicada.
Grafico. Scree plot

valor
Valor propio

1.11. PRUEBAS ESTADÍSTICAS

PRUEBA DE ESFERICIDAD DE BARLETT
Antes de aplicar el análisis de componentes principales debe
comprobarse si es necesario, es decir, si la correlación entre las
variables analizadas es lo suficientemente grande como para
justificar la factorización de la matriz de coeficientes de
correlación.
Esta comprobación puede hacerse mediante la prueba de

Bartlett (1950), que parte de la hipótesis nula que la matriz de
coeficientes de correlación muestral, R, no es significativamente
distinta de la matriz identidad.
Ho: R=I
H1: R≠I
Bartlett calcula un estadístico basado en el valor del

determinante de la matriz de coeficientes de correlación, R, del
siguiente modo:
Donde k es el rango de la matriz que corresponde al número de

variables, n es el tamaño de la muestra y |R| es el determinante
de la matriz de correlaciones donde el estadístico de contraste es
una distribuida χ2.
El test de Bartlett tiene un gran inconveniente. Tiende a ser

estadísticamente significativo cuando el tamaño muestral n crece
(n→∞) o asintóticamente significativo. Algunos autores advierten
que únicamente se utilice cuando la razón n=k sea menor que 5.

PRUEBA KMO
Definicion. Coeficiente de correlacion parcial. Permite conocer el
valor de la correlación entre dos variables A y B, si la variable C
permance constante para la serie de observaciones
consideradas.
El índice de Kaiser-Meyer-Olkin o medida de adecuación

muestral KMO tiene el mismo objetivo que la prueba de Bartlett,
trata de saber si es posible factorizar las variables originales de
forma eficiente.
El punto de partida, al igual que con al prueba de esfericidad de

Barlett, es la matriz de correlaciones muestrales, R, entre las
variables observadas. Las variables pueden estar relativamente
correlacionadas, pero la correlación entre dos de ellas puede
estar influenciada por las otras.
El índice KMO compara los valores de las correlaciones lineales

simples y parciales. Al comparar la magnitud de los coeficientes
de correlación simple y parcial determina el impacto entre
variables.
El estadístico KMO varía entre 0 y 1. Si el índice KMO está

próximo a 1, el ACP tiene sentido. Si el índice es bajo (próximo a
0), el ACP no será irrelevante. El estadístico tiene la siguiente
forma:

Donde rij es el coeficiente de correlación lineal simple entre las

variables i-esima y j-esima y sij es el coeficiente de correlación
parcial entre las variables i-esima y j-esima. Existen dos
escenarios:
a. Si el coeficiente de correlación parcial es cercano a cero,
sij≅0, muestra que no existe relación entre las variables i-
esima y j-esima de forma directa. Sin embargo, si existe un
factor común a explicar entre todas las variables visto en la
correlacion lineal simple. Su resultado es el estadistico de
ajuste igual a uno, KMO≅1.
b. Si el coeficiente de correlación parcial es cercano a uno,
sij≅1, indica que las variables NO están midiendo un factor
común, únicamente la relación directa entr las variables i-
esima y j-esima, por tanto, el estadistico de ajuste es igual a
cero, KMO≅0.
Algunos autores han definido una escala para interpretar el

índice KMO de un conjunto de datos.
KMO CRITERIO
0.00 to 0.49 inaceptable
0.50 to 0.59 Bajo
0.60 to 0.69 Mediocre
0.70 to 0.79 Medio
0.80 to 0.89 Meritorio
0.90 to 1.00 Excelente

1.12. CONCLUSIONES
Los resultados encontrados por el método de análisis de
componentes principales pueden resumirse en las siguientes
conclusiones:
1. La varianza total es igual a la suma de los valores propios de
Σ. Es decir, la varianza total es la misma con las variables
originales que con las variables transformadas, Fi.
2. Las componentes principales son variables aleatorias no
correlacionadas entre sí obtenidas mediante
transformaciones lineales ortogonales de las variables
originales centradas. Esto es: Fj=ajX=aj1X1+ aj2X2+….+ aj2X2
para j=1,2,….p
3. Si todas las variables originales Xi son normalmente
distribuidas entonces todas las componentes principales
son normales.

PARTE III. MODELOS DE DATOS PANEL

LINEALES

INTRODUCCIÓN
En el análisis de información (financiera, económica,
empresarial, comercial, etc.) pueden existir diferentes
dimensiones sobre las cuales se podría estar interesado en la
estimación de modelos que traten de extraer relaciones de
causalidad o comportamiento.
Una de estas dimensiones la constituye el análisis de series de

tiempo, la cual incorpora información de variables individuales
durante un período determinado (ventana temporal).
Por otra parte, existe otra dimensión, independiente a la

anterior, que no incorpora el aspecto temporal sino que
representa el análisis de información para unidades individuales
de estudio en un momento determinado del tiempo (dimensión
estructural). En este tipo de análisis, o corte transversal, cada
elemento no lo constituye el tiempo sino las unidades de análisis.
Desde un punto de vista de corte transversal o dimensión

estructural, se podría, por ejemplo, modelar de forma estructural
los ingresos de las firmas del sector asegurador (I).
Un análisis de regresión basado en datos de corte transversal

para un año en particular podría incluir una serie de variables
explicativas tales como calidad de la gestión de la administración
(G), monto monetario del capital liquido (K), costos asociados a
mano de obra en número de horas (L), nivel de apalancamiento
financiero (A) y un término de error estocástico (uit).

Con la información incluida, el modelo de corte transversal se

podría expresar como2:
I=β0+ β1G+β2K+β3L+β4A+uit
Sin embargo, este modelo no podría identificar, o tomar en

cuenta, como la variable explicativa del ingreso (I) puede
identificar cualquier incremento en la productividad que pueda
ocurrir en el transcurso del tiempo como consecuencia de
mejoras tecnológicas, aprendizaje o procesos que hayan sido
incorporados.
De otro lado, desde una dimensión temporal o una visión de

series de tiempo, o modelo ARIMA, para este mismo ejemplo, se
podría determinar una estructura dinámica del comportamiento
de los ingresos (It) sobre una ventana temporal que depende del
comportamiento anterior de la variable k periodos atrás, así
como de los errores o innovaciones pasadas (uit). La estructura
del modelo es la siguiente:
It=ϕ1It-1+ϕ2It-2+……….+ ϕkIt-k+θ1uit-1+ θ2uit-2……….+ θkuit-k
Este modelo no tendría en cuenta la relación con otras variables

que pueden determinar su comportamiento, es decir, excluye del
análisis la gestión de la administración (G), monto monetario del
capital liquido (K), costos asociados a mano de obra en número
2Si se deseara utilizar variables rezagadas sobre una variable endógena, por ejemplo, considere el siguiente modelo de rezagos distribuidos de
Almon:
Donde xt es una variable exógena y ut es un término de perturbación estocástica. En general, las variables rezagadas x t y xt-1 son cercanas.
Adicionalmente, si se desea observar el cambio de la variable x en el tiempo entonces se tiene que x t-1+∆xt-1= xt-1+(xt-1- xt-2)=2xt-1-xt-2. Esta
estructura expone un alto componente de colinealidad entre variables. En general, no existe suficiente información para efectuar una estimación
precisa sin supuestos a priori.

de horas (L), nivel apalancamiento financiero (A) como variables

de estudio.
Ambos tipos de análisis de información independientemente

permiten extraer conclusiones, sin embargo, los modelos de
corte transversal (análisis de regresión) y series de tiempo
(serie temporal) tienen ciertas limitaciones inherentes a su
estructura.
Para el primero, no arrojan luces sobre dependencia

intertemporal de eventos, tampoco resuelven satisfactoriamente
problemas fundamentales acerca de los orígenes de la
persistencia en el comportamiento, es decir, del verdadero
estado de dependencia entre variables o individuos o si su causa
es de origen espurio, siendo una metodología que no permite
controlar comportamientos heterogéneos de la población.
Para el segundo, su metodología no asume una forma

estructural, únicamente temporal, su principal utilidad radica en
la potencia frente de pronóstico de corto plazo.
Un modelo de datos panel incluye una muestra repetida de

entidades (individuos, empresas, bancos, ciudades, países, etc)
para un período determinado de tiempo, esto es, combina ambos
tipos de datos (dimensión temporal y estructural).
Las estructuras panel son mas informativas que una serie de

tiempo agregada, en la medida que narra una historia individual.
Por ejemplo, una serie de tiempo analiza el comportamiento
histórico de la tasa de desempleo del 10% al año.

La serie de tiempo, es menos informativa que un panel de

individuos, en la medida que con una tasa del 10% desempleado
puede ser que exista del total de la población un total del 10%
desempleado aleatoreamente distribuido o que siempre exista el
mismo tipo de personas que corresponde al 10% de la población
desempleada. Las políticas son distintas.
Para obtener, por ejemplo, un panel sobre desempleo se cuenta

con variables exógenas como salarios, sector, género, horas
trabajadas, etc. Se selecciona aleatoriamente a un conjunto de
individuos de la población en un momento del tiempo y se
recoge esa información.
En otro momento (próximo mes, trimestre, año) se debe realizar

la misma entrevista a los mismos individuos. Este es el típico
procedimiento para construir bases de datos panel, por ejemplo,
encuestas de hogares que permiten obtener información de
interés para el mismo grupo de individuos en diferentes
periodos.
Definición. Datos panel o datos longitudinales (longitudinal data).

Representa medidas repetidas en diferentes puntos del tiempo
sobre la misma unidad individual, como por ejemplo, personas,
firmas, estados, países.
Con esta información se cuenta con un gran potencial en resolver

problemas más allá del corte transversal o series temporales que
no puede manejarse de manera satisfactoria individualmente.

Las regresiones panel pueden capturar variaciones sobre

unidades desde dos puntos de vista distintos, el primero, similar
a la regresión de corte transversal, el segundo, variación sobre el
tiempo o estructuras dinámicas.
La diferencia entre corte transversal y datos de panel radica en

que en el segundo sigue a las mismas unidades registradas en el
primero (individuos, familias, etc.), en distintos periodos de
tiempo. Un panel entonces requiere observar al mismo conjunto
de unidades en al menos dos momentos del tiempo diferentes.
ESTRUCTURA DE DATOS PANEL

T
E Y X t-1 t-2 t-3 t-n
y1 x1
y2 x2
E1 y3 x3
: :
yn xn
y1 x1
y2 x2
E2 y3 x3
: :
yn xn
: : : : : : : :
y1 x1
y2 x2
Ek y3 x3
: :
yn xn
Por ejemplo, pueden construirse paneles de hogares, firmas o

países. Un ejemplo tradicional radica en las encuestas sobre
hogares (en Colombia la Encuesta Nacional de Hogares-ENH).
Suponga que se comienza en el año 1968 con 4802 familias,

incluyendo hogares pobres. Se efectúan entrevistas anuales
donde se observan conductas y características socioeconómicas
de cada familia y de aproximadamente 31.000 individuos

quienes han sido registrados sobre la encuesta o derivados de las

familias encuestadas.
La lista de variables almacenada supera las 5.000. El objetivo es

tener cinco (5) segmentos distintos de la fuerza de trabajo. La
muestra original incluye 5.000 adultos 5.225 hombres jóvenes,
5.083 mujeres adultas, 5.159 mujeres jóvenes y 12.686 niños. Se
analizan por negros, indígenas, desplazados, militares y menores
de 18 años.
Combinando estos datos proporciona una rica y valiosa fuente

de variación la cual permite estimaciones más eficientes de los
parámetros.
Adicionalmente, más información muestral, implica estimaciones

más confiables y pruebas más sofisticadas de modelos de
comportamiento. Con menos supuestos restrictivos.
Otra ventaja, de las bases de datos panel es su habilidad para

controlar la heterogeneidad individual. No controlar estos
efectos individuales no observados específicos conduce a sesgo e
inconsistencia en los resultados estimados.
Las bases de datos panel son también mejores para identificar y

estimar efectos que no son detectables en series de tiempo o
cortes trasversales puros. En particular, los conjuntos de paneles
de datos permiten de mejor manera estudiar problemas
complejos de comportamiento dinámico.

Por ejemplo, un modelo de corte transversal puede estimar la

tasa de desempleo en un punto en particular en el tiempo. Cortes
transversales repetidos en el tiempo pueden demostrar cómo
esta proporción cambia sobre el tiempo.
Únicamente bases de datos panel pueden estimar que

proporción de aquellos que están desempleados en un periodo
permanezcan desempleados en otro periodo y determinar sus
causas.
El principal objetivo de aplicar y estudiar datos panel, es capturar

la heterogeneidad no observable, ya sea entre individuos o
entidades, así como también en el tiempo, dado que esta
heterogeneidad no se puede detectar ni con estudios de series
temporales ni con estructuras de corte transversal.
En términos más formales. Suponga una estructura básica del

modelo de regresión de la forma:
yit=Xitβ+Ziα+uit
Los K regresores de Xit no incluyen el termino constante. La

heterogeneidad o efecto individual es Ziα donde Zi contiene un
termino constante y un conjunto de variables especificas
individuales las cuales pueden ser observadas (sexo, raza,
religión) o no observadas (habilidades, preferencias, etc).
Esta técnica permite realizar un análisis dinámico, al incorporar

la dimensión temporal de los datos estructurales, lo que
enriquece el estudio, particularmente en períodos de grandes
cambios.

La principal ventaja de los paneles de datos es el incremento de la

precisión en el proceso de estimación.
Este es el resultado de aumentos en el número de observaciones

al combinar o agregar diferentes periodos de tiempo para cada
individuo vistos desde una regresión de corte transversal.
La aplicación de esta metodología permite analizar dos aspectos

de suma importancia y forman parte de la heterogeneidad no
observable.
1. Los efectos individuales específicos. Son aquellos que afectan
de manera desigual a cada uno de los individuos de estudio
contenidos en la muestra (consumidores, empresas, bancos,
etc), los cuales son invariantes en el tiempo e impactan de
manera directa las decisiones que tomen las unidades
individualmente. Usualmente se identifica este tipo de
efectos asociados a sexo, raza, capacidad empresarial,
eficiencia operativa, capitalización de la experiencia, acceso
a la tecnología, productividad, management, etc.
2. Efectos temporales. Son aquellos que impactan por igual a
todas las unidades individuales pero que varían en el
tiempo. Este tipo de efectos pueden asociarse, por ejemplo,
a impactos regulatorios, innovaciones tecnológicas o en
variables macroeconómicas, cambios en tasas de interés o
aranceles que pueden afectar por igual a todas las empresas
o entidades que tienen una evolución o trayectoria
dinámica.

ESPECIFICACIÓN GENERAL DE UN MODELO DE DATOS DE

PANEL
La especificación de un modelo de datos panel parte de las
siguientes características:
yit = αit + Xitβ + uit con i = 1,......,N y t = 1,...,T.
Donde el subíndice i se refiere al individuo o a la entidad de

estudio (corte transversal), t a la dimensión en el tiempo (serie
temporal).
El parametro, α es un vector de interceptos correspondiente al

total de individuos (i) con variación en el tiempo (t), es decir,
existen NxT parámetros, Xkit es la i-ésima observación al
momento t-esimo para la K-esima variable explicativa x que
pertenece al vector de variables explicativas X, β es un vector de
tamaño Kx1 con K parámetros correspondiente a cada una de las
variables explicativas, por ultimo, yit es la i-ésima observación al
momento t-esimo para la variable respuesta o dependiente y.
La muestra total de las observaciones en el modelo vendría dado

por el número de individuos multiplicado por el número de
periodos de análisis (NxT)3.
Por otra parte, es usual interpretar modelos de datos panel a

través de sus componentes en el término de error. Al término de
error de la ecuación anterior, uit, se le suele llamar error
compuesto dado que tiene un componente fijo no observado
entre individuos y otro que cambia en el tiempo.
3A partir de este modelo general, y con base en ciertos supuestos y restricciones acerca del valor de algunos de los parámetros, se pueden derivar
otras variantes de modelos datos panel.

Es decir, el término uit incluido en la ecuación de regresión panel,

puede descomponerse de la siguiente manera:
uit = μi + δt + εit
El primer término, conocido como heterogeneidad no observada
de la muestra, μi, representa efectos no observables que difieren
entre individuos o entidades de estudio pero no en el tiempo.
Corresponde a un efecto por individuo invariante periodo a

periodo y corresponde a un vector conformado por las variables
constantes en el tiempo capturadas por el término de error. Por
ejemplo, la variable sexo es un componente de heterogeneidad
individual que puede ser no observada en un análisis.
El segundo término, δt, se le identifica con efectos no observables

que varían en el tiempo pero no entre las unidades de estudio.
Por ejemplo, cambios regulatorios que afectan a todos los
individuos desde su periodo de expedición.
Por último, εit se refiere al término de error puramente aleatorio

tipo ruido blanco que tiene componentes por individuo y tiempo.
Tiene caracteresiticas similares al componente del error de corte
transversal.
La mayoría de las aplicaciones con datos panel modelan el

componente de error, uit, para efectos no observables entre
individuos que no varían en el tiempo (μi≠0), pero no efectos de
cambio en el tiempo (δt=0), este modelo conocido como de un
factor o one way.

Las diferentes variantes para el modelo one way de componentes

de errores surgen de distintos supuestos que se hacen acerca de
efectos no observables que difieren entre las unidades de
estudio (μi). Pueden presentarse tres (3) posibilidades:
1. Considera a μi=0, es decir, no existe heterogeneidad no
observable entre individuos, entidades o firmas. Dado lo
anterior, el término de error, uit, satisface todos los
supuestos del modelo lineal general, por lo cual, el método
de estimación de mínimos cuadrados (OLS) produce los
mejores estimadores lineales insesgados (BLUE).
2. Considera a μi≠0, es decir, existe heterogeneidad no
observable entre individuos, entidades o firmas. Considera
al efecto individual no observado, μi, como una variable que
impacta a los regresores. En este caso, la heterogeneidad no
observable se incorpora a la constante del modelo.
3. Considera a μi≠0, es decir, existe heterogeneidad no
observable entre los individuos, entidades o firmas.
Considera al efecto individual no observado, μi, como una
variable aleatoria no observable que varía entre individuos
pero no en el tiempo.
En los casos dos y tres se utilizaran metodologías especiales de

estimación para datos panel que serán expuestas más adelante
conocidas como efectos fijos y aleatorios, respectivamente.
Existe, además de la estructura de un factor o one way, el modelo

de dos factores o two-way en el cual el componente de error,
ademas de la estructura de modelamiento individual no
observado (μi≠0) incorpora el efecto no observable que varían

en el tiempo pero no entre unidades de estudio con un valor

distinto de cero (δt≠0).
El modelo de dos factores o two way pretende capturar efectos

temporales específicos (innovaciones) sumándolos a la medición
de efectos no observables que difieren entre las entidades de
estudio pero no en el tiempo que no están incluidos en la
regresión (δt≠0 y μi≠0), Balgati (2001).
ESTRUCTURA DATA PANEL SEGÚN TÉRMINO DE ERROR
Método de estimación
Efecto no observado
OVERVIEW DE MODELOS DE PANELES DE DATOS
Distintas caracteristicas en la construcción de modelos de datos
panel se pueden configurar según la disponibilidad de las
observaciones individuales, asi como de sus intervalos de tiempo
y estructura de los errores o innovaciones. Por ejemplo, se
pueden observar los siguientes casos:
1. Modelo A. Las pendientes de los coeficientes, β, y el

intercepto, α, son constantes en el tiempo (t) e iguales para
todos los individuos (i), conocido como modelo restringido:

2. Modelo B. Las pendientes de los coeficientes, β, son

constantes en el tiempo (t) y los individuos (i). El
intercepto, α, varia sobre los individuos (i):
3. Modelo C. Las pendientes de los coeficientes, β, son

constantes para los individuos (i) y el tiempo (t). El
intercepto, α, varia sobre los individuos (i) y el tiempo (t):
4. Modelo D. Las pendientes de los coeficientes, β, varían sobre

los individuos (i) pero no sobre el tiempo. El intercepto, α,
varia sobre los individuos (i).
5. Modelo E. Las pendientes de los coeficientes, β, varían sobre

el tiempo (t) e individuos (i). El intercepto, α, varia sobre el
tiempo (t) y individuos (i). Se conoce como modelo no
restringido:

Existen dos procedimientos para estimar el modelo de datos

panel. Cada uno de ellos parte del supuesto de endogeneidad, es
decir, la dependencia entre términos de error y regresores
(E[XU]=0).
El primero, asume algún tipo de correlación entre regresores y

términos de error (endogeneidad) e implica el reconocimiento
que variables omitidas pueden generar cambios en los
interceptos ya sea a través del tiempo o entre unidades de corte
transversal. E[XU-≠0. En este caso, el modelo es conocido como
efectos fijos (Fixed Effects o FE).
El otro modelo es efectos aleatorios, asume independencia entre

regresores y términos de error al tratar de capturar estas
diferencias a través del componente aleatorio (Random effects o
RE) por medio de la estructura de covarianzas. . E[XU]=0.
La selección de Efectos Fijos (FE) o Efectos Aleatorios (RE) tiene

un impacto significativo en las metodologias de estimación y
consistencia de los estimadores.
Además, la variabilidad del intercepto, α, y las pendientes de los

parametros, β, sobre los individuos (i) y el tiempo (t) tiene
impacto en la estructura de covarianzas, y por tanto, impacto en
los intervalos de confianza y pruebas de hipótesis.

Una revisión de los modelos para datos paneles lineales no

dinámicos, y recopilar los puntos anteriores, se puede encontrar
en el siguiente gráfico:
MODELOS DE DATOS PANEL O CORTE LONGITUDINAL
La primera especificación (A) se refiere al caso en que no existe

heterogeneidad no observable en la estructura de datos de panel,
μi=0, por tanto, se emplea el método de Mínimos Cuadrados
Ordinarios (OLS) con la ventaja de ganar grados de libertad.
En los casos en que se rechaza la hipótesis de homogeneidad

entre individuos en un sistema de datos de panel, μi≠0, es decir,
existe heterogeneidad no observable ya sea a través del tiempo,
entre unidades de estudio (individuos) o en ambos sentidos,

debe buscarse una especificación que la capture en forma

apropiada con el fin de evitar el problema de sesgo e
inconsistencia sobre los estimadores de los parámetros de las
variables explicativas, Xit, que se cometería si se emplea la
especificación A, o modelo restringido, cuando existe un efecto
no observado (sesgo por variables omitidas).
Una forma simple, y de hecho la más utilizada, es incorporar esta

heterogeneidad no observada empleando los modelos de
intercepto variable, identificados en las especificaciones con
intercerto variable entre los individuos (modelo B) o con el
intercepto variable en el tiempo y los individuos (modelo C).
Estos modelos son ampliamente utilizados cuando se analizan

datos panel lineales debido a que son estimables, a diferencia de
los modelos D y E, proporcionan alternativas simples y generales
sobre el supuesto de los parámetros y toman valores comunes
para todos los individuos (i) en el tiempo.
Los modelos B y C, donde varia el intercepto, parte de un modelo

lineal para todos individuos (i) y tiempo (t). A partir del modelo
general se pueden representar los modelos B y C mediante las
siguientes ecuaciones:
Modelo B:
Modelo C:
El primer paso después de comprender los modelos panel, el

trabajo radica en identificar las variables explicativas

observadas (Xk) en la base de datos panel de tres formas

posibles:
1. Una variable que cambia en el tiempo y por individuo (Zit). Se
trata de variables que cambian entre individuos en un
momento del tiempo, y que además cambian a lo largo del
tiempo. Como ejemplo, se pueden mencionar ingresos
totales, nivel de beneficios, nivel de capital, razones
financieras, entre otras.
2. Una variable por cada individuo, sin cambios en el tiempo
(Zit=Zi). Este es el caso de variables que son las mismas para
cada unidad de corte transversal a través del tiempo.
Ejemplos de ellas se tienen características como sexo,
religión y otras características sociodemográficas.
3. Una variable por periodo pero no cambia entre individuos
(Zit=Zt). Son las mismas variables para todos los individuos
en un momento del tiempo pero varían a lo largo del
periodo de estudio. Como ejemplo, cambios en la actividad
regulatoria, nivel de precios, tasas de interés, etc.
En conclusión, en una base de datos panel pueden existir

distintos tipos de variables que son capaces de representar
diferentes efectos.
Se pueden tener variables invariantes en el tiempo (xit=xi), que

no varían con los individuos (xit=xt) o que varían tanto con el
tiempo como con los individuos (xit) que tienen un impacto
directo y significativo en los procesos de estimación por paneles
de datos.

REGRESIÓNES AGRUPADAS, EFECTOS FIJOS Y ALEATORIOS

Ya definidos los modelos de trabajo B y C en las especificaciones
panel e identificadas las variables disponibles es necesario
revisar la estructura de composición del término de error con el
objetivo de implementar estrategias de estimación. Las más
utilizadas son las siguientes:
a. Regresión agrupada (pooled). Estima el siguiente modelo:
Es un modelo de estimación donde no existe diferenciación

entre individuos y no intenta capturar efectos no
observados. Utiliza técnicas tradicionales por OLS. Es
posible por las características de la base de datos panel que
E(xit,ui)≠0. Entonces, la regresión agrupada (pooled) estará
sesgada. Muchas veces dicha correlación es causada por un
error de especificación dada la ausencia de alguna variable
relevante (variables omitidas) o la existencia de cualidades
no observables (heterogeneidad no observable) de cada
individuo.
b. Regresión panel por Efectos Fijos (Fixed Effects o FE). Los
modelos de regresión de datos panel realizan distintas
hipótesis sobre el comportamiento de los residuos, como ya
se notó anteriormente. Esto tiene un impacto en las
metodologías y supuestos sobre el modelo de regresión a
implementar en un modelo one way. El modelo a estimar es:
Donde αi =α+vi, luego reemplazando en (2) queda:

Es decir, supone que el error (uit) puede descomponerse en

dos partes, una parte que hacer parte de los regresores,
constante para cada uno de los individuos representando el
efecto individual no observado (vi) y otra aleatoria que
cumple requisitos OLS (uit).
El elemento, vi, representa el efecto individual no observado

que se incorpora al intercepto para ser estimado
posteriormente. Esta metodología permite modelar algún
tipo de endogeneidad en los términos de error, a diferencia
del modelo de regresión lineal general, es decir, E[XU-≠0, y
efectuar estimaciones consistentes.
c. Regresión panel por aleatorios (random effects o RE). Tiene
la misma especificación que el modelo efectos fijos con la
salvedad que el efecto individual no observado, vi, en lugar
de ser un valor a ser estimado para cada individuo es una
variable aleatoria con un valor medio vi y una varianza
Var(vi)≠0. Es decir, la especificación del modelo es igual a:
Salvo que ahora el efecto individual no observado, vi , es una

variable aleatoria que se incorpora al termino de error. Su
estructura parte del supuesto de exógeneidad fuerte
E[XU]=0. Por tal motivo, además, con la existencia de n
individuos distintos la estructura de covarianzas debe ser
contemplada con el supuesto de heterocedasticidad a través
de una estructura de covarianzas más general, 𝚺̂.

El modelo de Efectos Aleatorios (RE) es más eficiente pero

menos consistente que el de Efectos Fijos (FE). Es decir, es
más exacto en el cálculo del valor del parámetro pero puede
contener sesgo a diferencia del modelo de efectos fijos.
Adicionalmente, al ser el efecto individual no observado, vi,

una variable aleatoria no se está seguro del valor exacto en
el origen que pueda tener cada individuo sino que este
término probablemente gravitará en torno a un valor
central. Eso implica que el modelo parte del supuesto que la
base de datos panel proviene de una muestra de un gran
universo de individuos.
En conclusión, La principal diferencia entre los modelos de

efectos fijos (Fixed effect o FE) y efectos aleatorios (random
effects RE) parte de como cada uno de ellos efectua un
tratamiento distinto del supuesto de exogeneidad fuerte,
E[XU]=0. Ademas de estas diferencias, se suma otra importante,
el modelo de efectos fijos (Fixed effect o FE) en su construccion
parte de una poblacion, mientras el modelo de efectos aleatorios
(random effects RE) inicia desde una muestra aleatoria.
VARIACION BETWEEN-WITHIN
La variable dependiente y regresores del modelo de datos panel
pueden variar sobre el tiempo (t) e individuos (i), como ya se ha
definido. La variación en el tiempo de una variable x para un
individuo es conocida como variación within y la variación de

una variable x a través de individuos se conoce como variación

between4.
Variación Between Vs Within
Individuo 2
Variacion Between
Individuo 1
Variación Within
ithinetween
Esta distinción tiene un significado importante dentro del

modelo de datos panel debido a que estimadores y variables
difieren en su uso según la ponderación que se efectuá entre el
efecto de variabilidad between o within.
La variación total alrededor de la media se define como

x̅ = 1/NT ∑ ∑ x la cual se divide en variación within
(suma respecto a los T periodos) y between (suma respecto a los
N individuos).
La variación within, para cada regresor, xit, se calcula como el

promedio en el tiempo de cada uno de los individuos de la
variable x (media de la variable x para el individuo i-esimo a
través del tiempo, x̅ = 1/T ∑ x )
4 Esta metodología es conocida como estimación de dinámicas entre grupos. En análisis de corte transversal tradicional, cada observación captura
información de su nivel de largo plazo y su componente cíclico. El estimador de efectos entre grupos (between) en términos generales reduce el
problema de un panel longitudinal a uno de corte transversal, empleando el cálculo promedio de las variables al interior de cada individuo. El
procedimiento general para obtener este estimador necesita calcular el promedio de la variable dependiente y de los regresores a lo largo del
tiempo. Posteriormente, realiza una estimación OLS donde se usan como regresores y variable dependiente los promedios calculados en el paso 1.

La variación between mide las diferencias a través de los

individuos para la variable x de la forma (x̅ x̅). Explota sólo la
variación de corte transversal.
A partir de la descomposición de promedios (x̅) y la varianza

muestral (S) para la variable x es posible encontrar las
variaciones between y within calculadas como:
PROMEDIOS:
Total: 1
x̅ = ∑∑x
NT
En el grupo (WITHIN): 1
x̅ = ∑x
T
Entre grupos (BETWEEN): x̅ =(x̅ x̅)
DESVIACIÓN ESTÁNDAR MUESTRAL
En el grupo (WITHIN) o
s =√ ∑ ∑ (x x̅ )
entorno a la media individual:
Entre grupos (BETWEEN) o
∑ (x̅
entorno al promedio de s =√ x̅ )
individuos respecto al total:
Total o entorno a la media total:
1
s =√ ∑ ∑(x x̅)
NT 1
En la mayoría de aplicativos es posible generar tablas donde se

expone estadisticos descriptivos como máximo, mínimo,
percentiles, varianza, etc. En STATA, por ejemplo, xtsum.

CALCULO WITHIN BETWEEN STATA
EJERCICIO. Calcule la variación between, within y overall para la

siguiente base de datos panel.
PERIODO INDIVIDUO Y X1 X2 X3
1 1 23 16 31 42
2 1 45 6.5 87 78
3 1 76 8 32 65
1 2 21 43 4 38
2 2 98 5 55 75
3 2 5 78 24 29
Es importante resaltar que variables para las cuales no existe
cambio en el tiempo pero si entre individuos (zit=zi) como sexo,
raza o religión existe variación between pero no cuentan con
variación within.
Dentro del analisis de bases de datos panel es posible medir

variaciones totales que corresponden al componente between y
cero o muy pequeña variacion within.
Para variables discretas, una tabulación de valores (histograma)

puede ofrecer una visión completa de observaciones que toman
ese valor (overall), individuos para los que alguna vez toma ese
valor (between) y el porcentaje de individuos que nunca cambia
de valor (within).

A si mismo para variables dummy, se puede calcular una matriz

de transición (ofrecen idea de persistencia dinámica de efectos
observados) donde se exponga la evolución de la variable entre
el periodo actual (xit) y el siguiente (xit+1) bajo la existencia (1) o
no (0) del evento registrado.
MATRIZ DE TRANSICION EFECTOS PANEL WITHIN BETWEEN
CARACTERISTICAS ADICIONALES DE DATOS PANEL

A partir de lo anterior es posible identificar algunas otras
caracteristicas sobre modelos de datos panel, entre ellas:
1. Un término más preciso para el modelo one way es definido
como el modelo de efectos aleatorios específicos de un solo
factor (one-way individual specific random effects model) o
simplemente modelo de intercepto aleatorio (random
intercept model).
2. Los datos panel son usualmente observados en intervalos
regulares de tiempo (meses, trimestres, años) con las
mismas caracteristicas de los datos de series de tiempo.
3. Los paneles de datos pueden ser balanceados, significando
que todas las unidades individuales son observadas en
todos los periodos (Ti=T ∀i), aunque pueden existir paneles
desbalanceados (Ti≠T para algún i). En cualquier caso, la
consistencia del estimador requiere que el proceso de
selección de la muestra no conduzca a errores de
correlación con regresores.

En la descripción de los datos se hace indispensable para

paneles balanceados, exponer el número de observaciones,
determinar el número de individuos distintos (N) y total de
periodos cubiertos por el panel (T).
Para paneles NO balanceados, además de lo anterior, se

debe considerar periodos concretos en que se observa cada
individuo (Ti) y el número total de observaciones existentes,
∑ T.
Adicionalmente, es importante tener en cuenta que no tiene

porque haber individuos observados todos los periodos y
que individuos con el mismo numero de observaciones (Ti)
pueden ser observados en periodos diferentes.
4. Las bases de datos pueden ser de diferentes tipos. Entre
ellos, paneles cortos (pocos periodos y muchos individuos)
o paneles largos (muchos periodos y pocos individuos) o
ambos, conocido como campo aleatorio (muchas periodos y
muchos individuos).
Esta distincion tiene consecuencias para las metodologias de

estimacion e inferencia sobre el modelo. El foco inicial de
trabajo radica en paneles cortos, lo que implica, datos de
muchas unidades individuales y pocos periodos.

PANEL CORTO BALANCEADO PANEL LARGO BALANCEADO

T
E Y X t-1 t-2 t-3
y1 x1
E1 : :
yn xn T
y1 x1 E Y X t-1 t-2 t-3 ………… t-n+1 t-n
E2 : : y1 x1
yn xn E1 : :
y1 x1 yn xn
E3 : : y1 x1
yn xn E2 : :
y1 x1 yn xn
E4 : :
yn xn
: : : : :
y1 x1
Ek : :
yn xn
PANEL CORTO DESBALANCEADO PANEL LARGO DESBALANCEADO

T
E Y X t-1 t-2 t-3
y1 x1
E1 : :
yn xn T
y1 x1 E Y X t-1 t-2 t-3 ………… t-n+1 t-n
E2 : : y1 x1
yn xn E1 : :
y1 x1 yn xn
E3 : : y1 x1
yn xn E2 : :
y1 x1 yn xn
E4 : :
yn xn
: : : : :
y1 x1
Ek : :
yn xn
5. Los errores del modelo están altamente correlacionados. Se

enfatiza como la correlación o agrupamiento sobre el
tiempo para un individuo dado, con interdependencia sobre
otras unidades individuales puede existir.
Para algunos modelos de datos panel, tales como

información de países, pueden adicionalmente existir
correlaciones entre individuos.
A pesar del supuesto hecho, es necesario realizar

correcciones sobre los términos de error para efectuar el
proceso de estimación por mínimos cuadrados ordinarios

(OLS), y en algún caso, es necesario corregirlas, teniendo

ganancias en eficiencia utilizando mínimos cuadrados
generalizados factibles (FGLS) o métodos generalizados de
momentos (GMM).
6. Los coeficientes de regresión, β, están en función del tipo de
regresor y son capaces de modificar la metodología de
estimación aplicada. Por ejemplo, algunos regresores como
género, pueden ser invariantes en el tiempo, es decir, xit=xi
para todo t, y en algunos casos, como es para efectos fijos,
no puede ser calculada.
Desde otro punto de vista, algunos regresores, tales como

una tendencia temporal, pueden ser invariantes entre los
individuos afectándolos a todos por igual en el tiempo, es
decir, xit=xt para todo i, y algunos pueden variar sobre el
tiempo y sobre los individuos de manera simultánea, es
decir, xit.
7. Algunos o todos los coeficientes estimados dentro del
modelo pueden variar a través de los individuos o sobre el
tiempo, es decir, xit.
8. La literatura enfatiza en el modelo de efectos fijos. Este
modelo permite a los regresores, xit, tener algún grado de
endógeneidad (determinados dentro del modelo) lo que
indica que los regresores, x, están correlacionados con un
componente del error invariante en el tiempo. Otras ramas
enfatizan el modelo de efectos aleatorios que asume
regresores completamente aleatorios y exógenos o efectos
aleatorios.

9. Los paneles de datos permiten estimación de modelos

dinámicos donde la variable dependiente rezagada pueden
convertirse en regresor tal como lo expone Arellano (2002).
SUPUESTOS DE TRABAJO EN METODOLOGIAS DE DATOS PANEL
Dentro de la construcción del modelo de datos panel, visto como
una generalización de modelos de corte transversal, surgen
comparaciones obligadas entre ellos. En especial sobre aquellos
supuestos que por su naturaleza son solucionados por la
metodología panel. Entre ellos:
1. Sesgo de heterogeneidad
2. Variables omitidas y efectos no observados
3. Autocorrelación serial por efectos constantes en el
término de error
4. Problema de parametros incidentales
SESGO DE HETEROGENEIDAD
Al incluir efectos between y within dentro del análisis y observar
la significancia de la interacción entre individuos y tiempo entre
variables e individuos surge la pregunta ¿que ocurre si este
efecto se omite?
El no contar con el efecto individual no observado, αi, y aplicar

OLS a una base de datos panel se suele llamar sesgo de
heterogeneidad. Surge de omitir una variable que difiere entre
individuos pero no cambia en el tiempo.

ANALISIS BETWEEN-WITHIN-OVERALL
OLS/FGLS
Overall
El grafico anterior ayuda a comprender el sesgo por

heterogeneidad. Suponga una muestra con 4 individuos (N=4) y
20 periodos de tiempo (T=20). Para el individuo i-esimo existe
una pendiente idéntica y positivamente relacionada en una
forma lineal entre Y y X.
Para la muestra completa la relación es ligeramente descendente

y lineal. Si el interés se centra en el modelo anterior, la
estimación sobre todos los eventos de la muestra (overall) es un
sesgo de heterogeneidad.
Es decir, el sesgo en el proceso de estimación causado por omitir

los efectos individuales no observados, αi, y aplicar OLS utilizando
técnicas de datos agrupados (pooled).

VARIABLES OMITIDAS Y EFECTOS NO OBSERVADOS

Si la heterogeneidad no observada no es controlada conduce al
sesgo por variables omitidas que puede ser corregido por
variables instrumentales (2LS) en el caso de corte transversal5.
Para el caso de datos panel existen diferentes metodologías

alternativas de tratamiento.
La ventaja de los modelos de datos panel para construir y probar

modelos de comportamiento más amplio que el puramente de
corte transversal o series de tiempo.
Estos proporcionan medios para resolver o reducir la magnitud

de problemas econométricos que se observan en estudios
empiricos relacionados con la presencia de variables omitidas
(no medidas o no observadas) que estan correlacionadas con
variables explicativas.
Utilizando información de la dinámica intertemporal de las

entidades individuales, de una manera natural, se pueden
incorporar efectos de variables omitidas o no observadas.
Por ejemplo, suponga el siguiente modelo de regresion:
5En la práctica es difícil encontrar buen un instrumento para le calulo del estimador de variables instrumentales ya que debe tener caracterisitcas
a veces incompatibles como que revele información similar a la variable a reemplazar dentro del modelo de regresion y adicionalmente sea
exógena frente a los regresores.

Donde xit y zit son vectores de tamaño k1X1 y k2X2 de variables

exogenas, α*, β y ρ son vectores de parámetros de tamaño 1X1,
k1X1 y k2X1, respectivamente.
El término de error uit es una variable aleatoria, independiente e

identicamente distribuida (vaiid) sobre individuos (i) y tiempo
(t) con media cero y varianza ς .
La regresión por mínimos cuadrados de yit sobre xit y zit arroja

estimadores consistentes e insesgados de α*, β y ρ.
Ahora suponga que valores de los regresores zit son no

observables y la covarianza entre regresores xit y zit es no cero.
Entonces, los coeficientes de regresión por minimos cuadrados

de yit sobre xit son sesgados e inconsistentes.
Sin embargo, si se encuentran disponibles observaciones

repetidas para un grupo de individuos, ellas pueden permitir
deshacerse de los efectos no observados de z.
Por ejemplo, si los regresores zit=zi para todo t (es decir, los
valores de la variable no observada, z, permanecen constantes a
traves del tiempo pero cambia a traves de los individuos), es
posible tomar la primera diferencia de las observaciones
individuales sobre el tiempo y se obtiene:

Donde la diferencia de la variable respuesta para el individuo i-

esimo entre el periodo actual (yit) y el anterior (yit-1), o mejor,
(yit-yit-1), debe ser igual a la diferencia entre los regresores para
el individuo i-esimo en los periodos t y t-1.
Si se efectua la diferencia sobre los regresores, zit, se eliminan

variables no observadas que no cambian en el tiempo, zi, por
ejemplo, raza o sexo.
De forma similar, si zit=zt para todo i (es decir, los valores de z

permanecen constantes a traves de los individuos pero varian a
traves del tiempo), se puede tomar la desviacion respecto a la
media a traves de los individuos en un periodo dado y obtener:
Donde el promedio aritmético de la variable respuesta para

todos los individuos, y̅, en cada periodo de tiempo se define
como y̅t=(1/N)∑ y .
Por tanto, (yit-y̅t) es la diferencia entre la respuesta de cada uno

de los individuos (yi) respecto al promedio de todos los
individuos (y̅) evaluados en cada periodo de tiempo (t).
Para los regresores aplica una fórmula similar. Es el promedio

aritmético de cada una de las observaciones de los individuos en
cada periodo de tiempo.

Se define como ̅t=(1/N)∑ , donde (xit-x̅t) será la diferencia

o desviación entre cada observación para cada individuo (i)
respecto a su promedio en cada periodo de tiempo (t).
Si se efectua la diferencia sobre los regresores zit se eliminan

variables no observadas que cambian en el tiempo, pero si entre
los individuos por ejemplo políticas o legislaciones.
Es decir, esta metodología permite minimizar el número de

variables no observadas que se encuentran ubicadas en la media
temporal a través de la estructura panel.
Por último, u̅t=(1/N)∑ u es el promedio de las innovaciones

de todos los individuos en cada periodo, su diferencia (uit-u̅t)
revela la distancia entre las innovaciones ocurridas en cada uno
de los individuos (i) respecto al promedio de las innovaciones de
los individuos calculadas en cada periodo de tiempo.
La regresión por OLS de las ecuaciones anteriores proporcionan

estimadores consistentes e insesgados de β como una alternativa
de solución a efectos no observados y variables omitidas.
Sin embargo, si se tiene un conjunto de datos de corte

transversal con un unico individuo (i=1) y se cuenta con
variables que no cambian en el tiempo pero si entre individuos
(zit=zi), o una base de datos con un periodo de tiempo (t=1) con
variables que no cambian entre individuos pero si en el tiempo
(zit=zt), tal transformación no puede ser ejecutada, por tanto, no
se puede asegurar la consistencia de β, a menos que existan

variables instrumento (IV) que estén correlacionados con x pero

no correlacionados con z y u.
Es importante observar que a pesar de los cambios temporales,

el valor de los parámetros β permanecen constantes. La
diferencia también aplica a los términos de error.
AUTOCORRELACIÓN SERIAL POR EFECTOS CONSTANTES EN EL

TÉRMINO DE ERROR
Suponga el modelo de regresión panel con un efecto individual
no observado a través de los individuos (μi).
Una caracteristica de las estimaciones de datos panel radica en la

posible correlación serial entre los errores compuestos de
diferentes periodos causados por la existencia de este efecto no
observado (μi).
Sea el modelo E, o modelo no restringido, donde varían

intercepto (α) y pendientes (β) a través de los individuos (i) y
tiempo (t):
Donde uit está compuesto por un término de heterogeneidad no

observada, μi, y un término aleatorio puro para individuos y
tiempo ϵit.

Ahora sobre un análisis de dos periodos (t=2) para el individuo

i-esimo:
En t=1: yi1= α + xi1+ui1 con ui1 = μi+ϵi1
En t=2: yi2= α + xi2+ui2 con ui2 = μi+ϵi2
Las ecuaciones anteriores demuestran como los errores, uit, del

modelo usualmente estaran correlacionados serialmente dada la
existencia del término de heterogeneidad no observada
invariante en el tiempo para el individuo i-esimo, μi. Es decir,
COV[uit,uis-≠0 para todo t≠s.
Con datos de panel no es posible suponer que las observaciones

son independientes ya que factores no observados que afectan a
los regresores en un periodo también afectarán a esas mismas
variables en el periodo siguiente.
Para validez del modelo panel, y su metodología de estimación,

es necesario controlar la probable correlación de los términos de
error del modelo de regresión sobre el tiempo para individuos
objetos de estudio.
En particular, la formula usual de OLS para los errores

estandarizados en una regresión OLS agrupada (pooled),
típicamente exagera el volumen de información independiente lo
cual implica ganancias en precisión, varianza y grados de
libertad, conduciendo a subestimar los errores estándar, y por
tanto, t-estadísticos pueden ser demasiado grandes.

Esto causa estimadores OLS menos eficientes (o de mayor

varianza) en comparación a los que se obtendrían sin
autocorrelación de los residuos y tiene implicaciones en la
construcción de pruebas t utilizadas para contrastar la
significancia de regresores, xit.
Entre mayor varianza, aumenta la posibilidad de encontrar la

verdadera significancia y mayor la probabilidad de cometer error
tipo I y error tipo II6.
PROBLEMA DE PARAMETROS INCIDENTALES

Bajo un contexto de paneles cortos no es posible encontrar los
parámetros para efectos fijos (FE) tanto para el proceso de
estimación como para efectuar contrastes de hipótesis.
La causa se debe al problema de parámetros incidentales. Es

decir, la incapacidad de calcular nuevos parámetros a medida
que crece con el tamaño muestral.
Si se considera que N tiende a infinito entonces conceptualmente

el número de efectos fijos (FE) calculados crecería también
infinitamente, lo que genera un modelo inestimable (N→∞
entonces αi→∞).
En otras palabras, asintóticamente a la hora de utilizar

contrastes de multiplicadores de Lagrange (LM), así como
estimación máximo verosímil (MV), por ejemplo, cuando el
6 Declarar un coeficiente estadísticamente no significativo, cuando en realidad lo es.

número de individuos (N) tienda al infinito implicaría la

estimación de un número infinito de variables dummy.
Existen potenciales soluciones para continuar con técnicas

tradicionales de estimación y contraste.
En primer lugar, modelos de efectos aleatorios (RE) en el caso

que los efectos no observables no se encuentren correlacionados
con los regresores del modelo.
En segundo lugar, incluir diferencias temporales pero no
individuales (zit=zt). Por último, variables instrumentales (IV) o
variables que reflejen de una manera aproximada las diferencias
no observadas.
De por si, para minimizar el impacto del problema de

parámetros incidentales en el caso de estimaciones FE los
efectos individuales no observados (αi) son eliminados a través
de diferencias temporales (yit-yit-1) o por diferencias respecto a
sus promedios (yit-y̅).

METODOLOGIAS DE ESTIMACION DE MODELOS DE DATOS

PANEL
Las metodologías de estimación en paneles de datos lineales
pueden ser resumidas de la siguiente manera:
Modelo Estimador
Agrupado (Pooled) 1. OLS
Between 1. OLS
1. FGLS
Efectos Aleatorios (RE) 2. OLS para un estimador GLS
3. Máximo verosímil.
1. LSDV.
2. Condicional de maxima verosimilitud.
Efectos Fijos (FE) 3. Primeras Diferencias
4. Within o de efectos fijos
5. Within o de efectos fijos con GLS
Dos factores antes de comenzar a analizar las metodologías de

estimación panel son importantes de observar. El primero, el
número de parametros a estimar. El segundo, la consistencia del
proceso de estimación sobre la selección de paneles cortos o
largos.
NUMERO DE PARÁMETROS A ESTIMAR

Suponga el modelo lineal general o no restringido (Modelo E) de
la forma:
Donde yit es la variable dependiente en terminos escalares, xit, es

un vector de Kx1 variables independientes y β es un vector Kx1
de parámetros estimados que varian a través de los individuos
(i) y el tiempo (t), uit es el término de innovaciones con el índice

individual (i=firma, país, etc) de forma transversal e indexado

en el tiempo (t).
Este modelo es demasiado general y no es calculable dado que

existen más parámetros a ser estimados que observaciones en la
base de datos panel.
Por tal motivo, deben imponerse restricciones sobre la

variablidad del intercepto, αit y las pendientes, βit, con respecto a
los individuos (i), el tiempo (t) y el comportamiento del término
de error (uit) en el proceso de estimación.
CONSISTENCIA DEL PROCESO DE ESTIMACIÓN

De otra parte, cuando se aplica un análisis asintótico en los
estimadores de paneles de datos es importante recordar que la
teoría asintótica es útil en la medida que proporcione una
aproximación razonable a las propiedades de los estimadores de
muestra finita, esto aplica a la selección muestral entre paneles
cortos y paneles largos.
A priori es difícil conocer si los estimadores trabajaran

asintóticamente bien cuando el número de individuos crece
asintóticamente (N→∞), por ejemplo, un estudio sobre los
departamentos en Colombia (N=32) durante 8 años (T=8 años).
Sin embargo, se puede demostrar que es bastante más seguro el

desempeño de los estimadores para paneles cortos, es decir,
cuando el número de individuos crece asintóticamente (N→∞),

respecto a aquellos estimadores en los que el tiempo crece

asintóticamente (T→∞).
Para casos como aplicar estudios panel a regiones geográficas

debe tratarse con precaución. Con un número de individuos
constante (N=N ̅ ) se debe tener en cuenta el supuesto de muestra
aleatoria, y pertinencia del análisis asintótico, en la dimensión de
corte transversal que puede ser conceptualmente erróneo.
Sin embargo, si el número de individuos (N) es suficientemente

grande relativamente al número de periodos (T) se puede
asumir independencia en la sección de corte transversal, de este
modo, efectuar el análisis asintótico que puede proporcionar
aproximaciones apropiadas.
Si el número de periodos (T) tiene el mismo orden que el

número de individuos (N), por ejemplo, efectuar un estudio de
países latinoamericanos (N=20) por los últimos 15 años (T=15)
el análisis asintótico necesita supuestos explícitos sobre la
naturaleza de la dependencia de series de tiempo (en casos
especiales, las conclusiones sobre la estimación consistente y
normalidad estadística t debe ser incorporados).
Si el número de periodos (T) es más grande que el número de

individuos (N), o panel largo, por ejemplo, el número de
compañías del sector electico (N=5) por los últimos 20 años
(T=20), la estructura se convierte en un análisis de series de
tiempo multivariadas. Aplica al caso donde el número de
individuos es pequeño y permanece fijo (N=N ̅ ) mientras el
tiempo crece asintóticamente (T→∞).

METODOLOGÍAS DE ESTIMACIÓN
1. MODELO AGRUPADO
El modelo más restrictivo es el modelo agrupado (pooled model)
especifica coeficientes constantes, el supuesto usual para
estimaciones de corte trasversal (cross section) es el siguiente:
yit=α+Xitβ+εit
Si este modelo se encuentra correctamente especificado y los
regresores no están correlacionados con el término de error
(exogeneidad fuerte).
Por tanto, no existen efectos individuales no observados,
entonces es consistente y eficientemente estimado por OLS y la
inferencia pueden proceder de forma fiable.
En el contexto de datos panel se le llama promedio poblacional o

population average (PA), con los siguientes supuestos:
La inferencia debe usar errores estándar robustos por la

probable heterocedasticidad existente y correlación entre
individuos y en el tiempo para evitar sesgos en el cálculo de la
varianza estimada y para que el cálculo de estadísticas t y F sea
apropiado.

Se pueden obtener estimaciones consistentes si los factores no

observados, que a su vez están correlacionados con las variables
exógenas, se mantienen constantes en el periodo analizado.
SALIDA STATA: MODELO POPULATION AVERAGE O AGRUPADO
2. ESTIMADOR ENTRE GRUPOS (BETWEEN ESTIMATOR)

El estimador entre grupos (between estimator o BE) en paneles
cortos, al igual que el modelo pooled calcula una variación de
corte transversal. Es decir, utiliza los datos between para el
individuo i-esimo sobre k regresores, o mejor, y̅i, x̅i1, x̅i2,…..,x̅ik.
Suponga el modelo de media individual de la forma:
yit=α+Xitβ+εit
Ajustando los promedios aritméticos de la variable dependiente,
yit, regresores, xit y el término de error, εit, sobre el tiempo,
resulta en:
El cual puede ser reescrito como el modelo between (BE) de la

forma:

Donde los promedios aritméticos en el tiempo de la variable

endógena, regresores y término de error son y̅ = 1/T ∑ y ,
̅ = 1/T ∑ x y ε̅ = 1/T ∑ ε ), respectivamente.
El estimador entre grupos o Between (BE) utilza OLS de la

regresión de y̅ sobre un intercepto (α) y los regresores
promediados a través del tiempo, ̅ .
Utiliza la variación entre diferentes individuos, análogo a una

regresión de corte transversal. Tambien interpretable a un
modelo panel en el caso especial donde t=1.
Este estimador es consistente si los regresores, ̅ , son

independientes del termino de error compuesto (αi-α+ε̅ ), o lo
que es lo mismo, bajo el supuesto de exogeneidad estricta o
fuerte de los regresores, xit, respecto al término de error
compuesto, εit, utilizándose errores estándar robustos.
Puede ser utilizado en el caso de coeficientes constantes

(pooled) y de efectos aleatorios.
En contraste, para un modelo de efectos fijos (FE) el estimador
entre grupos (BE) es inconsistente en la medida que el
intercepto αi se asume no correlacionado con xit, en este caso con
el promedio de las observaciones para el individuo i-esimo, ̅ .
En la práctica apenas se utiliza debido a que el estimador

agrupado (pooled) y el de efectos aleatorios (RE) son superiores,

es decir, son consistentes bajo las mismas condiciones y más

eficientes asintóticamente.
SALIDA STATA: MODELO BETWEEN
3. MODELO EQUICORRELACIONADO O EFECTOS ALEATORIOS

El estimador OLS agrupado (pooled) se obtiene apilando datos,
mientras el modelo BE se logra promediando los datos sobre los
individuos (i) y tiempo (t). Ambos modelos utilizan una
regresión estimada por OLS para NT observaciones de la forma:
yit= αi+ β+eit con i=1,….,N y t=1,….,N
El estimador OLS es consistente si el modelo anterior tiene

regresores no correlacionados con los términos de error, es
decir, si la relación entre el termino de error (uit) y regresores
(xit) es cero o Cov[uit, xit]=0, a pesar que el numero de individuos
crezca (N→∞) o el tiempo aumenta (T→∞) lo cual conduce a
estimadores consistentes y eficientes.

La matriz de covarianzas, por otra parte, usualmente utilizada

para un modelo pooled o BE se fundamenta en errores que se
asumen como vaiid con matriz de covarianzas Σ=ς2I.
El modelo de efectos aleatorios (RE) es la especialización de un

modelo agrupado (pooled) para los i-esimos individuos.
El estimador OLS no es conveniente si se asume la existencia de

un efecto individual (i) no observado y no correlacionado con las
variables explicativas, COV[Xie]≠0.
La metodología de efectos aleatorios (RE) asume que la matriz

de covarianzas generada (Σ) es diferente a la esperada en OLS
donde existe homocedasticidad (Σ=ς2I) por la existencia de i-
esimos individuos distintos.
Si existen efectos individuales no observados (μi≠0),

caracteristicos de la visión panel, los términos de error para el
individuo i-esimo estarán positivamente correlacionados (en el
tiempo para un individuo y/o entre individuos), por lo que la
matriz de covarianzas para cada individuo, Σ, divergerá de la
metodología utilizada por OLS por la autocorrelación positiva
existente.
En un modelo de efectos aleatorios (RE) en la medida que asume
independencia entre regresores y términos de error existe un
supuesto de exógeneidad fuerte.
Ahora bien, las correlaciones entre efectos individuales no

observados entre los i-esimos individuos en t periodos no
permiten construir una matriz de covarianzas agregada, sino una

matriz para cada individuo denominada Σ. Entonces, cada

individuo tiene una estructura propia de covarianzas en el
tiempo y entre individuos.
La agregación de la estructura de covarianzas para todos los
individuos se denominará matriz Ω la cual debe ser estimada.
Un modelo de efectos aleatorios (RE) puede ser estimado por OLS

con los parámetros consistentes aunque es ineficiente por su
estructura propia de covarianzas.
El método OLS aplicable a pooled o BE no es apropiado para RE.

Es necesario modificar este supuesto y trabajar metodologías
más generales de estimación como GLS o FGLS.
Este análisis de correlacion visto a través de la estructura de

covarianzs del modelo RE en los términos de error también se
puede observar desde un punto de vista de la información
utilizada para la construcción de pruebas de hipótesis e
intervalos de confianza.
Los supuestos usuales de estimación OLS tratan cada T años

como piezas independientes de información.
Si existe correlación positiva de los términos de error el

contenido de la información es menor. Las NT observaciones
correlacionadas tiene menos información que NT observaciones
independientes. Esto tiene implicaciones en el calculo al
sobreestimar la precisión del estimador de la varianza ya que
mayor varianza hace menores los t-estadisticos y potenciales
rechazos de la hipótesis nula.

En la medida que el componente individual no observado, αi, es

incluido en el término de error a través del tiempo se genera un
modelo tipo RE. Suponga el modelo B:
yit= αi+ β+uit
Puede ser visto como la regresión de la variable dependiente, yit,
sobre los regresores, xit, con un término compuesto de error tipo
one way, uit=αi+εit.
Los supuestos sobre el efecto individual no observado (αi) y el
término de error (εit) son variables aleatorias que tienen la
distribución de probabilidad la forma αi~[0,ς - y εit~[0,ς ]
respectivamente.
Esto implica que cada elemento de la matriz de covarianzas,

Cov[uit,uis], será calculado como la relación (covarianza) entre el
efecto individual no observado (αi) y el componente del término
de error (εi) para los periodos t y s, en tanto sean o no
contemporaneos. Es decir:
La ecuación anterior implica la existencia de una matriz de

covarianzas, Σ, homocedastica para cada uno de los i-esimos
individuos y todos los t-esimos periodos generando un bloque
diagonal equicorrelacionado en la matriz de covarianzas en la
cual existe correlación serial sobre el tiempo entre las
innovaciones del mismo individuo.

El modelo de efectos aleatorios (RE) es conocido como modelo

equicorrelacionado por esta razón.
Cuando los periodos t y s coincidan (t=s), la correlacion

contemporánea, será la diagonal de la matriz de covarianzas (Σ)
que asocia la volatilidad del término de error de ese periodo y
corresponde a la suma de la varianza del efecto individual no
observado (ς ) más la varianza del término de error (ς ), es
decir, para el caso COV[uit,uit]= (ς + ς ).
Para periodos cuando t y s son distintos (t≠s), la correlacion no

contemporánea, con elementos fuera de la diagonal de la matriz
de covarianzas para el individuo i-esimo (𝚺), la volatilidad del
modelo corresponderá únicamente a la varianza del componente
individual no observado (ς ).
De esta forma, se construirá una matriz de covarianzas 𝚺 de

tamaño TxT que corresponden a los T periodos de observaciones
para el individuo i-esimo.
De forma matricial, suponga E[ |x]=𝚺 para ser estimada por
FGLS de forma que para el i-esimo individuo:
̂=ς
𝚺 ̂ +ς
̂ =
Se espera que para un individuo i-esimo exista una correlación

considerable en el tiempo, de modo que COR[yit,yis]>0 ∀ i≠s, y
sea alta. Después de la inclusión de regresores, la correlacion de

los terminos de error, COR[uit,uis], puede permanecer no cero y

muchas veces puede ser bastante significativa.
En un modelo de efectos aleatorios (RE) el coeficiente de

correlación no depende del tiempo, es decir, COR[uit,uis] para
t≠s, se calcula como:
ρ=correl(uit,uis)=1 para i=j, t=s
ρ=correl(uit,uis)=ςμ/(ς + ς ) para i=j, t≠s
Los coeficientes de correlación tienen muchas correcciones

posibles, dependiendo de la estructura de correlación y
heterocedasticidad para el individuo y entre individuos asumida
para los regresores y si son paneles cortos o largos.
Puesto que las observaciones del individuo i-esimo y j-esmo se

suponen independientes, es decir, no existe relación entre los N
individuos, la matriz de covarianzas a ser estimada, Ω, del
modelo RE será diagonal.
En estos modelos siempre es útil el análisis por bloques de T

observaciones para cada uno de los individuos (i).
Cada elemento de la diagonal esta constituida por bloques de

matrices de covarianzas, 𝚺, de tamaño TxT que corresponden a la
estructura de covarianzas para cada individuo.
La matriz de covarianzas del modelo RE para todos los

individuos, 𝚺, será de tamaño NTxNT. De forma matricial:

𝚺 …
Ω =[ 𝚺 … ]=In⊗𝚺
… 𝚺
ESTIMADORES PARA EL MODELO DE EFECTOS ALEATORIOS

Existen varias características para la utilización de modelos de
efectos aleatorios o RE, entre ellas:
1. Cuando existen demasiados parámetros a ser estimados en
un modelo de efectos fijos y la perdida de grados de libertad
es significativa. Asumir que el efecto individual no
observado, μi, puede aleatorio es una buena opción.
2. Si se puede asumir que no existe relación entre el
comportamiento de los términos de error y los regresosres.
Es decir, exógeneidad fuerte, E[Xe]=0.
3. Cuando los grupos considerados son extracciones
muestrales de una población más grande, puede resultar
apropiado considerar que los efectos individuales no
observados están aleatoriamente distribuidos entre los
grupos.
Sea el modelo de efectos aleatorios (RE) especificado en la

siguiente forma funcional:
El cual puede ser reescrito como:

Donde, además de las pendientes (β) y regresores (xit) existe un

intercepto no estocástico (μ) y un efecto individual no observado
(αi). Puede ser nuevamente reescrito en forma matricial como:
Donde se definen los vectores como wit=[1 xit] y δ=,μ β]t. Los
efectos específicos individuales, αi, se asumen como una
realización de vaiid con una distribución [α,ς ], de la misma
manera, el termino de error εit es una vaiid [0,ς ].
El intercepto escalar μ se convierte en una variable no aleatoria y

se adiciona al modelo para posteriormente ser estimada.
De este modo, se asume en el modelo αi y εit como vaiid con las

siguientes propiedades:
Sin embargo, bajo algunos supuestos, y trabajando sobre

promedios los efectos individuales no observados y los términos
de error pueden ser normalizados a tener media cero, es decir:
αi~N[0,ς ] εit~N[0,ς ]
El modelo puede ser reexpresado como yit=μ+ β+uit, donde el
termino de error compuesto, uit, tiene dos componentes
uit=αi+εit.
Existen una multiplicidad de estimadores consistentes del

modelo de efectos aleatorios (RE) entre otros:

1. Estimador por GLS. Este reconoce el hecho que mínimos

cuadrados generalizados (GLS), es más eficiente (mínima
varianza) que estimaciones por OLS.
2. Estimación OLS para un estimador GLS. Supone efectuar
transformaciones adecuadas para realizar estimaciones OLS
con consistencia de los estimadores encontrados por GLS.
3. Estimador máximo verosímil. Asume que tanto el efecto no
observado (αi) como el término de error (εit) son
normalmente distribuidos y construye una función de
verosimilitud a ser maximizada para encontrar los
estimadores óptimos.
Los dos primeros estimadores son asintóticamente equivalentes

aunque en algunos casos pueden variar en muestras finitas
dependiendo de características utilizadas para el valor de las
varianzas del efecto no observado (ς ) y el termino estocástico
(ς ). El estimador MV es consistente aunque ineficiente si ς y
ς son vaiid.
ESTIMADOR POR GLS Y ESTIMACIÓN OLS PARA UN ESTIMADOR

FGLS
Suponga un modelo lineal general a estimar por RE:
Y=Xβ+e
La estimación del modelo RE de los estimadores, β, utilizan un
estimador GLS o FGLS el cual tiene la siguiente formula
funcional:

Si el estimador de mínimos cuadrados generalizados factibles

(FGLS) de la forma ̂GLS=(XtΩ-1X)-1XtΩ-1Y, utiliza descomposición
espectral sobre la matriz de covarianzas, Ω, se puede encontrar
que:
̂GLS=(XtΩ-1/2Ω-1/2X)-1XtΩ-1/2Ω-1/2Y.
Ahora bien, es necesario calcular la matriz Ω-1/2 es una matriz de
tamaño NTxNT. Puesto que la matriz de covarianzas a estimar, Ω,
es simétrica y semidefinida positiva puede ser factorizada a
través de la descomposición espectral matricial de la siguiente
forma:
𝛀=Ct𝚲Ct
Donde C son vectores propios de 𝛀 y las raíces características de
la matriz 𝛀 están organizadas en una matriz diagonal 𝚲.
Sea 𝚲1/2 la matriz diagonal con el i-esimo elemento de la diagonal

igual a √λ y sea T=Ct𝚲1/2, entonces TtT= 𝛀. Tambien sea la
matriz Pt=Ct𝚲-1/2 entonces PtP= 𝛀 -1.
Con estos resultados las matrices Ω-1 y Ω-1/2 pueden ser

calculadas utilizando las matrices P y Q bajo las siguientes
formas funcionales:
Ω-1= P+ Q
Ω-1/2= P+ Q

Donde ς = Tς + ς . Fuller y Battase (1974) suguieren

premultiplicar la ecuación de regresión inicial a estimar por RE
utilizando FGLS por el valor de ςeΩ-1/2=Q+(ςe/ς1)P y ejecutar
OLS sobre la regresión transformada.
Asi, utilizando el hecho que Ω es simétrica, semidefinida positiva

y con algunas propiedades de las matrices transpuestas se llega a
que el estimador por OLS es:
̂GLS=([ςeΩ-1/2X][ςeΩ-1/2X])-1[ςeΩ-1/2X][YςeΩ-1/2].
̂GLS =(X*X*t)-1X*Y*
En este caso, se efectua una estimación OLS para un estimador

FGLS. Es decir, se estima un modelo transformado y*=ςeΩ-1/2
donde para llegar a los estimadores se invirte una matriz de
tamaño (K+1) que puede ser fácilmente implementada en vez de
una tamaño NTxNT.
Con el resultado anterior es posible calcular Ω-1/2=Ω-1/2Ω-1/2 que

arroja un elemento típico a calcular de la forma yit-λy̅ donde
λ=1-ςe/ς1=1-ςe/(Tς + ς ).
Demostración. Se puede demostrar la existencia de un elemento

típico como:
Ω-1/2= P+ Q
ςeΩ-1/2= P+ Q
Multiplicando para encontrar un modelo transformado:
y*= [ςeΩ-1/2]y=[Q+(ςe/ς1)P]y
Pero Q=I-P, entonces:

y*= ςeΩ-1/2y=(I-P)y+ (ςe/ς1)Py

y*= ςeΩ-1/2y= y-Py+ (ςe/ς1)Py
y*= ςeΩ-1/2y= y-[1-(ςe/ς1)]Py
Pero ς = Tς + ς .
y*= ςeΩ-1/2y= y-[1 ]Py
( )
y*= ςeΩ-1/2y= y-𝛌Py
Pero Py=y̅ , entonces:
y*= ςeΩ-1/2y= y-𝛌y̅
Por medio de metodologías de estimación por mínimos

cuadrados generalizados factibles (FGLS) se demuestra que al
multiplicar por un factor adecuado, que en este caso
corresponde a:
ςeΩ-1/2 =ςe [ + ]
Se efectua la estimación por OLS. Si se realiza un análisis
elemento a elemento utilizando el factor de corrección ςeΩ-1/2 se
llega a que:
y λy̅
y*= ςeΩ-1/2y =[ ]
y λy̅
Entonces, el estimador por FGLS se puede interpretar como la
multiplicación para cada elemento de ςeΩ-1/2X por OLS que de
aqui en adelante se denominará factor de corrección o λ̂.
El parámetro de corrección, λ, definido formalmente es:

En resumen, las nuevas variables para el modelo de regresión

multiplicadas por el factor de correccion ςeΩ-1/2 o λ
corresponderá a la estimación de efectos aleatorios (RE) por
FGLS utilizando OLS consistente en una regresión de
desviaciones parciales entre la variable dependiente, yit, y su
media contra lo regresores y su media, xit que tienen la misma
transformacion.
Este procedimiento es equivalente a encontrar un estimador FGLS

a través de regresiones de desviaciones parciales estimadas por
OLS sobre la ecuación transformada.
Un procedimiento de estimación parte del modelo inicial

yit=μ+xit+(αi+εit) para posteriormente restar el modelo
transformado, calculado previamente el factor de corrección λ,
es decir, λ̂yit=λ̂μ+λ̂xit+(λ̂αi+λ̂εit). El resultado es:
El parámetro estimado de corrección, λ̂, es consistente y es

sinónimo de FGLS.
El valor de estimado del factor de correccíon, λ̂, está en función

de estimaciones de la varianza de los efectos individuales no
observados (ς ) y los términos de error (ς ).
El término de error es una combinación del efecto no observado

(αi) y el termino estocástico (εit) de forma lineal, vit=(1-
λ̂)αi+(εit-λ̂ε̅).

Sin embargo, para el calculo del factor de corrección (λ̂) es

necesario estimaciones de la varianza del efecto individual no
observado (αi) y el componente del error (εit).
La metodología de cálculo para encontrar el factor de correcion,

y por tanto efectuar la transformación de OLS por FGLS, parte de
encontrar la varianza del componente del error de la forma:
Para el cálculo de la estimación de la varianza del error (ς

̂ ) se
necesitan de los parámetros de la regresión within (̂ ), y de los
promedios entre individuos de los regresores ( ̅i) y la variable
dependiente (y̅i).
Posteriomente, se determina el componente del error al

cuadrado de la regresión Between, û =(y̅i-μ̂B-x̅ ̂B)2 que puede
ser reescrito como un término de error de la covarianza
û =ς +ς /T.
Utilizando esta última ecuación se puede obtener la varianza del

componente individual no observado:
De este modo, se estima la varianza del componente individual

no observado (ς ) en función del termino de error estocástico
estimado (ς
̂ ).

Los resultados indican que las varianzas, y en general el modelo

estimado por RE, son promedios ponderados de las estimaciones
entre estimadores BE y WE.
La varianza del estimador 𝛔 ̂ en algunos casos puede ser

negativa lo cual en ciertos programas estadísticos asume que la
varianza del componente individual no observado es cero
̂ =0) de modo que λ̂=0 y la estimación se convierte en un
(𝛔
modelo agrupado o pooled.
Estimadores más eficientes de los componentes de la varianza

del termino de error compuesto, ς , se integra por la varianza
del componente individual no observdo (ς ) y el componente
del error (ς ) que son posibles bajo esta técnica que es una entre
varias.
Por ejemplo Amemiya7 calcula otros estimadores pero no

necesariamente incrementa la eficiencia del estimador ̂RE.
Para resumir, es necesario estimar un parámetro de corrección

λ̂, para efectuar una estimación consistente y eficiente por FGLS
utilizando OLS.
Para ello se estima, en primer lugar, la varianza del término de

error (ς ̂ ). Posteriormente, la varianza del componente
individual no observado (ς̂ ).
7 Amemiya, T. (1985), Advanced Econometrics, Cambridge, MA, Harvard University Press.

En la medida que el parámetro estimado de corrección, λ̂ difiere

de cero, se presenta ineficiencia de OLS.
0<λ̂<1
̂
0<[1 ]<1
√̂ ̂
El estimador OLS comparado con FGLS otorga demasiada

ponderación a las variaciones en unidades (within). OLS incluye
todas las variaciones en los regresores X, en vez de distribuir una
parte a la variación aleatoria entre grupos (Between) atribuible
a una variación entre individuos (Within).
A partir del parámetro estimado de corrección, λ̂, se puede

derivar lo siguiente:
1. Si el parámetro de corrección es igual a cero, λ̂=0, en este
caso FGLS coincide con OLS, es decir, corresponde a una
regresión pooled por OLS. Este escenario ocurre cuando la
varianza del componente individual no observado (ςα) es
igual a cero y toda la varianza corresponde al término de
error, es decir no existe variabilidad asociada a los
individuos.
2. Si el parámetro de corrección converge a uno, λ̂→1, existen
dos posibilidades para alcanzar este valor estimado de λ̂.
La primera, si la varianza del error es cero (ςε→0) entonces
el total de las variaciones entre individuos serian causados
por los efectos individuales no observados (ςα≠0) que son
constantes en el tiempo y serían equivalentes a variables
dummy o identificadoras (similar al modelo FE). Es la única

fuente de variación en la regresión y si se estiman se recoge

este efecto completamente a través de varibles dummy.
La segunda, ocurre cuando el número de periodos está

creciendo (T→∞). En la medida que el tiempo pase el efecto
no observado se vuelve observado (asintoticamente) y se
convierte nuevamente en una variable identificadora (no
necesariamente una dummy).
3. Si el parámetro de corrección es igual a uno, λ̂=1,
corresponde a un estimador within. Se puede interpretar
como el efecto si la varianza de los términos de error (ςε)
fuese cero, es decir, el único efecto existente sería el
componente individual no observado (ςμ). En este caso, los
modelos de efectos fijos (FE) y efectos aleatorios (RE) son
indistinguibles.
Suponga, de nuevo, el modelo RE de pendientes (β) y regresores

(xit) existe un intercepto no estocástico (μ) y un efecto individual
no observado (αi) que son agrupados como:
Ya calculado el factor de corrección, λ̂, el cálculo de los

parámetros del modelo de efectos aleatorios (δ̂RE) para las
pendientes (β̂RE) y el intercepto (μ̂RE) es el siguiente:
Donde wit=[1 xit] y ̅=[1 x̅i]. Las pruebas de consistencia del

estimador requieren que toda la muestra crezca NT→∞, es decir,

tanto el número de individuos (N→∞) o el tiempo (T→∞)

crezcan infinitamente.
Tambien, con las estimaciones de los términos de error (εit) y los

efectos individuales no observados (αi) que se presentaron
anteriormente sobre la regresión OLS del modelo corregido se
tiene que:
Se puede calcular la matriz de covarianzas estimada de la

siguiente forma:
Que corresponde a la varianza por OLS (ς2XtX) incluyendo el

componente del factor de corrección, λ̂, en un modelo
transformado.
Para paneles cortos, ya que existen pocos periodos pero muchos

individuos, se debe tener en cuenta el supuesto de los términos
de error en principio se asumen independientes sobre los
individuos.
Esta propiedad se pierde de modo que Cov[uit,ujs]=0 con i≠j

necesita un estimador robusto de la varianza que minimice los
efectos de autocorrelación y heterocedasticidad y permitan un
comportamiento general para calcular el error compuesto
(αi+εit) el cual puede ser determinado de la forma tipo White:

Lo cual arroja una forma modificada de la varianza de los

estimadores incluyendo el tiempo:
Donde ̃ it=wit-λ̂ ̅ y ̃ it= ̂ it-λ̂ ̅̂ donde ̂ it son los residuos

calculados del modelo RE. Esta estimación permite
autocorrelaciones para εit, así como heterocedasticidad de forma
arbitraria.
SALIDA STATA: MODELO EFECTOS ALEATORIOS CON FGLS
ESTIMADOR MÁXIMO VEROSÍMIL

En la derivación de las dos metodologías anteriores, los errores
no se tienen que asumir normales. Si ellos son normales puede
maximizarse una función de verosimilitud con respecto a las

pendientes (β), intercepto (μ) y varianzas del componente

aleatorio (ς ) y del componente individual no observado (ς ).
Dadas las varianzas del componente aleatorio (ς ) y del efecto

individual no observado (ς ) el estimador de máxima
verosimilitud (MLE) para las pendientes (β) y el intercepto (μ)
es el mismo estimador GLS.
Pero si no se toma este supuesto y se procede a efectuar el

proceso de optimización del estimador de máxima verosimilitud
(MLE) el cual arroja nuevos estimadores del componente
̃ ) y del componente no observado (ς̃ ) que difieren
aleatorio (ς
de los estimadores observados anteriormente, como son:
El estimador de máxima verosimilitud (MLE) para las

pendientes (β) y el intercepto (μ) están dadas por el modelo:
Con parámetro estimado de corrección, λ reemplazado por un

estimador alternativo, λ̃ , que también tiene características de
ser consistente y definido como λ̃ =1-ς
̃ /(Tς̃ +ς ̃ )/ .
Asintóticamente, los estimadores MLE y FGLS de efectos

aleatorios (RE) son equivalentes, pero pueden diferir en muestra
finita.

Para el MLE, dadas las características del modelo, pueden existir

dos máximos locales mejor que uno, así que cuando se analicen
los resultados por esta metodología es necesario asegurarse de
la existencia de un máximo global.
SALIDA STATA: MODELO EFECTOS ALEATORIOS CON ML
ESTIMADORES PARA EL MODELO DE EFECTOS FIJOS

El modelo de efectos fijos (FE) se puede especificar a través del
modelo B de la siguiente manera:
Donde los efectos específicos individuales α1,α2,…,αn miden la

heterogeneidad no observada que esta posiblemente
correlacionada con los regresores, X.
Es decir, admiten algún tipo de endogeneidad (E[Xe-≠0). Los

estimadores de las pendientes, , son vectores de tamaño Kx1 y
los términos de error, εit, distribuidos como vaiid ,0,ς2].

Algunas características importantes del modelo de efectos fijos

(FE):
1. El modelo de efectos fijos (FE) tiene sentido cuando se esta
interesado en el impacto de variables que varíen en el
tiempo y entre individuos (Zit).
2. El modelo de efectos fijos (FE) explora las relaciones entre
el regresor y las características de un individuo (agente,
empresa, etc.) aprovechando la endogeneidad implícita
dentro del modelo E[Xαi-≠0, o mejor, los E[Xe-≠0.
3. Al observar una correlación entre los efectos individuales
no observados (αi) y regresores (X) se asume
implícitamente que cada entidad tiene caracteristicas que
pueden tener influencia en la variable dependiente (por
ejemplo, si es hombre o mujer, como efecto no observado,
implica una distinta remuneración salarial).
4. Cuando se utilizan el modelo de efectos fijos (FE) se asume
que algunos efectos en el tiempo (WITHIN) en cada uno de
los individuos pueden impactar o sesgar la variable
dependiente y es necesario controlarla. Este es la
racionalidad del supuesto de correlación entre los efectos
individuales no observados y los regresores.
El reto en el proceso de estimación es el modelamiento de N

efectos individuales específicos (αi) y evaluar el incremento en el
número de individuos a medida que se incrementan (N→∞), es
decir, el problema de parámetros incidentales.
Para propósitos prácticos usualmente el principal interés,

reconociendo la significancia de los efectos individuales
específicos (αi), se encuentra en las K pendientes, , las cuales

representan el impacto marginal de un regresor (xit) con

respecto a la variable respuesta, ∂E,yit-/∂xit, mientras los demás
permanecen constantes.
En este caso, con un panel corto, los N parámetros de efectos

individuales no observados, α1,α2,…,αn, generan el problema de
parámetros incidentales. Su presencia, por tal motivo, impide la
estimación de los parámetros, , que sí son de interés.
Es de observar que existen, para modelos lineales, distintos

caminos a ser estimados los parámetros de las pendientes y
encontrar los efectos marginales por efectos fijos (FE). Estos
incluyen:
1. Estimador within o de efectos fijos. Estimaciones OLS a
través de un modelo within.
2. Estimador within o de efectos fijos con GLS. Estimar por GLS

o FGLS en el siguiente modelo within:
3. Estimador de Primeras Diferencias. Estimar por OLS el

modelo de primeras diferencias:
4. Estimador condicional de maxima verosimilitud. Estimar por

el método de máxima verosimilitud condicionada sobre las
medias de los individuos y̅ con i=1,2,….,n.
5. Estimador de minimos cuadrados de variables ficticias
(LSDV). Estimación directa por OLS a través de variables
dummy para cada uno de los N efectos fijos o estimación:

Las dos primeras metodologías de estimación within siempre

conducen al mismo estimador de los parámetros β.
El estimador de primeras diferencias, o tercer método, difiere de

los otros para T>2, estas diferencias generalmente no son
tenidas en cuenta en modelos no lineales.
Para la cuarta metodología de estimación, dada la condición de

máxima verosimilitud, es necesario adicionar al supuesto sobre
normalidad de los términos de error, es decir, εit~N,0,ς2].
El modelo LSDV, o quinta metodología de estimación, se puede
demostrar que tiene los mismos resultados que un estimador
within.
El estimador de efectos aleatorios (RE) es inconsistente si el

modelo de efectos fijos (FE) es el adecuado.
ESTIMADOR WITHIN O DE EFECTOS FIJOS

Específicamente, suponga un modelo de media individual, o
modelo B, de la forma:
Tomando promedios aritméticos sobre el tiempo resulta en el

siguiente modelo:

Sustrayendo de yit el promedio en el tiempo, y̅i, resulta en el

modelo within:
En un panel corto, por ejemplo, este estimador mide la

desviación de los regresores, xit, sobre sus valores promedio en
el tiempo, ̅i, es decir, (xit- ̅i) para el individuo i-esimo. Este
proceso también se efectúa para la variable dependiente yit y el
termino de error, εit.
Con esta metodología el término de efectos individuales no

observados (αi) se cancela.
El estimador within es calculado por OLS. Un rasgo especial

resulta en estimadores consistes de β en el modelo de efectos
fijos (FE), mientras para el modelo OLS agrupado (pooled) o el
estimador entre grupos (BE) no son consistentes.
Utilizando un OLS resulta en el estimador within (WE) o

estimador de efectos fijos, ̂ , de la forma:
Los efectos individuales no observados, 𝛂i, pueden ser estimados

como un residuo de la regresión de la forma:

La estimación de los efectos individuales no observados (α

̂ ) es
insesgada y consistente cuando T→∞ puesto que α ̂ promedia T
observaciones como mejor estimador muestral.
En paneles cortos la estimación de los efectos individuales no

observados (α ̂ ) es inconsistente, sin embargo, es consistente
para las estimaciones de las pendientes, ̂ .
En la mayoría de investigaciones se juzga a los parámetros

individuales no observados estimados (α̂ ), como parámetros
auxiliares o problemáticos8 (ancillary parameters o nuisance
parameters) ya que en algunos casos no son necesarios en
estudios, y por lo tanto, no necesitan ser consistentemente
estimados.
Además, esta eliminación no afecta el proceso de estimaciones

consistentes de las pendientes, ̂ , que determinan los efectos
marginales de las variables de interés.
Para la consistencia del estimador within de ̂ se debe

demostrar la condición de exógeneidad fuerte sobre el término
estocastico puro, εit:
Esto debe ocurrir si N→∞ o T→∞ y adicionalmente que:
8Sin embargo, estos parametros muchas veces resultan utiles en informacion industrial, laboral, ambiental,entre otros por ejemplo véase
McClellan, M. and Staiger, D. Comparing Hospital Quality at For-Profit and Not-for-Profit Hospitals in The Changing Hospital Industry: Comparing
Not-for-Profit and For-Profit Institutions, (eds.). Cutler, David M. pp.93-112, The University of Chicago Press, 2000. Tambien, Murdock, J. 2006.
Handling unobserved site characteristics in random utility models of recreation demand. Journal of Environmental Economics and
Management,51, 1-25.

Debido a la presencia de promedios, como mejor estimador

máximo verosímil (MV), sobre los regresores ̅ = 1/T ∑ x
y en el término de error, ̅ , hace que no exista correlación entre
los términos de error y regresores de manera contemporánea,
E,εit|xit]=0.
Una condición suficiente, adicional a la anterior, para el

cumplimiento de la exógeneidad fuerte radica en incluir no solo
los términos de error contemporáneos y regresores actuales
sino también los rezagados, es decir, E,εit|xi1,xi2,….,x1T,]=0. Esto
excluye en el estimador within variables rezagas endógenas como
regresores.
Por otra parte, la estimación de la varianza debe contemplar

como los términos del error compuesto están correlacionados en
el tiempo (t) para un individuo dado (i).
Se puede demostrar que los métodos OLS usuales son aplicables

cuando existe homocedasticidad en el término de error, εit. Por
ejemplo, bajo el supuesto del término estocástico, εit, distribuido
como una vaiid se tiene que:
Donde ẍ = xit-x̅ . Un estimador consistente e insesgado de la

varianza del término de error, ς , y calculada como ς
̂ =[N(T-
1)-K]-1∑ ∑ ε̂ . Donde los grados de libertad son iguales al
tamaño de muestra (NT) menos el número de parámetros en el
modelo (K) y el número de efectos individuales (N).

Es de observar que si la regresión within de la forma:
Es estimada utilizando OLS a través de un paquete estadístico

normal o comandos no panel es necesario incrementar el valor
de las varianzas reportadas en [N(T-1)-K]-1[NT-K] para ajustar la
varianza a la autocorrelación de los errores.
La matriz de covarianzas asintótica de un panel robusto

(estimado con errores robustos tipo White), es decir, controla
correlación y heterocedasticidad, está dado por:
Para paneles cortos con efectos fijos (FE) resulta en una varianza
donde se incluye efectos en el tiempo para periodos
contemporáneos (t=s) y no contemporáneos (t≠s) de la forma:
Donde el término de error estocástico es ε̈ = εit-ε̅ .
DERIVACION MATRICIAL
Se comenzará con un modelo para los i-esimos individuos de la
forma:

Donde xit y β son vectores kx1. Para el i-esimo individuo,

agrupando todas las T observaciones, tiene la siguiente
estructura matricial:
También puede ser escrito de la forma:

yi=αi1+Xiβ+εi
Donde 1t=,1,1,….,1- es un vector de tamaño Tx1 de unos. Xi es
una matriz TxK de T observaciones y K regresores, los vectores
de la variable respuesta, yi, y los términos de error, εi, son de
tamaño Tx1.
Es posible transformar el modelo para sustraer la media

individual a través de las matrices P y Q de tamaño TxT. Es decir,
P=(T-1) de manera que Q=IT - P
Premultiplicando la matriz Q crea desviaciones respecto a la

media. También tiene propiedades de ser ortogonal e
idempotente.
Ahora premultiplicando el modelo de efectos fijos por Q se

obtiene:
Utilizando el hecho que Q1=0 se elimina el componente de los

interceptos (αi1). Este modelo, es equivalente a:
yi-1y̅ =(Xi-1x̅ )β+(εi-1ε̅ ).

A partir de esta premultiplicación por la matriz Q resulta en el

modelo within.
Una estimación por OLS del modelo de efectos fijos (FE) ajustado
por la matriz Q resulta en el estimador ̂ con una matriz de
covarianzas, asumiendo independencia de los individuos, igual a:
Si se asume el supuesto que los términos de error, εit, son vaiid,

eliminando la posibilidad de heterocedasticidad, se puede
escribir que [0,ς ], de modo que su resultado asume
exógeneidad fuerte, es decir, [0,ς I].
El vector Qε es entonces independiente sobre los individuos (i) y

el tiempo (t) con media cero y las siguientes propiedades sobre
la varianza:
Entonces:
De modo que el cálculo de la varianza asumiendo exógeneidad

fuerte resulta en:

Utilizando el hecho que:
Estimadores alternativos, más allá de la exógeneidad fuerte,

pueden ser utilizados con una visión más general. En particular,
el supuesto de no correlación serial sobre los términos de error,
εit, utilizado anteriormente, puede ser relajado.
Si el termino de error, εi, es vaiid [0,Ω] se utiliza una forma más

general para la matriz de covarianzas con la corrección por la
matriz Q, o de desviaciones respecto a la media, asumiendo que
no existe correlaciones entre individuos, es decir, [Qεi, Qεj] para
i≠j.
La varianza V[Qεj] se reemplaza por los (Qε̂ )(Qε̂ )t donde

̂ =yi-Xî . Esto resulta en la estimación dada por:
El WE tiene varias interpretaciones y características a ser

trabajadas, entre ellas:
1. Este procedimiento se focaliza en la literatura que trata los
efectos individuales no observados como parámetros
incomodos que pueden ser ignorados dado que el principal

interés se encuentra en las pendientes (β) y sus efectos

marginales.
2. El estimador Within utiliza una estructura de covarianzas
que toman desviaciones respecto a los promedios de media
individual, lo que es equivalente a tomar residuos de la
regresión de yit y xit sobre dummies individuales y trabajar
con los residuos.
3. La principal limitación del WE radica en los coeficientes de
los regresores invariantes en el tiempo (xit=xi) que no
pueden ser identificados, entonces son omitidos, es decir,
(xi- ̅i)=0. Varios estudio, por ejemplo, buscan estimar el
efecto de regresores invariantes en el tiempo, xi.
Regresiones sobre paneles de salarios se puede estar
interesados en efectos de género o raza, por esta razón se
prefiere no utilizar el estimador WE.
4. Estimaciones agrupadas (pooled) o efectos aleatorios (RE)
tienen, en algunos casos, mejores resultados estadisticos,
pero estos estimadores son inconsistentes si el modelo de
efectos fijos (FE) es el adecuado.
ESTIMADOR WITHIN O DE EFECTOS FIJOS POR GLS

Suponga el modelo within transformado respecto a su
desviación a la media (premultiplicado por la matriz Q), de la
forma:
Si los términos de error, εit, son vaiid [0,ς ] no existen muchas

ganancias estadísticas utilizando FGLS, lo recomendable es
trabajar por OLS.

Sin embargo, pueden existir ganancias si otras estructuras para

los datos son asumidas en la distribución de los términos de
error, εit. Existen situaciones donde puede limitarse OLS para su
utilización, como datos multinivel.
Por ejemplo, en investigación en educación se podría requerir

medir el rendimiento de colegios que utilizan un método de
aprendizaje contra colegios que usan uno diferente.
Sería un error analizar estos datos pensando que los estudiantes

son muestras aleatorias simples de la población de estudiantes
que aprenden bajo un método particular y que no están
correlacionadas a través del tiempo. Los alumnos son agrupados
en clases (cursos), los cuales a su vez son agrupados en colegios.
El desempeño de los estudiantes dentro de una clase está

correlacionado, como el desempeño de los estudiantes dentro de
la misma escuela y el tiempo con el programa implementado.
El ejemplo anterior a través de un modelo panel de efectos fijos

(FE) utilizando OLS no es posible modelarlo, es necesaria una
nueva estructura de correlaciones, y por tanto, una matriz de
covarianzas, entre periodos e individuos como metodología para
incorporar correlaciones temporales y datos anidados, es decir,
implementar GLS o FGLS.
La aproximación es esencialmente la misma para GLS pooled sin

efectos fijos (FE) donde se pone de manifiesto su relación con el
estimador RE.

Observese que Qεi es independiente de Qεj con i≠j, es decir, cada

individuo es independiente y V[Q ]= Q, así que el estimador
de efectos fijos con GLS, visto como una generalización del OLS,
se puede escribir en forma:
Para efectuar este procedimiento, en los FE los efectos

individuales no observados fueron eliminados. Esto último
conduce a que el término de error Qεi sea de rango menor al
completo.
Si no se cuenta con rango completo y se necesita calcular el

estimador la metodología de trabajo se orienta a la utilización de
la inversa generalizada o inversa de Penrose9, Q-, que es utilizada
como Q ya que no es de rango completo10.
SALIDA STATA: MODELO EFECTOS FIJOS CON WITHIN
9 Sea A una matriz cuadrada o rectangular, se dice que una matriz G es una g-inversa (o inversa generalizada) de A cuando AGA=A . Naturalmente
que G ha de ser de tipo n×m en el caso de ser A del tipo m×n . Si A es cuadrada e invertible, entonces es fácil comprobar que la inversa A 1 es (la
única) g-inversa de A , de manera que el concepto de g-inversa es una generalización del concepto de inversa
10 Sin embargo, QtQ-Q=QtQ puesto que QtQ-Q=Q, para una inversa generalizada, y Q=QQt dado que Q es idempotente. Reemplazando QtQ-Q=Q por
QtQ en la fórmula anterior de estimación ̂ , .

ESTIMADOR EN PRIMERAS DIFERENCIAS

El estimador en primeras diferencias (FDE), al igual que el
estimador within explota rasgos especiales de los datos panel.
En un panel corto mide la asociación entre cambios dentro de los
individuos durante un periodo en los regresores, xit, y la variable
dependiente, yit. Especificamente, suponga el modelo:
Rezangando un periodo se tiene que:
Sustrayendo una de la otra, se tiene el modelo de primeras

diferencias:
El intercepto del modelo, αi, se cancela, al igual que en el modelo

within.
El estimador en primeras diferencias (FDE) utiliza en su proceso

de estimación una metodología OLS. Al igual que el estimador
within (WE), es consistente en un modelo de efectos fijos (FE),
aunque los coeficientes invariantes en el tiempo de los
regresores, xi, no son identificados.
El estimador FDE es menos eficiente que un estimador WE para
T>2 si los términos de error, εit son considerados como una
vaiid.
Una estimación OLS efectuá el estimador de primeras diferencias

de la forma:

Obsérvese que existen N(T-1) observaciones en esta regresión

ya que se perdió una en el proceso de diferenciación11.
La consistencia del estimador de primeras diferencias requiere,

nuevamente el supuesto de exógeneidad fuerte o estricta para el
termino estocastico como E,εit-εi,t-1|xit-xi,t-1].
Esta condición es fuerte e implica que los términos de error y de

los regresores de forma contemporánea son iguales a cero, es
decir, E,εit|xit]=0, pero es una condición más débil que la
condición de exogeneidad fuerte impuesta para la consistencia
del estimador WE, ya que para este último impone exógeneidad
fuerte para efectos contemporáneos y no contemporáneos, es
decir E,εit|xi1,xi2,….,x1T,]=0.
La inferencia asintótica del estimador de primeras diferencias

requiere ajustar los errores estándar calculados por OLS para
tener en cuenta las correlaciones en el tiempo de los términos de
error ∆ε̂ = (εit-εi,t-1).
Como primer paso de inferencia asintótica es necesario obtener

la varianza asintótica del estimador ̂ . Para lo anterior, se
agrupan las observaciones de los individuos de la siguiente
manera:
Donde para cada individuo i-esimo el modelo tiene ∆yi como un

vector (T-1)x1 de variables dependientes y variables
11. Un error común en esta implementación radica en agrupar las NT observaciones, posteriormente substraer el primer rezago. Entonces la
observación (1,1) es borrada mientras todas las T primeras observaciones (i,1), i=1,2,…,N deben ser borradas después de diferenciar. Deben ser
borradas todas las primeras observaciones de la muestra.

explicativas (∆ ̂ ) como una matriz (T-1)xK y calculados los

regresores como la diferencia entre los periodos (xi2-
xi1)t……(xiT-xiT-1)t.
Tiene una matriz de covarianzas, asumiendo independencia

entre los individuos como:
El supuesto básico radica en asumir que los términos de error

estocastico, εit, son vaiid [0,ς ] o asume exógeneidad fuerte.
Con lo anterior, se calcula la diferencia rezagada del término de

error, es decir ∆ε̂ =(εit-εi,t-1) y se identifica como un proceso de
media móvil con un rezago, MA(1), con varianza 2ς y un
periodo separado por autocovarianzas ς para los individuos.
De lo anterior se concluye que V[∆ς ] es igual a ς multiplicado

por una matriz (T-1)x(T-1) con un valor de dos en la diagonal y
uno fuera de la diagonal.
Un supuesto más realista radica en asumir los términos de error,

εit, están correlacionados en el tiempo para un individuo i-esimo,
de modo que COV,εit,εit-≠0 para t≠s, pero independiente entre
individuos.
Para calcular esta premisa en necesario hallar un estimador que

sea más robusto y permita formas más generales de
autocorrelación y heterocedasticidad como:

En esta forma general se reemplaza la varianza estimada, V[∆ς ],

por (∆ε̂ )t(∆ε̂ ).
Es importante resaltar que no se puede utilizar OLS para estimar

los términos de error estándar, εit, del modelo de primeras
diferencias ya que estos sólo son correctos en el improbable caso
que sean un paseo aleatorio de modo que (εit-εit-1) son vaiid.
Para el caso de dos periodos (T=2) las primeras diferencias y el
estimador within son iguales. Para demostrarlo suponga el caso
de un modelo de primeras diferencias de la forma:
Analizando únicamente la variable dependiente con dos

periodos (T=2) se tiene que la diferencia (yi1-yi2) es el valor en
primeras diferencias de la variable.
Ahora suponga un modelo within de la forma:
Al igual que el modelo anterior con dos periodos (T=2) se tiene

que:
( ) ( ) ( )
y̅i= así que (yi1-y̅i)= y (yi2-y̅i)=
Pero (yi1-yi2)=(yi1-y̅i)-(yi2-y̅i) lo cual coincide con el estimador de

primeras diferencias. De forma similar aplica para los regresores
x.

Para valores superiores a dos periodos (T>2) los dos

estimadores difieren. Bajo el supuesto que εit son vaiid se puede
demostrar que el estimador GLS de primeras diferencias es igual
al estimador within.
El estimador ̂ calcula los parámetros del modelo por OLS. Sin

embargo, es menos eficiente que ̂ . Por esta razón el estimador
en primeras diferencias no es mencionado o trabajado en
modelos lineales.
Es utilizado extensivamente cuando variables rezagadas son
incluidas en modelos panel, por ejemplo, paneles dinámicos o no
lineales.
En estos casos el estimador within (̂ ) se convierte en

inconsistente, aunque el estimador de primeras diferencias es
inconsistente permite a través de supuestos de exógeneidad
débil realizar estimación por variables instrumentales (IV).
ESTIMADOR CONDICIONAL DE MAXIMA VEROSIMILITUD

La estimación de máxima verosimilitud condicionada maximiza
la función de verosimilitud conjunta de y11,….,yNT condicionada
sobre los promedios individuales y̅1, y̅2,….., y̅NT. Este método tiene
el atractivo que para modelos paneles lineales, y bajo
normalidad, los efectos individuales no observados, αi, son
eliminados de modo que el proceso de maximización es
únicamente con respecto a los parámetros de las pendientes, β.
Suponga que yit está condicionada sobre los regresores xit y los
parámetros αi, β y 𝛔2 son vaiid con distribución normal

N,αi+ β,𝛔2]. Entonces la función de verosimilitud condicionada

es:
La primera igualdad define la verosimilitud condicionada

asumiendo independencia sobre los individuos (i). La segunda
igualdad demuestra que es una distribución de probabilidad
condicionada sobre los promedios de la variable dependiente, y̅.
La tercera desigualdad plantea la función de verosimilitud bajo
normalidad a ser maximizada.
El resultado clave radica en que para efectos fijos el parámetro

de intercepto, α, no aparece en la ecuación final de modo que
LCOND(β ,𝛔2, αi) es de hecho, LCOND(β,𝛔2) y puede ser maximizada
el logaritmo de la función de verosimilitud condicional con
respecto a β,𝛔2 únicamente.
El resultado del estimador de máxima verosimilitud

condicionada ̂ resuelve las condiciones de primer orden
(CPO) de la función de verosimilitud de la forma:
O de forma equivalente:

Sin embargo, estas son las mismas condiciones para una

regresión OLS de (yit-y̅i) sobre (xit-x̅i). El estimador condicional
por máxima verosimilitud condicional ̂ , por lo tanto, es un
equivalente de un estimador within, ̂ .
Intuitivamente, este método arroja estimadores consistentes

porque la función condicionada sobre el promedio de la variable
dependiente a través del tiempo elimina los efectos individuales
no observados (αi).
Más formalmente, y̅i es un estadístico suficiente para αi y

condicionado sobre un estadístico suficiente que permite
estimaciones consistentes de β.
ESTIMADOR DE MÍNIMOS CUADRADOS DE VARIABLES FICTICIAS

(LSDV)
Una variación de los modelos B o C permiten estructurar
variaciones a través de los individuos y en el tiempo por medio
del intercepto mientras las pendientes permanecen constantes.
Suponiendo dummies para cada individuo representada por

yit=αi+γtds,it+ +uit o el modelo a estimar de otra manera es:

Donde las N dummies individuales dj,it son iguales a uno si el

individuo (i) es igual al intercepto (j), o mejor (i=j), e igual a
cero si son diferentes, (i≠j).
En otro escenario, las (T-1) dummies temporales ds,it son iguales

a uno si el periodo (t) es igual al rezago (s), o mejor (t=s), e igual
a cero si son diferentes, (t≠s). Se asume que no incluyen
intercepto.
Este modelo tiene N+(T-1)+dim[x] parámetros que pueden ser

estimados consistentemente si N→∞ y T→∞
Si se utilizan en paneles cortos que busca identificar diferencias

para una gran cantidad de individuos N→∞ en cortos periodos
de tiempo, T ̅, bajo este método el análisis se puede dividir en dos
partes.
La primera, los parámetros de efectos no observados para los

individuos (αi) implica un desafío dentro de este proceso de
estimación, ya que es necesario calcular los N interceptos
individuales (αi).
En algunos casos resolver este problema implica tener dummies

individuales para grupos de observaciones, por ejemplo, región,
ciudad, etc. En vez de realizarlo individualmente.
La segunda, si se desea efectuar un análisis de dos factores o two

way, los parámetros de rezago (δt) pueden ser consistente

estimados de modo que las (T-1) dummies son incorporadas

dentro de los regresores .
Considere el modelo original de efectos fijos de la forma:
Antes de cualquier diferenciación. Una estimación por OLS

puede ser aplicado directamente al modelo, simultáneamente
estimando α y β. En principio no es necesaria una metodología
especial.
Simplemente se estima yit sobre xit y un conjunto de N variables

indicadoras d1,it,….,dN,it donde dj,it es igual a uno si i=j e igual a
cero en otra parte.
Sin embargo, como N crece existen demasiados regresores para

permitir la inversión de la matriz de regresores, X, de tamaño
(N+K)(N+K), esta es otra característica del problema de
parámetros incidentales.
Con algún tratamiento matricial el problema se reduce a la

inversa de una matriz KxK.
El estimador resultante de β por LSDV es igual al estimador

within. Este es un caso que aplica el teorema Frish Waugh12 para
un subconjuto de una regresión y derivar los parametros.
12 Supongamos que se particiona una matriz X, cuyo rango es k, en dos matrices X1 y X2, cuyos rangos son respectivamente r y k r, de manera que:
Para obtener la fórmula del estimador OLS resulta útil dividir las ecuaciones normales XtXβ̂= Xty
Este sistema puede resolverse en dos etapas. Primero obteniendo una expresión para β̂2 de la forma Sustituyendo en la
primera ecuación permite obtener Agrupando términos se puede obtener que

Si las variables dummy están particionadas en la regresión y si

los residuos de esta regresión son utilizados en un segundo
estado de la regresión, entonces es posible estimar la regresión
completa. Pero los residuos generados son desviaciones de sus
respectivas medias, es decir, una regresión within.
Para observarlo algeraicamente, agrupe un vector TxQ sobre los

N individuos para resultar en el modelo de efectos fijos por
variables dummy de la forma:
También pueden ser escritos de la forma:

𝛂
y=[(IN⊗1T) X]0 1+ε
Donde y es un vector de tamaño NTx1, el producto Kroneker

(IN⊗1T) es una matriz NTxN de bloques diagonales y X es una
matriz de tamaño NTxK de regresores.
La estimación OLS de este modelo resulta en el estimador de

mínimos cuadrados de variables ficticias (LSDV). Desde un
punto de vista algebraico de la forma:
Cuya solución es Que resulta ser es el estimador:

La matriz M2 es idempotente y simétrica por lo que: Y Es una matriz de
residuos de la regresión de X1 en las variables X2. De igual manera Por lo tanto, β̂1 es el conjunto de coeficientes que se
obtienen cuando los residuos de una regresión de y en las variables de X2 se regresan a su vez en el conjunto de residuos obtenidos cuando cada
variable de X1 se regresa en las variables de X2.

Donde la matriz de medias muestrales X ̅=[x̅1……, x̅N]t, x̅i=

(1/T) ∑ x , Y ̅=[y̅1,……, y̅N]t y̅i= (1/T) ∑ y . Utilizando la
fórmula de inversas particionadas y ejecutando el algebra
conduce a que:
Reexpresando la forma anterior en términos de sumatoria

implica que el estimador por variables dummy es igual al
estimador within, es decir, ̂ = ̂ . En ambos modelos
converge al siguiente estimador:
Este mismo análisis puede ejecutarse para las estimaciones de

efectos observados entre los estimadores de mínimos cuadrados
por variables dummy (LSDV) y el estimador within, es decir,
̂
𝛂 =𝛂 ̂ . En ambos modelos converge al siguiente estimador:
Para paneles cortos un problema radica, al igual que para el

estimador within, en como las estimaciones consistentes de β y α
no garantizan que existan N+K parámetros a estimar en la
medida que N→∞, es decir, nuevamente el problema de
parámetros incidentales.

Es de observar que las estimaciones consistentes de β es posible

aunque α sea inconsistentemente estimado, a menos que T→∞.
Este estimador es eficiente en su segundo momento si εit son

vaiid ,0,ς2]. Resulta en el estimador within de β es más eficiente
que estimadores alternativos que eliminan αi, tales que
substraen la primera observación o periodo previsto de
observaciones.
Si adicionalmente los errores son normalmente distribuidos, el

estimador LSDV es igual al estimador por maxima verosimilitud
por la equivalencia usual de OLS y MLE en modelos lineales con
errores normales.
SALIDA STATA: MODELO EFECTOS FIJOS CON WITHIN

COMPARATIVO DE MODELOS DE ESTIMACIÓN PANEL

Comparando el modelo de efectos fijos (FE) y efectos aleatorio
(RE) con sus diferentes estimadores y supuestos de
endogeneidad entre regresores y términos de error los
principales resultados se pueden resumir en las siguientes
tablas.
TABLA ESTIMADORES Vs REGRESORES

Modelo Estimador Variable dependiente Regresores
Pooled OLS y X
Efectos Fijos Primeras diferencias ỹit = yit yit-1 w
̃ it =xit xit-1
Efectos Fijos Within ỹit = yit y̅i w
̃ it =xit x̅i
Efectos Aleatorios GLS por OLS ỹit = yit λ̂y̅i ̃ it =xit λ̂x̅i
w
TABLA EFECTOS FIJOS Y EFECTOS ALEATORIOS
TABLA. ESTRATEGIAS DE ESTIMACIÓN DE DATOS PANEL

MODELO
Estimacion de β Agrupado o Pooled Efectos aleatorios Efectos fijos
Agrupado/pooled Consistente Consistente/ineficiente Inconsistente
Between Consistente/ineficiente Consistente/ineficiente Inconsistente
Within Consistente Consistente Consistente
Primeras diferencias Consistente Consistente/ineficiente Consistente
Efectos aleatorios Consistente Consistente/ineficiente Inconsistente

Con lo anterior se pueden identificar varias características y

diferencias entre efectos fijos (FE) y efectos aleatorios (RE):
1. Las propiedades estadísticas de los paneles de datos varían
con el tratamiento de los efectos no observados. Por ejemplo,
si el supuesto de efectos aleatorios, o independencia entre
regresores y términos de error (exógeneidad fuerte o
estricta), no puede ser soportado por los datos a través de
las pruebas de hipótesis correspondientes, esta es la
principal razón para la elección del modelo de Efectos Fijos
(FE) como punto de partida.
2. El modelo de efectos fijos (FE) tiene el atractivo al permitir
establecer relaciones de causalidad bajo supuestos más
débiles que las que se necesitan para establecer la relación
de exogeneidad con datos de corte transversal o con
modelos de datos panel sin efectos fijos, como los modelos
agrupados (pooled) y modelos de efectos aleatorios (RE).
3. Los supuestos de exógeneidad fuerte en efectos aleatorios
(RE) excluyen modelos con variables dependientes
rezagadas o variables endógenas como regresores13.
4. Los nombres efectos fijos (FE) y efectos aleatorios (RE) son
potencialmente engañosos ya que su principal diferencia
radica desde el punto de vista de la exógeneidad entre los
regresores, xit, y el termino error, it. El efecto individual
visto como regresor (αi), o por medio de la modificación de
los términos de error (μi), es una variable aleatoria con
características iguales para los modelos FE y RE.
5. En el modelo de efectos aleatorios (RE) las estimaciones de
los componentes de la varianza por individuos (i) o
13 Chamberlain (1980) ofrece una discusión detallada de los supuestos y pruebas de exogeneidad para datos panel.

periodos (t) asumen el mismo intercepto y pendiente para

todos. La heterogeneidad no observada se representa en el
término de error y no debería estar correlacionada con los
regresores. La diferencia entre individuos (i) y periodos (t)
se presenta en la varianza de los términos de error, no en
los interceptos. Un modelo RE es estimado por GLS cuando
la matriz de covarianzas Ω entre grupos es conocida. El
FGLS se utiliza cuando Ω es desconocida, en la mayoría de
los casos.
6. Para el calculo de los parámetros, β, en FE o RE parten del
principio de una forma lineal14:
E[yit|αi,xit-= αi+xitβ
7. El efecto específico individual, αi, es una variable aleatoria,
no importa si son efectos fijos (FE) o efectos aleatorios (RE)
para ambos modelos.
8. En paneles cortos el efecto específico individual, αi, los mas
utilizados, no pueden ser consistentemente estimados, por
las limitaciones en el número de observaciones para un
modelo de efectos fijos (FE).
De este modo, no es posible estimar E[yit|αi,xit]

directamente. Para solucionar esta dificultad es posible
transformar αi tomando expectativas con respecto a xit, es
decir, condicionando sobre los regresores a la ecuación, de
la forma:
E[yit|αi,xit-= αi+xitβ
14 Se acoge por este caso la notación de Wooldridge (2002).

Para el modelo de efectos aleatorios (RE), la exógeneidad

entre regresores y términos de error permite afirmar que
E[αi|xit-=α, de este modo, E,yit|xit-=α+xitβ y es posible
identificar E[yit|xit].
En el modelo de efectos fijos (FE) E[αi|xit] varia con respecto

a xit, dado el supuesto de endogeneidad entre regresores y
términos de error, por tanto, no es conocido su valor y su
variación.
Así las cosas, en FE no es posible identificar E[yit|xit], sin

embargo, es posible consistentemente estimar β en paneles
cortos y calcular los efectos marginales:
β=∂E,yit|αi, xit-/∂xit
9. En paneles cortos el modelo FE permite únicamente la
identificación de efectos marginales ∂E,yit|ci,xit-/∂xit para
regresores que varían en el tiempo (Xit), de modo que
regresores que varian sobre los individuos (Xi) como raza o
género, por ejemplo, no son identificados. En el modelo RE
permite la identificación de todos los componentes de β y
E[yit|xit], pero el supuesto de E,αi|xit] como una variable
constante y exógena es débil frente a situaciones realistas.
10. La estimación de efectos fijos (FE) es un análisis
condicional, ya que mide el efecto de xit sobre yit controlados
en algun sentido por el efecto individual no observado (αi).
La estimación de efectos aleatorios es en cambio un ejemplo
de análisis marginal ya que los efectos individuales se
integran como vaiid.
11. Si el verdadero modelo es efectos aleatorios (RE) y se desea
realizar un análisis condicional o análisis marginal variará

con la aplicación. Si el análisis es para una muestra aleatoria

de países entonces se utilizará efectos aleatorios. Si se está
interesado en países en particular de la muestra, y ser
tratados como población, debería utilizarse efectos fijos
(FE). Aunque esto puede implicar una pérdida de eficiencia
en la estimación.
12. Si el modelo verdadero tiene efectos individuales
específicos (αi) correlacionados con regresores (xi) un
análisis de efectos aleatorios no es adecuado ya que el
estimador es inconsistente. En cambio, estimadores
alternativos de efectos fijos (within-LSDV) y primeras
diferencias son pertinentes. Debido al deseo de determinar
la relación de causalidad aplicaciones se enfatizan estos
últimos estimadores.
ESTRATEGIA DE ANÁLISIS PANELES DE DATOS.
FE: F-Chow Hausman

RE:LM

INFERENCIA ESTADÍSTICA CON METODOLOGÍAS ROBUSTAS

En algunos escenarios es razonable asumir la independencia
entre individuos dentro de la estructura panel.
Sin embargo, los términos de error potencialmente pueden estar

serialmente no correlacionados (en el tiempo y entre individuos)
y/o ser heterocedasticos (ς2=ς ).
En un conjunto de datos panel, el principal problema, y de mayor

significancia, es la correlación cruzada entre individuos y
autocorrelación de los términos de error o perturbación
estocástica en el tiempo.
En una base de datos panel, por ejemplo, un conjunto de

observaciones puede pertenecer al mismo individuo pero en el
componente del error se encuentran efectos no observados (μi)
que se llevará a través de todos los T períodos causando la
autocorrelación positiva de los términos de error.
En particular, la regresión OLS agrupada (pooled) de yit sobre xit

sin control de los efectos individuales es muy probable contenga
alguna correlación entre los términos de error en el tiempo,
COV[uit,uis->0 para t≠s o entre individuos (i≠j) y desconozca la
correlación existente en los términos de error que por
construcción poseen los datos con estructuras panel.

Ignorar esta correlación serial puede conducir a varianzas más

grandes, y por tanto, sobreestimar los valores t estadísticos,
inducir a intervalos de confianza más amplios y al sesgo en el
rechazo de las hipótesis nulas.
Para encontrar una inferencia estadística valida (intervalos de

confianza y pruebas de hipótesis) se requiere controlar ambos
factores (heterocedasticidad y autocorrelación) sobre las
estimaciones de la varianza del modelo, VAR[̂].
Por lo anterior existen diferentes metodologías de trabajo con el

objetivo de calcular adecuadamente la varianza de los
estimadores que intentan controlar la heterocedasticidad y
autocorrelación del modelo panel estimado, entre ellas:
1 Errores consistentes tipo White
2 Errores estándar en paneles robustos tipo sándwich
3 Errores estándar por el método de bootstrap
4 Errores estándar corregidos para panel
ERRORES CONSISTENTES TIPO WHITE

Suponga un modelo general donde las observaciones de Ti para
el individuo i en la ecuación panel son las siguientes:
yi=Xitβ+ei
Donde X es un vector de variables explicativas, β es un vector
Kx1 de parámetros a estimar y e es el término de error o
innovación estocástica. El estimador OLS es:
̂ols=(XtX)-1XtY

Si los errores muestrales tienen igual varianza y están no

correlacionados e independientes, entonces estimar ̂ por OLS es
BLUE y el estimador de la varianza, VAR[ ̂], es consistente y
eficiente. Puede ser calculado como:
VAR[ ̂ols]=S2(XtX)-1
Sin embargo, el supuesto de homocedasticidad es violado dada la

existencia de i-esimos individuos, es decir, E[UUt-≠ς2In en un
modelo panel.
Por tal motivo, el estimador de la varianza, VAR[ ̂], pierde las

propiedades deseadas de eficiencia y consistencia.
Una solución utiliza los estimadores consistentes por

heterocedasticidad de White de la varianza del modelo, VAR[ ̂],
que pueden ser fácilmente extensibles a paneles cortos puesto
que para la i-esima observación de la matriz de varianza del
error, Ω, es de dimensión finita.
Este estimador propuesto por White (1980) reconoce que los

términos de error de los modelos pueden ser heterocedasticos
(ς2=ς ) y efectua una corrección que calcula los residuos del
modelo de la siguiente forma:
VAR[ ̂ols]= (XtX)-1Xt𝛀X(XtX)-1
Donde û son las estimaciones de los términos de error

conocidos como heteroskedasticity-robust standard error.

De esta forma, errores estándar robustos para datos panel

utilizando el método de White pueden ser obtenidos sin asumir
formas funcionales específicas dentro del error individual o
heterocedasticidad.
Para este caso la matriz de covarianza asintótica tipo White a ser

estimada tiene el siguiente principio asintotico:
Donde ̂ i es un vector de Ti residuos para el individuo i-esimo.

Por ejemplo, en paneles largos, se pueden estimar fácilmente los
parámetros (αi,βi).
En paneles cortos, se necesita suponer una distribución para

(αi,βi) o condiciones en los regresores como en el modelo de
efectos aleatorios (RE), se suele suponer que son independientes
de los regresores E[XU]=0.
ERRORES ESTÁNDAR EN PANELES ROBUSTOS TIPO SÁNDWICH

Suponga el estimador por OLS del vector de parámetros del
modelo transformado, ̂, para efectos within (WE), sobre
individuos (i) y tiempo (t) que tiene la siguiente expresión:

En busca de determinar insesgamiento y sobre todo

consistencia, el álgebra resulta en:
La independencia entre los individuos, condición esencial para la

demostración de consistencia e insesgamiento, requiere el
supuesto de exógeneidad fuerte entre los regresores y el termino
de error de la forma, E[̃ i| ̃ i]=0.
Por otra parte, este supuesto tiene implicaciones en el cálculo de

la varianza asintótica de ̂OLS para el WE que es de la forma:
Este modelo de datos panel es análogo al problema de corte

transversal de obtener estimadores consistentes de V[̂OLS].
Si algún supuesto es violado en los términos de error deben

implementarse estimaciones panel robustas de la matriz de

covarianza asintótica del estimador OLS de las pendientes, β, para

el cálculo de intervalos de confianza y pruebas de hipótesis.
En algunos casos es posible efectuar transformaciones sobre los

modelos de datos panel estimados para encontrar una forma
común de tratamiento frente a la violación de supuestos de
independencia, heterocedasticidad o autocorrelación existente
utilizando, entre otras, la idea del teorema del sandwich15 para
encontrar estimadores consistentes de V[ ̂OLS].
Un estimador tipo sándwich hace referencia al relajamiento de

supuestos a través de las observaciones para ser independientes a
través de los clusters de las observaciones.
Su nombre se debe a que los términos de error estimado, uj, se

encuentra entre las matrices ( ̃ t ̃ )-1, las cuales a medida que el
tamaño de muestra crece (T→∞) asintóticamente converge a un
valor constante y “comprime” el tamaño de los términos de error
estimados, uj, obligando su convergencia sobre la varianza del
estimador, por ejemplo:
Un caso representativo en paneles cortos, por ejemplo,

encuentra creciendo el número de individuos (N→∞) y permite
que la varianza de los errores, V[uit], y su covarianza, Cov[uit,uis],
varíe en los individuos (i) pero no entre ellos.
15El teorema del sandwich es utilizado en la determinación del límite de una función. Este teorema enuncia que si dos funciones tienden al mismo
límite en un punto, cualquier otra función que pueda ser acotada entre las dos anteriores tendrá el mismo límite en el punto.

El modelo transformado para el cálculo de la varianza, V[̂OLS],

puede ayudar a controlar tanto la correlación serial y
heterocedasticidad entre individuos en paneles cortos,
implementando el teorema del sandwich, utiliza la forma
funcional:
Donde ̂ i =̃ i= ̃i-Wiθ. Si dentro de la estructura de covarianzas

se incluyen, además del supuesto de independencia entre
individuos (i≠j) independencia entre periodos de tiempo (t≠s),
una reexpresión del estimador V ̂[̂OLS] es la siguiente16:
Donde ̂ it = ̃it- ̃ it̂. Este estimador fue propuesto por Arellano

(1987) para el estimador de efectos fijos (FE).
ERRORES ESTÁNDAR POR EL MÉTODO DE BOOTSTRAP17

El método de bootstrap proporciona un camino alternativo para
obtener errores estándar panel. El supuesto clave parte de
asumir las observaciones independientes sobre los i-esimos
individuos.
16 En STATA los errores estándar de panel robustos calculados por V ̂[̂OLS] pueden utilizar estimaciones por OLS y ajustarles una metodología de
términos de error con cluster robusto seleccionando individuos como variable de cluster.
17 Es un método de simulación por remuestreo (resampling) que esencialmente es un experimento de simulación de Montecarlo donde la muestra
observada es tratada como la población. En otras palabras, cada iteración, de tamaño N, efectua una muestra con remplazamiento para
posteriormente obtener el cálculo de los estimadores. Este proceso se efectua K veces. Calculando el promedi de los estimadores permite calcular
el sesgo de cualquier estimador. Puede ser utilizado para obtener errores estándar, intervalos de confianza y p-values ara pruebas estadísticas.

Este método efectúa un procedimiento de remuestreo con

remplazamiento sobre los individuos (i) y utiliza todos los
periodos de tiempo observados para un individuo (i) dado.
Los datos {(yi,Xi)|i=1,…,N+ resultan en muestras pseudo-

aleatorias y para cada muestra ejecuta una regresión OLS de ̃it
sobre ̃ it repitiéndola B veces, por tanto, al final del proceso
cuenta con B estimadores ̂b , b=1,2…B.
El estimador de datos panel por bootstrap calcula la matriz de

varianzas y covarianzas
Donde ̅ ̂=(1/B)∑ ̂. Este método no proporciona

refinamiento, es decir, no obtiene estimaciones equivalentes a
aquellas obtenidas utilizando teoría asintótica que aproxime
mucho mejor las distribuciones de muestral finita para θ̂ dada la
independencia sobre los individuos (i).
El estimador es consistente en la medida que los individuos

crezcan, N→∞.
Es asintóticamente equivalente a estimar ̂[̂OLS] y exactamente

igual al caso de corte transversal y asintóticamente equivalente al
estimador de heterocedasticidad consistente de White.

Este método puede ser aplicado a cualquier estimador panel que

cuenta con independencia sobre los individuos (i)18 y N→∞,
incluyendo el estimador GLS para regresiones agrupadas
(pooled) de paneles cortos.
ERRORES ESTÁNDAR CORREGIDOS PARA PANEL (PANEL

CORRECTED STANDARD ERRORS - PCSE).19
Las bases de datos panel asumen una estructura de covarianzas
diagonal en la matriz Ω para el proceso de estimación en los
términos de error.
Por lo general, se supone que para cualquier individuo la

varianza del error es constante en un modelo RE, de modo que la
única fuente de heterocedasticidad es la varianza del error
dentro de los individuos, es decir, Σ.
Sin embargo, las bases de datos panel muestran a menudo

errores no esféricos debido a la correlación contemporánea y
heterocedasticidad a través de los individuos.
Dada esta condición de errores no esféricos en modelos para

datos panel lineales es común el uso de una metodología de
estimación por FGLS para mejorar la inferencia y estimación.
Sin embargo, Beck y Katz (1995) mostraron que estimaciones

FGLS tenían pocas propiedades de consistencia y eficiencia de
muestra finita.
18Se debe efectuar un remuestreo por bootstrap únicamente sobre los individuos (i) no sobre los individuos (i) y el tiempo (t).
19Para una introducción técnica pero fácil de entender sobre las propiedades de FGLS y PCSE, ver: Nathaniel Beck, “Time-Series-Cross-Section
Data: What Have We Learned in the Past Few Years?”, Annual Review of Political Science, 4: 271-93 (2001).

En particular, en un estudio de simulación mostraron que los

errores estándar estimados para este modelo generan intervalos
de confianza significativamente pequeños y a menudo
subestiman la variabilidad en un 50% o más con aumentos en la
eficiencia pero que ignoran errores no esféricos.
Por lo tanto, Beck y Katz (1995) sugirieron la estimación de

modelos lineales de datos panel por mínimos cuadrados
ordinarios (OLS) y propusieron un estimador tipo sándwich de
la matriz de covarianza de los parámetros estimados, que
llamaron errores estándar del panel con corrección (PCSE).
Esta metodología es robusta frente a la posibilidad de errores no

esféricos. Sea el modelo panel de la forma:
Donde i=1,…,N son el número de individuos y t=1,…,T son los

periodos. Para Ti es el número de periodos en el panel de datos
para el i-esimo individuo y εit es la perturbación estocástica que
puede estar autocorrelacionada a lo largo del tiempo (t) o
contemporáneamente correlacionada a través de los individuos.
Este modelo puede ser escrito de forma panel como:

Para un modelo con perturbaciones heterocedasticas y

correlación contemporánea pero sin autocorrelación, la matriz
de covarianza se asume como:
Donde ςii es la varianza de las perturbaciones para el individuo i-

esimo, ςij es la covarianza de las perturbaciones entre el
individuo i-esimo y el individuo j-esimo. Una forma más general
si el panel es o no balanceado puede ser escrito como:
Si no existe autocorrelación especificada para los parámetros, β,

son estimados por OLS. Se especifica autocorrelación los
parámetros, β, son estimados por regresiones tipo Prais-
Wisten20.
Cuando existe autocorrelación con coeficientes de correlación

específicos cada nivel panel, ρi, con un coeficiente común de
correlación calculado como:
Donde ρi es el coeficiente de correlación estimado para el

individuo i-esimo y m número de paneles. La matriz de
covarianza por OLS o coeficientes Prais-Winsten es:
20La mayoría de las ocasiones, la correlación de los términos de error en modelos paneles lineales se considera el problema más importante,
debido a que por lo general tiene un mayor impacto en los errores estándar y en la eficiencia de los estimadores del que tiene la
heterocedasticidad.El método de Estimación de Prais-Winsten (PW) estima un modelo de regresión lineal múltiple con errores AR(1) y variables
explicativas estrictamente exógenas, adicionalmente estima la ecuación para el primer periodo de tiempo.

Donde Ω es la matriz de covarianza de las perturbaciones. Los

paneles son balanceados se puede escribir Ω como:
Donde Σ es una matriz de covarianzas NxN de perturbaciones

para cada individuo. Cada elemento de Σ se calcula como:
Con ϵi y ϵj son residuos para las estimaciones de las matrices de

covarianzas de los individuos i-esimo y j-esimo,
respectivamente, que puede ser ajustada periodo a periodo y
donde Tij es el número de residuos entre los individuos i y j.
NOTAS COMPUTACIONALES:
1. Es importante observar frecuentemente y con cuidado los
comandos de datos panel en programas econométricos
donde calcula por defecto el término de error asumiéndolos
como una vaiid conduciendo a inferencias erróneas.
2. Errores estándar para paneles robustos pueden ser
calculados utilizando un comando usual para OLS, si la
opción del comando cluster robusto existe. Puesto que la
opción clustering selecciona al identificador de individuos
(i) como variable de cluster.

3. El término robusto puede causar confusión. Un error común

en regresiones pooled es estimar por una regresión OLS
utilizando la opción errores estándar robustos. Sin embargo,
esta opción únicamente ajusta heterocedasticidad y en la
práctica, para modelos panel, es más importante corregir la
autocorrelación de los errores individuales.
ESTRUCTURA DE PRUEBAS DE HIPOTESIS
Los datos panel proporcionan información sobre
comportamiento individual a través del tiempo (t) y los
individuos (i)21.
Un modelo general, o modelo E, para datos panel permite que

varíen los coeficientes asociados con el intercepto (α) y las
pendientes (β) sobre el individuo (i) y el tiempo (t), es decir:
Donde yit es una variable dependiente escalar, xit, es un vector de

Kx1 variables independientes, uit es un término de perturbación
estocástica, uit.
Este modelo es demasiado general en la medida que existen más

parámetros, NT(K+1) que la disponibilidad de grados de
libertad, NxT.
21 Suponga se tiene observaciones muestrales de características de N individuos sobre T periodos con K variables explicativas denotados por y it,
xkit i=1,…,N, t=1,…..,T, k=1,…,K. Convencionalmente, las observaciones de la variable, y, son asumidas como resultados aleatorios de algún
experimento con una distribución de probabilidad condicionada sobre vectores de características x y un número fijo de parámetros Θ, f(y|x,Θ).
Cuando los datos panel son utilizados, una de sus principales objetivos es utilizar toda la información para efectuar inferencia sobre el vector de
parámetro Θ. Por ejemplo, un modelo puede postular a la variable, y, es una función lineal de x. Sin embargo, para ejecutar una regresión por
mínimos cuadrados con NxT observaciones se necesita asumir que los parámetros de la regresión toman valores iguales a todas las unidades
individuales para todos los periodos. Si este supuesto no es válido, las estimaciones agrupadas (pooled) pueden conducir a una falsa inferencia ya
que sus resultados no son consistentes.

Por tanto, deben incluirse restricciones adicionales en la medida

que parámetros de intercepto (αit) y pendiente (βit) varían
respecto a los individuos (i) y el tiempo (t) para ser estimados.
Por tal motivo, es necesaria una estructura de restricciones que

debe ser impuesta sobre la ecuación anterior, antes de efectuar
cualquier inferencia.
Si se parte de un modelo B deben ser ejecutadas distitnas pruebas

de hipotesis con el objetivo de determinar la validez del modelo a
ejecutar y la validez de sus resultados.
El primer paso de la exploración de pruebas de hipotesis sobre

los datos parte de probar si los parámetros que caracterizan el
comportamiento aleatorio de la variable endógena, yit,
permanecen constante a través de los individuos (i) y el tiempo
(t).
Suponga el siguiente modelo de la forma más general o no

restringido:
Donde α y βit son vectores de parámetros de tamaño 1X1 y 1XK,

xit son regresores independientes y uit es el termino de error.
Dada las características del modelo anterior, y la necesidad de

incluir restricciones, dos aspectos de los coeficientes estimados
pueden ser contrastados a través de pruebas de hipótesis.

El primero, la homogeneidad de todos coeficientes o las

pendientes de regresión, ̂, y la potencial combinación con la
̂.
homogeneidad de todos los interceptos de regresión 𝛂
El procedimiento de prueba tiene tres (3) pasos a seguir y

probar por medio de contrastes de hipótesis de manera
conjunta:
1. Paso 1. Las pendientes los regresores, ̂, son las mismas.
2. Paso 2. Los interceptos, 𝛂̂ , son los mismos.
3. Paso 3. Las pendientes e interceptos son homogéneos entre
diferentes individuos (i) a través del tiempo (t).
El procedimiento de pruebas funciona en forma inversa. Es decir,

si la hipótesis de homogeneidad global no se rechaza (PASO 3)
terminara en este punto y será un modelo pooled.
Si la hipótesis es rechazada en el PASO 3, es decir, no existe

homogeneidad entre pendientes ( ̂) e interceptos (𝛂 ̂ ), el
segundo paso de análisis es decidir si los interceptos de
̂ ) son iguales para todos los individuos (PASO 2).
regresión (𝛂
Si la hipótesis de homogeneidad de los interceptos (𝛂 ̂ ) no se

rechaza, es decir existe heterogeneidad en los interceptos (𝛂̂)
entonces es necesario el PASO 1.
Es decir, se parte de un inicio de homogeneidad o MODELO A, o

modelo restringido, en el PASO 3 hasta llegar a comprobar
heterogeneidad en pendiente e intercepto en el PASO 1 o
MODELO E o modelo restringido.

ESTRUCTURA DE CONTRASTE DE HIPÓTESIS EN UN MODELO DE

DATOS PANEL
Aunque este tipo de análisis puede ser ejecutado en varias

dimensiones, por ejemplo, individuos (i) y tiempo (t) o de dos
factores (two way), el análisis de un solo factor (one way) es el
más utilizado.
El análisis de varianza o ANOVA, estraido de la estadística

multivariante posee categorías particulares para contrastar
pruebas de hipótesis lineales, además, se pueden estipular
valores esperados de una variable aleatoria, yit, y su interacción
en la estructura de dependencia (definiendo uno o más factores)
a la cual los individuos pertenecen22.
22En el procedimiento de análisis de varianza supone que cualquier variación que exista entre parámetros se atribuye a dos posibles causas. La
primera, variación en la absorción de un factor entre observaciones (within). La segunda, la variación entre (between) los factores.

Por otra parte, modelos de análisis de varianza (ANOVA), en

algunos casos, son de carácter mixto involucrando variables
exógenas, como lo ejecutan los modelos de regresión, y al mismo
tiempo, permiten la relación de cada individuo yi como depende
al factor al cual pertenece.
CONTRASTES DE PARAMETROS ESTIMADOS Y SUMA DE

CUADRADOS DE LOS RESIDUOS RESPECTO A LOS INDIVIDUOS
Basado en la estructura anterior de contrastes de hipótesis
utilizando técnicas ANOVA para demostrar heterogeneidad, se
asumen los parámetros del intercepto constantes en el tiempo
(t) pero varían a través de los individuos o MODELO B como base
del modelamiento de un efecto individual no observado y la
variabilidad del modelo.
De esta forma, se definirá el CASO 0, como un modelo de

regresión para cada individuo (i) en cada periodo de tiempo (t),
o modelo no restringido, de la forma:
Tres (3) tipos de restricciones pueden ser impuestas sobre el

modelo anterior asociados a los pasos iniciales:
CASO 1. H : Asociado al paso 1. Los coeficientes de pendiente de
la regresión, ̂, son los mismos y los interceptos no lo son
̂ i, es decir:
𝛂

CASO 2. H : Asociado al paso 2. Los coeficientes de interceptos

de la regresión, 𝛂̂ , son los mismos y las pendientes, ̂i, no
lo son, es decir:
CASO 3. H : Asociado al paso 3 de homogeneidad del modelo. Los

coeficientes de interceptos y pendientes son los mismos,
es decir:
Dado que tiene poco significado preguntar si los interceptos son

los mismos cuando las pendientes cambian se ignora el CASO 2. El
CASO 3 es la regresión agrupada (pooled).
CALCULO DE LA SUMA DE CUADRADOS DEL RESIDUO (SSR)

Suponga se efectua una estimación entre grupos (within) sobre
un modelo no restringido, o modelo E, donde:
El cálculo de la suma de cuadrado de los residuos (RSSi) se

define como:
La suma de cuadrados del modelo no restringido, o CASO 0, es:

Estimación de caso 1. La regresión de coeficientes de las

pendientes de la regresión, ̂, utiliza un estimador within donde
se pueden calcular:
Sea Wyy=∑ W , la suma de cuadrados de los residuos del

CASO 1 se define como:
Estimación de CASO 3. El modelo más restrictivo es un modelo

agrupado (pooled) donde se especifican coeficientes de
pendiente e intercepto constantes.
La regresión por mínimos cuadrados agrupada (pooled

estimation) para el CASO 3, o los coeficientes de interceptos y
pendiente son los mismos, tienen los siguientes parámetros
estimados donde:
La suma de cuadrados de los residuos para este modelo son:

Si este modelo es correctamente especificado, y los regresores

están no correlacionados con el término de error (que determina
la utilización de efectos fijos o aleatorios), entonces puede ser
estimado consistentemente utilizando OLS agrupados (pooled).
CONTRASTE DE EFECTOS INDIVIDUALES EN MODELOS DE

COMPONENTES DE EFECTOS FIJOS
La significancia conjunta de las variables dummys en un modelo
B de efectos fijos (FE) deben demostrar que todos los
coeficientes asociados con el intercepto, α, son iguales a cero.
O mejor, no existe diferencia entre los N individuos, visto a

través de sus valores en el intercepto de forma que puede ser
contrastada mediante la hipótesis nula y alternativa construida
de la siguiente manera:
H0: α1=α2=α3=…=αN=0
H1: αi ≠0
El estadístico de contraste es el siguiente:
Donde el RSSR es la suma de cuadrados de residuos (Residual

Sum of Squares) de la regresión que se obtiene de la estimación
OLS en el modelo agrupado (within) y el RSSU es la suma de
cuadrados de los residuos de la estimación por LSDV.
La distribución, con sus grados de libertad, para efectuar el

contraste de la hipótesis nula, H0, converge a una FN-1,N(T-1)-K.

MULTIPLICADORES DE LAGRANGE (LM) PARA CONTRASTAR

PRUEBAS DE EFECTOS ALEATORIOS
La prueba de Breusch y Pagan con multiplicadores de Lagrange
(LM) sobre un modelo de efectos aleatorios (RE) consiste en
identificar la existencia de autocorrelación residual entre los
términos de error de un modelo estimado en distintos
momentos del tiempo equivalente a probar la existencia que la
única fuente de variabilidad corresponde al término de error ς .
El objetivo de la prueba es decidir entre una regresión con efectos

aleatorios (αi) y una regresión por mínimos cuadrados (OLS) o
regresión pooled.
La hipótesis nula en la prueba LM propuesta por Breusch y

Pagan (1980)23 para efectos aleatorios (RE) trata de demostrar
como las varianzas, a través de los individuos, o su
heterogeneidad es cero.
Es decir, no existe diferencia significativa a través de los

individuos (o no existe efecto panel). Puede ser escrito en
términos de pruebas de hipótesis como:
H0: ς =0
H0: ς ≠0
Trabajando a partir de estimaciones por máxima verosimilitud

por medio de la ecuación, yit=αi+xitβ+ϵit, se construye el
estadístico LM=LM1+LM2. Dónde se pueden implementar los
siguientes estadísticos:
23 Paquetes estadísticos como STATA trabajan con las modificaciones efectuadas sobre esta prueba por Baltagi and Li (1990).

Siendo ϵ̂ los residuos de la estimación OLS de la ecuación

yit=αi+xitβ+ϵit, IN e IT son matrices identidad de tamaño N y T, las
matrices JT y JN son de tamaños T y N respectivamente.
La distribución, con sus correspondientes grados de libertad,

para efectuar el contraste de la hipótesis nula, H0, converge a una
χ .
Si no se rechaza se confirma que la única fuente de variabilidad

corresponde al componente del error, y es necesario aplicar
efectos aleatorios (RE). Si por el contrario no es posible rechazar
la hipótesis nula, se asume que no existe un término fijo en el
error y se utiliza OLS pooled.
INTERCEPTOS Y PENDIENTES HOMOGENEAS

La hipótesis de interceptos (α) y pendientes (β) homogéneas,
CASO 3, también puede ser estructurada en un modelo no
restringido, CASO 0, con (K+1)(N-1) restricciones lineales, es
decir, restringiendo en una prueba de hipótesis interceptos (α) y
pendientes (β) de la forma:
De este modo, las pruebas utilizadas en el analisis de varianza

(ANOVA) es equivalente a pruebas de hipotesis ordinarias, H0,

fundamentada en la estimación de modelos no restringidos y el

cálculo de la suma de cuadrados de los residuos (SSR) que
pueden incorporar restricciones lineales y efectuar las pruebas
de hipotesis correspondientes.
El calculo del estadistico para determinar la prueba de hipótesis,

H , o que los coeficientes de interceptos y pendientes son los
mismos, se divide en dos partes.
La primera, define la suma de cuadrados de los residuos (SSR)

del modelo no restringido, CASO 0 o S1, dividido entre la varianza
de los terminos de error del modelo agrupado (pooled), S1/ς ,
que se distribuye χ2 con NT-N(K+1) grados de libertad.
La segunda, mide el efecto de los individuos en el modelo y se

calcula como la diferencia entre la suma de cuadrados de los
residuos del modelo agrupado (S3) menos la suma de cuadrados
de los residuos del modelo no restringido (S1) o (S3-S1).
Es decir, lo que no explica el modelo agrupado (pooled) menos el

no restringido corresponde a la suma de cuadrados debido al
efecto de los individuos (i).
La razón (S3-S1)/ se distribuye χ2 con (N-1)(K+1) grados de

libertad. Se asume que (S3-S1)/ es independiente de S1/ . La
división de las dos distribuciones χ2 es una distribución F de la
forma:

El estadístico para efectuar la prueba de contraste de interceptos

y pendientes comunes es F con (N-1)(K+1) y N(T-K-1) grados de
libertad.
El contraste se realiza sobre una distribucion F con (N-1)(K+1)

y N(T-K-1) grados de libertad y un nivel de confianza de (1-α),
(F(N-1)(K+1) y N(T-K-1)).
Si no es significativo, se agrupan los datos y estima una sola

ecuación, o el CASO 3, o mejor, no se puede rechazar la hipótesis
nula de interceptos y pendientes comunes, H , bajo el estadístico
de prueba F3.
Si el estadístico F3 es significativo se encontró no homogeneidad,

o se rechaza la hipótesis nula de homogeneidad (H ), que puede
ser atribuida a dos causas. La primera, pendientes heterogéneas.
La segunda, interceptos heterogéneos.
El calculo del estadistico para determinar la prueba de hipótesis

H , o que los interceptos (α) son heterogéneos pero las
pendientes (β) son homogéneas, de divide en dos partes.
La primera, define la suma de cuadrados de los residuos del

modelo de media individual, S2, dividido por la varianza del
termino del error del modelo agrupado (pooled), S2/ , que se
distribuye χ2 con N(T-1)-K grados de libertad.
La segunda, mide el efecto del intercepto en el modelo y se

calcula como la diferencia entre la suma de cuadrados de los

residuos del modelo de media individual, CASO 1, (S2) menos la

suma de cuadrados de los residuos del modelo no restringido
(S1) o (S2-S1).
Es decir, los residuos del modelo, S2, hacen explícito el

componente de intercepto individual, α , si se le resta el efecto
del modelo no restringido el resultado es el efecto del intercepto.
Por lo tanto, la razón (S2-S1)/ς se distribuye χ2 con (N-1)K
grados de libertad24. Se asume que (S2-S1)/ς es independiente
de S1/ς .
El estadístico F, como combinación de distribuciones

independientes χ2, para contrastar H , o los coeficientes de
pendiente de la regresión son los mismos y los interceptos no lo
son, está dado por:
El contraste se realiza sobre una distribucion F con (N-1)K y NT-

N(K+1) grados de libertad y un nivel de confianza de (1-α), (F(N-
1)K y NT-N(K+1)).
Si es significativo, es decir, no se puede rechazar la hipotesis nula

donde las pendientes de la regresión son las mismas y los
interceptos no lo son.
24La diferencia de la diferencia de (S2-S1) pueden ser deducidos sus grados de libertad dado que S1 tiene [NT-N(K+1)] y para S2 tiene [ N(T-1)-K].
La resta es (N-1)K grados de libertad

Si el estadistico F1 no es significativo, se puede rechazar la

hipotesis nula donde las pendientes de la regresión son las
mismas y los interceptos no lo son.
Por otra parte, se puede determinar el grado de no

homogeneidad en los interceptos. Si la hipótesis de interceptos
heterogéneos no se rechaza, conociendo de antemano que
existen pendientes homogéneas, H , CASO 1, se pueden aplicar
pruebas condicionadas para interceptos homogéneos, es decir:
dado
En este caso, dada la restricción sobre los parámetros de
pendiente (β), la suma de cuadrados del modelo de media
individual (coeficientes de pendiente de la regresión, ̂, son los
̂ i) se convierte en el modelo
mismos y los interceptos no lo son 𝛂
no restringido, S2, y como su versión restringida la suma de
cuadrados del modelo agrupado (pooled), S3.
La diferencia entre la suma de cuadrados de los residuos entre el

modelo agrupado (pooled) y el modelo de interceptos
heterogéneos pero pendientes homogéneas, revela su semejanza
estadística, es decir, (S3-S2).
Si la diferencia tiende a cero los dos modelos son equivalentes, si

la diferencia se incrementa existe un efecto significativo de los
individuos (i) en el modelo de media individual respecto al
modelo agrupado (pooled).
Bajo la hipótesis nula H4, la suma de cuadrados del residuo del

modelo agrupado o restringido, S3, dividido por el termino del

error del modelo no restringido, S3/ς , tiene una distribución χ2

con NT-(K+1) grados de libertad y la suma de cuadrados del
residuo del modelo de modelo de interceptos heterogéneos pero
pendientes homogéneas, S2/ς , tiene una distribución χ2 con
N(T-1)-K grados de libertad. La resta de los grados de libertad de
(S3-S2)/ς , tiene una distribución χ2 con N-1 grados de libertad25.
Dado que S2/ς es independiente de (S3-S2)/ς , la cual se

distribuye χ2 con N-1 grados de libertad su puede construir una
prueba F para H4 de la siguiente forma:
El contraste se realiza sobre una distribucion F con (N-1) y T(N-

1)-K grados de libertad y un nivel de confianza de (1-α), (F(N-1) y
T(N-1)-K;(1-α)).
CONTRASTES DE PENDIENTES HOMOGENEAS

Otra pregunta que se plantea en el análisis de datos panel es si
en necesario plantear un modelo donde las respuestas para
todos los individuos son iguales como, yit=αi+xitβ+uit, donde
todos los coeficientes de pendiente, β, son similares para todos
los individuos y para todos los periodos (modelo restringido)
O por el contrario, incluir una pendiente diferente para cada

individuo, μi, o para cada periodo de tiempo, δt, (modelo no
restringido), de modo que se tendría una ecuación de regresión
para cada individuo i-esimo de la siguiente forma:
25 La diferencia de grados de libertad se puede calcular como: [NT-(K+1)]-[N(T-1)+K]=N-1

yit=xitβi+uit
En este caso, la prueba de hipótesis radica en la decisión de
agrupar las respuestas de regresores, xit, vistos a través de los
parámetros de pendiente, β, para todos los individuos i-esimos.
O mejor, probar si las respuestas difieren entre individuos o no,

de modo que:
H0: βi=β ∀i=1,2,…..,N
H1: βi≠βj ∀i≠j
Si el término de error uit se distribuye N(0,ς2I), de forma

homocedastica, se puede construir el siguiente estadístico:
Donde e=(INT-X(XtX)-1Xt)y y ei=(IT-Xi( )-1 )yi, que es

precisamente una prueba F o test de Chow extendido al caso de
N regresiones lineales.
La distribución de la prueba, con sus correspondientes grados de

libertad, para efectuar el contraste de la hipótesis nula, H0,
converge a una F(N-1)(K+1),N(T-K-1).
Para el caso con distribución de los errores uit heterocedastica, es

decir, cuando uit se distribuye N(0,Ω) , el estadístico F extendido
o de Chow no sigue una distribución F, y no es correcto utilizar
este test.

En este caso, si se puede escribir Ω=ς2Σ, basta con

/
premultiplicar por 𝚺 las variables en el modelo yit=xitβi+uit y
aplicar al modelo transformado el test de Chow anterior.
El estadístico F para la prueba de Chow en el modelo

transformado contiene en su expresión la matriz de covarianzas
Σ, de modo que cuando ésta no es observable se deberá utilizar
un estimador consistente de Σ.

también converge a una F(N-1)(K+1),N(T-K-1).
RESUMEN DE PRUEBAS DE HIPOTESIS Y CONTRASTES DE

HIPOTESIS

PRUEBA DE HAUSMAN: ¿EFECTOS FIJOS O EFECTOS

ALEATORIOS?
El modelo de efectos fijos (FE) tiene la atracción de permitir
utilizar datos panel para establecer causación bajos supuestos
débiles de exógeneidad en comparación con aquellos donde se
utilizan supuestos fuertes como corte transversal, modelos
agrupados (pooled) y efectos aleatorios (RE).
En algunos estudios la exogeneidad es clara, de este modo los

efectos aleatorios (RE) es apropiada. En otros casos, determinar
esta exogeneidad puede ser insuficiente o borrosa para utilizar
un modelo de efectos aleatorios (RE), y por tanto, medir la
correlación y determinar una relación de exogeneidad.
Definida estadísticamente la existencia de efectos individuales

no observados a través de las pruebas F y LM, la siguiente
decision recae en la estructura apropiada del modelo a ejecutar.
Es decir, asumir o no algún tipo de endogeneidad en el modelo,

reconociendo el hecho de incorporar efectos individuales no
observados, sea a través de un modelo de efectos fijos (FE) o un
modelo de efectos aleatorios (RE). Lo anterior debe tener en
cuenta los siguientes aspectos:
1. Diferencias en las formas funcionales de los modelos. Con el
método de efectos fijos (FE) la heterogeneidad no
observable se incorpora en el intercepto del modelo,
mientras con el modelo de efectos aleatorios (RE) se
incorporan en el término de error, por lo cual, modifica la

matriz de covarianza del modelo. Estructuras distintas de

estimación.
2. Emplear un modelo de efectos fijos (FE) o aleatorios (RE)
genera diferencias en las estimaciones y son mutuamente
excluentes en términos de consistencia de los estimadores, β.
3. La decisión equivocada causa estimaciones inconsistentes.
Esto aplica especialmente en los casos en que se cuenta con
ventanas de tiempo acotadas o T pequeño y un número de
entidades o individuos cada vez mayor o paneles cortos
(N→∞ y T ̅).
4. Objetivos del estudio en efectos fijos (FE). El modelo de
efectos fijos (FE) se ve como un caso que hace inferencia a
los efectos en la población o si el interés es limitado a una
muestra que se ha seleccionado a conveniencia.
5. Objetivos del estudio en efectos aleatorios (RE). El modelo
de efectos aleatorios (RE) hace inferencia condicional o
marginal respecto a una población o si el interés particular
está puesto en los coeficientes de las pendientes (β) de los
parámetros, y no tanto en las diferencias individuales, se
debería elegir un método que relegue estas diferencias y
tratar la heterogeneidad no observable como efectos
aleatorios (RE).
No es posible dejar al investigador que decida si hace inferencia

con respecto a las características de una población o a los efectos
que están en la muestra. Es necesaria la construcción de una
prueba de hipotesis que ayude a efectuar esta diferenciación de
forma estadísticamente significativa.

LA PRUEBA ESTADISTICA
Esta prueba permite determinar qué modelo es el más adecuado
para una estructura de datos panel, si efectos fijos (FE) o efectos
aleatorios (FE).
Utiliza para ello una prueba χ2 con la hipótesis nula (H0)

afirmando que el modelo de efectos aleatorios (RE) es el que
mejor explica la relación de la variable dependiente (yit) con las
explicativas (xit), por tanto, tiene la hipótesis alternativa (H1)
que el mejor método que se ajusta es el de efectos fijos (FE).
Para efectuar la prueba es necesario elegir el método de

estimación de un modelo que pueda incorporar la existencia de
correlación entre regresores (xit) y términos de error
(endogeneidad). Por tanto, demostrar que la correlación no
existe, es decir, E[uit|xit]=0, y conducir a estimadores
inconsistentes.
Cuando E[μi|xit-≠0 el estimador OLS para efectos fijos (FE) o

within (WE) es consistente. Si se desea efectuar la hipótesis nula
para demostrar lo anterior se tiene que:
H0: [μi|xit]=0
H1: [μi|xit-≠0
Para este caso, tanto OLS como y FGLS son consistentes, siendo
FGLS el estimador lineal insesgado de varianza mínima.
El contraste de Hausman se utiliza para analizar la posible

correlación entre los efectos individuales no observados que
difieren entre los individuos (μi) y los regresores (xit), de este

modo, poder decidir entre una estimación por efectos fijos (FE) o
efectos aleatorios (RE).
La prueba de hipótesis planteada es la siguiente:

H0: E[μi|xit]=0 El modelo de efectos aleatorios (RE) es el que
mejor explica la relación de la variable
dependiente con las explicativas.
H1: E[μi|xit-≠0 El modelo de efectos (FE) fijos es el que
mejor explica la relación de la variable
dependiente con las explicativas.
El estadístico de Hausman tiene la siguiente forma:
Como se puede observar, QFE,RE es el cociente del cuadrado de la

diferencia entre los dos estimadores de los parámetros ̂ de los
efectos fijos (FE) y aleatorios (RE) multiplicados por la
diferencia entre las varianzas de éstos.
Así, bajo la hipótesis nula H0, donde existe independencia del

efecto individual no observado (μi) y los regresores (Xi), tanto en
el modelo de efectos fijos (FE) como para efectos aleatorios (RE)
por estimación FGLS son consistentes.
Por tanto, deben tender al mismo valor cuando NT→∞, de modo

que la diferencia entre los estimadores debe ser pequeña.

Puesto que el estimador ̂RE es más eficiente que ̂FE, implica que
la varianza del primer estimador es pequeña en comparación del
segundo estimador, por tanto, la diferencia entre las varianzas
debe ser grande.
La combinación de ambas características dará como resultado un

valor del estadístico QFE,RE cercano a cero (0), por tanto, sea
necesario rechazar la hipótesis nula.
Si, por el contrario, H0 no se recahza, es decir, no existe

independencia del efecto individual no observado (μi) y los
regresores, entonces el estimador por efectos fijos, ̂FE, es
inconsistente pero el estimador de efectos aleatorios, ̂RE, lo es.
De este modo, debe existir una diferencia positiva y significativa

entre los valores de estos estimadores ( ̂FE- ̂RE). Esto implicará
que el valor del estadístico QFE,RE será alto rechazando la
hipótesis nula (Greene 2005).
Hausman y Taylor (1981) demostraron como la misma hipótesis

puede ser contrastada utilizando cualquier par de diferencias
̂FGLS-̂FE o ̂FGLS-̂BE donde ̂BE es el estimador de ̂ mediante
estimación entre grupos o between.

converge a una χ .

DIAGNÓSTICO, ESTIMACIÓN Y ESPECIFICACIÓN DE MODELOS

PANEL EN STATA
REGRESIÓN AGRUPADA (POOLED OLS)

El enfoque restringido de análisis de datos panel es omitir las
dimensiones de individuos (i) y tiempo (t) de datos agrupados y
sólo calcular la regresión OLS. Este modelo se expresa:
Yit    1 X 1it   it (1)
Donde se encuentra la i-ésima unidad transversal en el periodo
t-esimo. Si se trata de explicar la variable respuesta o
dependiente con las variables independientes de la forma:
Código STATA: reg y x1 x2 x3, robust
Código STATA: xtreg y x1 x2 x3, pa corr(independent) robust
ESTIMADOR DE EFECTOS ALEATORIOS (RE)

El modelo RE permite suponer que cada unidad transversal tiene
un intercepto diferente (Modelo B) que se expresa como:
Yit  i  1 X1it   it (2)
Donde αi= μ+εi. Sustituyendo en (2) se obtiene:

Yit    1 X1it  i   it (3)

Sobre cada una de las salidas para el modelo RE se hace una
breve descripción de los conceptos y principales resultados.
Código STATA: xtreg y x1 x2 x3, re robust
Si se analiza el modelo anterior, se observa que si la varianza de

los efectos individulaes no observados μi es prácticamente igual
a cero, es decir, ς =0, entonces no existe ninguna diferencia
relevante entre el modelo pooled (ecuación 1) y el modelo de
efectos aleatorios (ecuación 3).
¿Cómo se puede determinar si es necesario utilizar el modelo de

efectos aleatorios (RE) o de datos agrupados (pooled)?

PRUEBA DE MULTIPLICADORES DE LAGRANGE (LM)

La prueba de multiplicadores de lagrange o LM, permite decidir
entre una regresión por efectos aleatorios (RE) o por OLS
pooled. Es una prueba de poolability.
La hipótesis nula de la prueba LM expone que las diferencias a

través de individuos es cero. Es decir, no existe diferencia
significativa entre unidades. Frente a la alternativa que existe
una diferencia significativa entre las unidades.
Breusch y Pagan formularon la prueba conocida como Prueba de

Multiplicador de Lagrange (LM) para efectos aleatorios (RE) la
cual en su hipótesis nula, Ho, afirma que no existe variabilidad
del efecto individual no observado, (H0: ς =0), frente a la
alternativa de existe variabilidad del efecto individual no
observado (H1: ς ≠0).
H0: ς =0 (No existe un efecto individual no observado)
H1: ς ≠0 (Existe un efecto individual no observado)
Código STATA: xttest0
Con el p-value y la probabilidad que se encuentra en la región de

rechazo indica que se puede rechazar la hipótesis nula Ho de “no
existen efectos individuales no observados”.

Por lo tanto, los efectos aleatorios (RE) son significativos y es

preferible utilizar este método en vez del procedimiento
agrupado (pooled).
ESTIMADOR DE EFECTOS FIJOS (FE)

Sobre cada una de las salidas para el modelo FE se hace una
breve descripción de los conceptos y principales resultados.

¿Cómo se puede permitir la Código STATA: xi: reg y x1 x2 x3

existencia de efectos i.stcode
individuales no observados o
que el intercepto varíe con
respecto a cada individuo?
Existen dos opciones. La
primera, utiliza el modelo LSDV
por el cual estima una dummy
para cada individuo de la
siguiente manera:
Yit  i  1 X1it  eit (4)
La segunda utiliza el estimador within con el comando xtreg.

Código STATA: xtreg y x1 x2 x3, fe robust

¿Cuál de los modelos pooled (ecuación 1) o de efectos fijos

(ecuación 4) es el apropiado?
El modelo pooled (1) esta restringido, pues asume un intercepto
común para todos los individuos. Por lo tanto, para compararlo
con un modelo de efectos fijos (FE) estimados por LSDV se
puede utilizar una prueba estadística tipo F.
La prueba plantea la hipótesis nula como Ho: d1=d2=…..=di=0. Es

decir, todas las variables dicotómicas que representan los efectos
individuales no observados son iguales cero frente a la
alternativa, H1, al menos una variable dicotoma es distinta de
cero.
Si la prueba se rechaza, significa que al menos una variable

dicotómica es distinta de cero. Por tanto, es necesario utilizar el
método de efectos fijos (FE).
La prueba F de significancia de los efectos fijos (FE) se reporta

automáticamente
Código STATA: xtreg x1 x2 x3, fe
El p-value indica que se puede rechazar la hipótesis nula, H0, de

“todos los coeficientes de los efectos individuales no observados
son iguales al cero” por lo que es preferible utilizar el método de
efectos fijos (FE) frente al modelo agrupado (pooled).

EFECTOS FIJOS vs. ALEATORIOS

Las pruebas de Breusch y Pagan para efectos aleatorios (RE), y la
prueba F de significancia de los efectos fijos (FE) indican que
tanto el modelo de efectos aleatorios (RE) como el de efectos
fijos (FE) son adecuados frente al modelo agrupado (pooled) o
determinar estadísticamente si se incorporan o no los efectos
indivuales no observados.
¿Pero cómo decidir cuál de los dos usar? La respuesta depende

de la posible correlación entre el componente de error individual
ei y las variables explicativas X.
PRUEBA DE HAUSMAN
Para decidir entre FE o RE se utiliza la prueba de HAUSMAN
donde la hipótesis nula radica en que el modelo a utilizar es
efectos aleatorios (RE) contra la alternativa de efectos fijos (FE).
La prueba en el modelo trasfondo determina estadísticamente si

los términos de error están correlacionados con los regresores
contra su hipótesis que no.
H0: Efectos individuales no observados (αi) están no
correlacionados con los regresores. Se utiliza un modelo RE
H1: Efectos individuales no observados (αi) están
correlacionados con los regresores. Se utiliza un modelo FE.
Para efectuarla se estima un modelo de efectos fijos (FE) y se

almacena las estimaciones. Luego se estima un modelo de
efectos aleatorios (RE) y se almacena las estimaciones.

Código STATA:
xtreg y x1 x2 x3, fe
estimates store FIXED
xtreg y x1 x2 x3, re
estimates store RANDOM
hausman FIXED RANDOM
En este ejemplo, se rechaza la hipótesis nula. Es decir, la
diferencia entre los coeficientes de efectos aleatorios (RE) y fijos
(FE) es sistemática. Por lo tanto, es conviene utilizar el método
de efectos fijos (FE).
Hausman demostró que la diferencia entre los coeficientes de

efectos fijos y aleatorios (βFE-βRE) puede ser utilizada para
probar la hipótesis nula que los términos de error ui y las
variables X no están correlacionadas.
EJEMPLO. ECUACIÓN DE SALARIOS PARA LOS HOMBRES

A continuación se utilizara una base de datos panel26 para
estimar una ecuación del comportamiento de salarios para 545
hombres durante 8 periodos. Como variable dependiente se
considera el logaritmo del salario, lwage, y como independientes
o explicativas:
educ: Número de años de escolarización.
black: Variable dicotómica que toma el valor 1 si el
individuo es de raza negra.
hisp: Variable dicotómica que toma el valor 1 si el
individuo es hispano.
exper: Años de experiencia en el mercado laboral.
26 Se utiliza la base de datos wagepan (Wooldridge 2006)

expersq: Cuadrado de la variable anterior.

married: Variable dicotómica que toma el valor 1 si el
individuo está casado.
union: Variable dicotómica que toma el valor 1 si el
individuo está afiliado con algún sindicato.
Las variables educ, black e hisp al emplear la estimación de

efectos fijos (FE) desaparecen al ejecutar la estimación within
(WE) y no presentar variabilidad en el tiempo (Zit=Zi).
I. ANÁLISIS DE VARIACIONES BETWEEN-WITHIN

1. Las variables explicativas
existende tipo cuantitativo,
es decir, que cambian en el
tiempo y los individuos (Zit)
tales que tienen variacion
between y within como
exper, union y expersq
2. Por otra parte, existen
variables de tipo cualitativo
como black, hisp, educ, que
tienen variación entre
individuos y no en el tiempo
(Zit=Zi), de allí que su
variación within sea cero.
II. SELECCIÓN DEL MODELO DE TRABAJO

Es necesario seleccionar la metodología de estimación del
modelo. Los métodos de trabajo son: OLS pooled o agrupados;
efectos fijos (FE) y efectos aleatorios (RE).

MODELO POPULATION AVERAGE (PA) o POOLED

PRESENTACIÓN SALIDA STATA
MODELO DE EFECTOS ALEATORIO (RE) SALIDA STATA

Calculo del factor de correción en STATA:
̂
Theta = ̂λ = [1 ]
√̂ ̂
Prueba de multiplicadores de Lagrange:
MODELO DE EFECTOS FIJOS (FE)


PRUEBA DE HAUSMAN
CONTRASTE DE HAUSMAN:
Hipotesis nula: Los estimadores son consistentes
Estadıstico de contraste asintótico: χ( ) = 31.45 con
p-value = 0.00000. Conclusión: Se rechaza la
hipotesis nula de efectos aleatorios (RE).
CONCLUSIONES SELECCIÓN DEL MODELO DE TRABAJO

1. En el ajuste realizado considerando efectos fijos (FE)
tenemos un contraste F cuya hipótesis nula parte de definir
que todos los grupos tienen un intercepto común, es decir,
el modelo adecuado es OLS pooled. En este caso, se rechaza
la hipótesis nula, por lo que es preferible incorporar efectos
individuales no observados (μi≠0) ajustado mediante efectos
fijos (FE).
2. En el ajuste realizado al modelo de efectos aleatorios (RE)
se ejecuta el contraste de hipótesis de Multiplicadores de
Lagrange donde la hipótesis nula radica en que no hay
efectos aleatorios, es decir, el modelo adecuado es OLS
pooled. Puesto que se rechaza la hipótesis nula, es preferible
un modelo que incorpore efectos individuales no observados
(μi≠0) ajustado mediante el modelo de efectos aleatorios
(RE).
3. La decisión de elegir entre efectos aleatorios (RE) o efectos
fijos (FE) utiliza la prueba de Hausman. La hipótesis nula
implica utilizar efectos aleatorios (RE) frente a la
alternativa de efectos fijos (FE). Puesto que se rechaza la
hipótesis nula, la opción adecuada es utilizar efectos fijos
(FE).

En resumen, en la seleecion del modelo adecuado para la

estimación de la ecuación de salarios para hombres las pruebas
de hipótesis (F y multiplicadores de Lagrange) descarta la
opción de estimar el modelo de mediante OLS pooled, es decir,
asume la existencia de un efecto individual no observado (μi≠0).
La implementación de la prueba de Hausman decide el modelo
adecuado a ejecutar, en este caso es efectos fijos (FE).
MODELO DE TRABAJO MODELO DE EFECTOS FIJOS (FE)

INTERPRETACIÓN DE RESULTADOS DEL MODELO ELEGIDO

1. Todas las variables tienen coeficientes significativamente
distintos de cero, por lo que sus variaciones influyen en la
variable dependiente.
2. El modelo de manera conjunta es valido ya que se rechaza la
hipótesis nula que todos los regresores tengan un coeficiente
igual a cero de forma simultánea (prueba F).
3. Un individuo casado (MARRIED) tiene un salario superior
en un 4.53% a otro que no lo esté.
4. Un individuo afiliado a un sindicato (UNION) tiene un
salario superior en un 8.208% a otro que no lo esté.

5. Al introducir la variable experiencia (EXP) y su cuadrado

(EXPSQ) está comprobando si la relación de esta variable
con el salario es cuadrática (en lugar de lineal).
6. El coeficiente negativo, y significativo, del cuadrado de la
variable experiencia (EXPSQ) indica que la relación es una U
invertida, es decir, existe un punto a partir del cual a mayor
experiencia implica menor porcentaje de salario.
7. Finalmente, aunque no hace parte del modelo seleccionado,
destacar que en la estimación bajo efectos aleatorios (RE) se
proporcionan las estimaciones de la varianza de los efectos
individuales no observados (ς ) y la varianza de los
términos de error (ς ) necesarias para estimar el factor de
corrección, λ̂. En este caso, λ̂=0.6426 para la estimación de
FGLS por OLS.
PRUEBAS SOBRE SUPUESTOS DEL MODELO PANEL
Es importante señalar que aun cuando se ha intentado modelar
la heterogeneidad temporal e individual puede estar mal
especificada en otros aspectos. Con frecuencia estas condiciones
son violadas en datos panel.
De acuerdo con los supuestos de Gauss-Markov, los estimadores

OLS son BLUE siempre y cuando los términos de errores, εit, sean
independientes entre sí y se distribuyan idénticos con varianza
constante ς2.
HETEROSCEDASTICIDAD
Cuando la varianza de los errores de cada unidad transversal no
es constante, se encuentra con una violación de supuestos
iniciales de la estructura de estimación panel.

ESTRUCTURA DE LOS TÉRMINOS DE ERROR
Homocedasticidad Heterocedasticidad
Una forma de saber si la estimación tiene problemas de

heteroscedastidad es a través de la prueba del Multiplicador de
Lagrange de Breusch y Pagan.
Sin embargo, de acuerdo con Greene (2005), ésta y otras

pruebas son sensibles al supuesto sobre la normalidad de los
errores.
Afortunadamente, la prueba Modificada de Wald (WALD*) para

Heterocedasticidad funciona aún cuando dicho supuesto es
violado.27
La hipótesis nula de esta prueba parte de no existe problema de

heteroscedasticidad, es decir, ς =ς2 para todo i=1…N, donde N
es el número de unidades transversales.
H0: No existe heterocedasticidad (ς ≠ς2)
H1: No existe heterocedasticidad (ς =ς2)
27 Para una discusión sobre esta prueba, consulta Greene, W. 2000. Econometric Analysis. Upper Saddle River, NJ: Prentice Hall, p. 598.

Naturalmente, cuando la hipótesis nula, Ho, se rechaza, se tiene

un problema de heteroscedasticidad. Esta prueba puede
implementar en Stata con el comando xttest3 después de estimar
el modelo de efectos fijos:
Código STATA: xtreg y x1 x2 x3, fe
La prueba indica que se rechaza la hipótesis nula, Ho, de

varianza constante, por tanto, se asume la existencia de
heteroscedasticidad.
CORRELACIÓN CONTEMPORÁNEA
El problema de correlación contemporánea se refiere a la
correlación de los errores de al menos dos o más individuos en el
mismo periodo t.
En otras palabras, se tienen errores contemporáneamente

correlacionados si existen características no observables de
ciertos individuos que se vinculancon las características no
observables de otros individuos.
Por ejemplo, errores de dos individuos pueden relacionarse pero

mantenerse independientes de los errores de los demás.

La prueba de hipótesis parte de determinar la matriz de

correlación de los residuales, obtenida sobre las observaciones
comunes a todas las unidades transversales, e identificada como
una matriz identidad de orden N, donde N es el número de
individuos28.
El comando xttest2 de Stata ejecuta la prueba para identificar

problemas de correlación contemporánea en los residuales de un
modelo de efectos fijos.
La hipótesis nula, Ho, afirma la existencia de independencia

transversal (cross-sectional independence). Es decir, los errores
entre unidades son independientes entre sí.
H0: errores entre unidades son independientes entre sí.
H1: errores entre unidades no son independientes entre sí.
Si la hipótesis nula Ho se rechaza, entonces existe un problema

de correlación contemporánea. El comando xttest2 se
implementa después de un modelo de efectos fijos (FE). En este
ejemplo:
Código STATA: xtreg y x1 x2 x3, fe robust
No existe dependencia
dependencia transversal
28 Para una discusión de esta prueba, consulta Greene, W. 2000. Econometric Analysis. Upper Saddle River, NJ: Prentice Hall, p. 601.

El p-value del estadístico χ2 indica que se puede rechazar la

hipótesis nula. Por tanto, también es necesario corregir el
problema de correlación contemporánea.
AUTOCORRELACIÓN
La independencia se viola cuando los errores de diferentes
individuos están correlacionados (correlación contemporánea),
o cuando los errores dentro de cada individuo se correlacionan
temporalmente (correlación serial) o ambos.
Existen muchas maneras de diagnosticar problemas de

autocorrelación.29 Sin embargo, cada una de estas funciona bajos
ciertos supuestos sobre la naturaleza de los efectos individuales.
Wooldridge desarrolló una prueba flexible basada en supuestos

mínimos. La hipótesis nula de esta prueba parte de la no
existencia de autocorrelación. Naturalmente, si se rechaza, se
puede concluir que ésta sí existe.30
El método de Wooldridge (2002) utiliza los residuos de una

regresión de primeras diferencias, observando que si los
términos de error, εit, no está serialmente correlacionados,
entonces la correlación entre los errores εit diferenciados para el
periodo t y t-1 es igual a -0.5.
El comando xtserial requiere que se especifiquen la variable

dependiente e independientes del modelo. En este ejemplo:
29 Muchas de las pruebas que se utilizan para diagnosticar problemas de correlación serial en series de tiempo han sido ajustadas para aplicarse a
datos tipo panel en Stata. Estas pruebas puedes bajarlas por internet del modulo “PANELAUTO” y “PANTEST2” tecleando en la línea de comando:
ssc install panelauto y ssc install pantest2.
30 Para una discusión más amplia de esta prueba, consulta Wooldridge, J. M. 2002. Econometric Analysis of Cross Section and Panel Data.
Cambridge, MA: MIT Press.

Código STATA: xtserial y x1 x2 x3, output
La prueba indica se rechaza la hipótesis nula de no

autocorrelación, por tanto, existe autocorrelación de los
términos de error que es necesario corregir.

¿CÓMO SOLUCIONAR LOS PROBLEMAS DE HETEROGENEIDAD,

CORRELACIÓN CONTEMPORÁNEA, HETEROSCEDASTICIDAD Y
AUTOCORRELACIÓN?
Los problemas de correlación contemporánea,
heteroscedasticidad y autocorrelación examinadas pueden
solucionarse conjuntamente con estimadores de Mínimos
Cuadrados Generalizados Factibles (FGLS), o con Errores
Estándar Corregidos para Panel (Panel Corrected Standard
Errors ó PCSE).31
Beck y Katz (1995) demostraron que los errores estándar de

PCSE son más precisos que los de FGLS. Desde entonces,
distintos trabajos utilizan PCSE en sus estimaciones para panel.32
El comando de STATA xtpcse calcula estimaciones panel

corregidas por desviación estándar (PCSE) donde los
parametros son estimados por regresión de la forma Prais-
Winten.
Cuando se calculan los errores estándar de la matriz de

covarianza se suponen provienen de paneles correlacionados
contemporáneamente y heterocedasticos.
Código STATA: xi: xtpcse y x1 x2 x3, i.stcode i.year, correlation(ar1)

(Producto omitido por tamaño)
ó también el comando:
31 Para una introducción técnica pero fácil de entender sobre las propiedades de FGLS y PCSE, ver: Nathaniel Beck, “Time-Series-Cross-Section
Data: What Have We Learned in the Past Few Years?”, Annual Review of Political Science, 4: 271-93 (2001).
32 Hasta la fecha, el debate entre FGLS y PCSE continúa, y ya se han desarrollado algunos métodos alternativos. Para propósitos de este curso, vale
la pena estimar ambos métodos y comparar resultados.

Código STATA: xi: xtgls y x1 x2 x3, panels (correlated) corr(ar1)

(Producto omitido por tamaño)
La solución autocorrelacion serial en un modelo panel parte a

través de un modelo de efectos fijos (FE) con término de
coeficiente de autocorrelación (ρ) de grado 1 (AR1) que controla
la dependencia del tiempo (t) con respecto a su valor rezagado
(t-1).
El comando xtregar de STATA ajusta una regression cuando los

terminos de error tienen un componente autoregresivo de
primer orden. El termino de error autocorrelacionado, it=𝛒 it-
1+𝛈it, es decir, los errores tienen una correlación de primer
grado, que se determina a partir del coeficiente ρ.
Donde |ρ|<1 y εit es una vaiid con media cero y varianza . La

selección del modelo RE o FE utiliza los mismos supuestos que
modelos anteriores sobre el componente individual no
observado (αi).
Este comando ofrece un estimador within (WE) para efectos

fijos (FE) y un estimador GLS según Baltagi-Wu33, el cual
extiende el estimador panel proporcionado en Baltagi-Li34 a un
caso de paneles desbalanceados con desigualdad de
observaciones.
33Baltagi, B. H., and P. X. Wu. 1999. Unequally spaced panel data regressions with AR(1) disturbances. Econometric Theory 15: 814–823.
34Baltagi, B. H., and Q. Li. 1991. A transformation that will circumvent the problem of autocorrelation in an error-component model. Journal of
Econometrics 48: 385–393.

Ambos estimadores ofrecen distintos cálculos del coeficiente de

correlación ρ. El modelo AR(1) es ejecutable en STATA de la
forma:
Código STATA: xtregar y x1 x2 x3, fe
Un resumen se observa en las dos siguientes tablas. La primera,

presenta la estrucutra metodológica de trabajo y las pruebas
estadisticas a implementar. La segunda, expone los comandos
mas utilizados bajo distintos supuestos.
METODOLOGIA DE TRABAJO Y PRUEBAS

Stata ejecuta FGLS y PCSE con los comandos xtgls y xtpcse

respectivamente para solucionar estos problemas.
Las opciones que ofrecen estos comandos dependen de los

problemas detectados en las pruebas que se han revisado.
La siguiente Tabla presenta los comandos que se pueden

ejecutar cuando se encuentren con problemas de correlación
contemporánea, heteroscedasticidad, autocorrelación y sus
combinaciones.
COMANDOS DE STATA APLICABLES
Estos comandos no calculan automáticamente efectos fijos (FE),

por lo que en caso de ser necesario, se debe incluir variables
dummy con el comando xi.
VENTAJAS Y DESVENAJAS DEL MODELO DE DATOS PANELES

La técnica de datos panel presenta una serie de ventajas y
desventajas en comparación con los modelos de series de tiempo
y de corte transversal. Las más relevantes son las siguientes
ventajas:
1. Permite disponer de un mayor número de observaciones
incrementando los grados de libertad y reduciendo la

colinealidad entre las variables explicativas y, en última

instancia, mejorando la eficiencia de las estimaciones
econométricas.
2. Permite capturar la heterogeneidad no observable ya sea
entre unidades individuales de estudio, como en el tiempo.
Con base en lo anterior, la técnica permite aplicar una serie
de pruebas de hipótesis para confirmar o rechazar dicha
heterogeneidad y cómo capturarla.
3. Los datos panel suponen, e incorporan en el análisis, el
hecho que los individuos, firmas, bancos o países son
heterogéneos. Los análisis de series de tiempo y de corte
transversal no tratan de controlar esta heterogeneidad
corriendo el riesgo de obtener resultados sesgados.
4. Permite estudiar de una mejor manera la dinámica de los
procesos de ajuste. Esto es fundamentalmente cierto si se
analiza el grado de duración y permanencia de ciertos
niveles, características o efectos (por ejemplo, medidas
regulatorias, pobreza, desempleo, etc.).
5. Permite elaborar y probar modelos relativamente
complejos de comportamiento en comparación con los
análisis de series de tiempo y de corte transversal. Un
ejemplo claro de este tipo de modelos, son los referencias a
medir niveles de eficiencia técnica por parte de unidades
económicas individuales (empresas, bancos, etc).
6. Una ventaja de la metodología de paneles de datos es el
incremento en la precisión de estimación. Este es el
resultado del incremento en el número de observaciones
combinando o agrupando (pooling) distintos periodos de
tiempo para cada individuo. Sin embargo, para validar la
inferencia estadística se necesita controlar la probable

correlación de errores del modelo de regresión sobre el

tiempo para un individuo. En particular, la forma usual de
estimación por mínimos cuadrados de los errores standard
en una regresión agrupada por OLS (pooled) típicamente
exagera las ganancias en la precisión, conduciendo a
subestimar errores estándar y t estadísticos que pueden ser
exagerados.
7. Los datos panel tienen la posibilidad de estimaciones
consistentes del modelo de efectos fijos, los cuales permiten
que la heterogeneidad individual no observada pueda estar
correlacionada con los regresores (endogeneidad). Tal
heterogeneidad no observada conduce al sesgo por
variables omitidas que debe ser corregido por métodos de
variables instrumentales (IV) utilizando únicamente una
sola sección de corte transversal (t=1), pero en la práctica
es difícil obtener un instrumento válido. Los datos panel
cortos ofrecen un camino alternativo, como se observó
anteriormente, para proceder si un efecto especifico
individual no observado es asumido e invariante en el
tiempo.
8. Proporcionan la posibilidad de generar pronósticos más
acertados para resultados individuales que las series
individuales aisladas. Si el comportamiento individual es
similar sobre ciertas variables, lo datos panel proporcionan
la posibilidad de aprender el comportamiento individual,
observando el comportamiento de otros, adicionalmente, la
información temporal de su comportamiento individual
(variación between y within). De esta forma, es más
ajustada que la utilizada si existiera una descripción del

comportamiento individual obtenida por los datos

agrupados (pooling data).
Desventajas:
1. En términos generales, las desventajas asociadas a la técnica
de datos panel se relacionan con los procesos para la
obtención y el procesamiento de información estadística
sobre las unidades individuales de estudio, cuando esta se
obtiene por medio de encuestas, entrevistas o utilizando
algún otro medio de levantamiento de los datos. Ejemplos
de este tipo de limitaciones son cobertura de la población de
interés, porcentajes de respuesta, preguntas confusas,
distorsión deliberada de las respuestas, etc., que causa
impacto en la construcción y balanceo de las bases de datos,
errores y variables omitidas.
2. El poder de los datos panel radica en la capacidad de aislar
efectos de acciones específicas, tratamientos o políticas.
Para cumplir con este propósito debe estar condicionado
con la estructura de datos. La información utilizada puede
demostrar cómo cada uno los i-esimos agentes económicos
a través del tiempo (t) pueden ser influenciados desde
diferentes factores, la lista puede ser infinita, de tal forma,
que es necesario permanezcan aquellos factores que se
creen tiene un impacto significativo. Sin embargo, si factores
de efectos individuales o específicos en el tiempo existen
entre los cortes transversales o las series de tiempo no son
capturadas por las variables explicativas puede conducir a
heterogeneidad en los parámetros en la especificación del
modelo. Ignorar tal heterogeneidad conduce a estimaciones

inconsistencias o sin sentido. Esto es conocido como sesgo

de heterogeneidad. Se pueden observar desde dos puntos
de vista (HSIAO 2003).
Caso 1. Interceptos heterogéneos (αi≠αj), pendientes

homogéneas (βi=βj).
Las elipses con líneas punteadas representan el punto de

dispersión (nube de puntos) para un individuo sobre el
tiempo, y la línea recta punteada representa las regresiones
individuales. Las líneas solidas sirven para demostrar la
regresión por mínimos cuadrados (OLS) ejecutada por el
modelo de panel de datos. Cada una de las figuras 1.1, 1.2 y
1.3., expone un sesgo para la metodología de datos
agrupados (pooled) debido a la heterogeneidad de los
interceptos. En cada uno de estos casos una regresión
agrupada (pooled) ignora la heterogeneidad de los
interceptos, y no debería ser utilizada. Adicionalmente, el
sesgo de la pendiente general estimada, o la línea gruesa, no
puede ser determinada de forma a priori.
Caso 2. Interceptos heterogéneos (αi≠αj) y pendientes

heterogéneas (βi≠βj).

Los puntos de dispersión, como en las figuras 1.1. y 1.2., no

se muestran y los números en círculos significan las
unidades individuales (i) donde la regresión ha sido
incluida en el análisis. Por ejemplo, en la figura 1.4., un
agrupamiento sencillo de las NT observaciones, asumiendo
parámetros idénticos para todas las unidades de corte
transversal conduciría a resultados sin sentido en razón a
que representaría un promedio de coeficientes que difieren
en gran medida a través de los individuos (i). La figura 1.5.,
tampoco tiene sentido en una figura agrupada, causado por
la falsa inferencia en la relación agrupada (pooled) ya que
su forma es curvilínea para efectuar un adecuad
agrupamiento de los individuos, de este modo, el supuesto
de homogeneidad no tiene sentido.
BIBLIOGRAFIA
Cameron, C. & P. Trivedi. Microeconometrics: Methods &
Applications, Cambridge U. Press, 2005
Hsiao, C. Analysis of Panel Data. Editorial: Cambridge University
Press. 2003
Wooldridge, J. Econometric Analysis of Cross Section and Panel
Data. 2002

PARTE IV. ANALISIS DE SERIES DE TIEMPO

UNIVARIADAS

INTRODUCCIÓN
En 1970, Box y Jenkins desarrollaron un cuerpo metodológico
destinado a identificar, estimar y diagnosticar modelos dinámicos
de series temporales en los que la variable tiempo juega un papel
fundamental, conocidos como modelos ARIMA.
La metodología de análisis ARIMA es sólo una pequeña parte de

lo que se conoce normalmente como “Econometría de Series de
tiempo” pero, sin duda alguna, una de las más utilizadas y germen
de otros muchos desarrollos posteriores.
Esta metodología permite que los propios datos temporales de la

variable a estudiar indiquen las características de la estructura
probabilística subyacente y ayuden a pronosticar (su meta
principal).
La utilización de modelos ARIMA es principalmente para

pronóstico a corto plazo, descartando la comprensión estructural
del fenómeno o la simulación de escenarios.
Los procedimientos se han contrapuesto a la llamada

“econometría estructural”, es decir, a la especificación de modelos
econométricos apoyada en las teorías subyacentes.
Sin embargo, hoy en día estos conceptos y procedimientos

constituyen una herramienta para apoyar y complementar los
conocimientos econométricos tradicionales que es un modo
alternativo de “hacer econometría”.

COMPOSICIÓN DE PATRONES SISTEMÁTICOS Y ESTOCÁSTICOS

El enfoque de análisis de una serie de tiempo descansa siempre,
en mayor o menor medida, en la idea genérica que una serie de
datos temporales o serie de tiempo puede dividirse en
componentes parciales que agregados conformen un esquema de
suma o multiplicación y configuran el aspecto global de la serie
observada.
Suele así afirmarse que cualquier serie de tiempo proviene de la

agregación de cuatro patrones de evolución de sus datos:
tendencia, ciclo, estacionalidad y componente estocástico o no
sistemático.
SERIE COMPUESTA POR TENDENCIA, ESTACIONALIDAD Y

COMPONENTE ALEATORIA

Definición. Ciclo. Patrón de evolución que revela cierta

propensión de la serie a repetir a muy largo plazo una misma
secesión de comportamientos tendenciales.
Por ejemplo....
Ciclos de crecimiento intertrimestral de la economía americana puede señalarse que,
a principios de 2000, el ciclo económico de crecimiento no había terminado.
10%
8%
6%
4%
2%
0%
-2%
-4%
1970
1975
1980
1985
1990
1995
2000
Definición. Tendencia. Generalmente asociado con el cambio en la
media a lo largo del tiempo. Se identifica la tendencia con el
patrón de evolución sostenido a mediano o largo plazo por
encima de la existencia de movimientos a corto plazo.
Por ejemplo....
La representación de los índices bursátiles DOW JONES, IBEX y NIKKEI revelan en el
caso del DOW JONES e IBEX la tendencia de la cotización de los índices ha sido creciente
durante los últimos 15 años y especialmente acelerada desde mediados de 1995.

Definición. Estacionalidad. Patrón de evolución de la serie que se

repite de forma más o menos invariable en momentos similares
de espacio temporal, generalmente no mayor a un año.
Por ejemplo....
Observando la serie mensual de ventas de artículos de navidad puede comprobarse
como existe una marcada estacionalidad, especialmente en el período de finde año.
250000
200000
150000
100000
50000
1995
1996
1997
1998
1999
2000
Definición. Innovación, componente aleatorio o no sistemático.

Porción del comportamiento temporal de una serie, o al menos
movimiento que no puede catalogarse como estacional,
tendencial y/o cíclico.
La idea básica del análisis de series de tiempo consiste en que

cada uno de estos componentes puede ser analizado de forma
separada para posteriormente, agregar los análisis parciales en
un resultado conjunto.
En ocasiones, el análisis se centra sólo en alguno de los

componentes sistemáticos por separado (tendencia,
estacionalidad, ciclo).

En otras ocasiones, como es el caso del modelamiento de series

de tiempo, lo que interesa es ir más allá de los componentes
cíclicos, tendenciales y estacionales, estudiando el componente
no sistemático, de carácter aparentemente aleatorio, para tratar
de identificar algún patrón de interés en su evolución que ayude a
entender la progresión de la serie completa.
Así pues, la aplicación de modelos de series de tiempo suele

realizarse por descomposición, analizando en primer lugar la
tendencia de la serie, pasando después a observar la
estacionalidad y concentrándose después en la identificación del
componente estocástico o no sistemico.
SERIE DE TIEMPO Y PROCESOS ESTOCÁSTICOS

Definición. Una variable aleatoria (va) es una función que asocia a
cada resultado del espacio muestral un número real. Puede tomar
valores discretos o continuos.
Definición. La distribución de probabilidad de una variable

aleatoria (va) es una función que asigna a cada valor posible de
dicha variable aleatoria una probabilidad.
Procesos estocasticos
Un proceso estocástico es una sucesión de variables aleatorias Yt
ordenadas, donde puede tomar t cualquier valor entre el intervalo
abierto (-, ).
Por ejemplo, la siguiente sucesión de variables aleatorias puede

ser considerada como proceso estocástico:

y-4 , y-3 , y-2 ,........ y3 , y4

El subíndice t no tiene, en principio, ninguna interpretación a
priori, aunque si se habla de proceso estocástico en el contexto
del análisis de series de tiempo este subíndice representará el
paso del tiempo.
PROCESO ESTOCASTICO
Definición. Proceso estocástico. Conjunto de variables aleatorias

(Yt)t∈I , donde el índice t toma valores en un conjunto I. Llamamos
trayectoria del proceso a una realización del proceso estocástico.
Si el índice I es discreto, el proceso es en tiempo discreto. Si el
índice I es continuo, el proceso es en tiempo continuo.
Una serie de tiempo es una realización de un proceso estocástico

teórico con valores discretos ajustado a una serie real.
El análisis de series de tiempo tratará, a partir de un modelo

teórico inferir las características de la estructura probabilística
subyacente del verdadero proceso estocástico conocido como
proceso generador de datos (DGP).

Definición. Serie de tiempo. Es la realización de un proceso

estocástico en tiempo discreto donde los elementos de I están
ordenados y corresponden a instantes equidistantes del tiempo.
Es decir:
Si I = {1, . . . , n}, la serie es y1, y2, . . . , yn;
Si I = ℕ, la serie es y0, y1, y2 , . . . ;
Si I = ℤ, entonces la serie es . . . , y 2, y 1, y0, y1, y2....
Una serie temporal describe la evolución aleatoria de una
variable en el tiempo.
PROCESO ESTOCÁSTICO ESTACIONARIO EN SENTIDO FUERTE

Suponga que cada una de las variables aleatorias, Yt, que
configuran un proceso estocástico tendrán su propia función de
distribución con sus correspondientes momentos.
Así mismo, cada conjunto de variables aleatorias tendrá su

correspondiente función de distribución conjunta y sus funciones
de distribución marginales de probabilidad.
Se dice que un proceso estocástico es estacionario en sentido

estricto o fuerte si las funciones de distribución conjuntas (no
sólo la esperanza, varianzas o autocovarianzas, sino las funciones
de distribución conjunta de probabilidad completas) son
constantes, o dicho con más propiedad, son invariantes con
respecto a un desplazamiento en el tiempo (variación de t).
Cuando se habla de estacionaeridad es sinonimo de convergencia

estocástica a un punto de equilibrio. Mientras en un proceso
determinista se habla de equilibrio en un proceso esticastico se
habla de estacionareidad.

Definición. Proceso estocástico estacionario en sentido fuerte. Un

proceso es estacionario en sentido estricto o fuerte si al realizar
un mismo desplazamiento en el tiempo de todas las variables de
cualquier distribución conjunta finita, resulta que esta
distribución no varía, es decir:
Para todo conjunto de índices (i1, i2, ..., ir) y todo j.
PROCESO ESTOCÁSTICO ESTACIONARIO EN SENTIDO DÉBIL

La definición de estacionariedad en sentido estricto puede
relajarse sustancialmente utilizando la denominada
estacionariedad en sentido débil.
Se dice que un proceso estocástico es estacionario en sentido

débil si:
1. Las esperanzas matemáticas de las variables aleatorias no
dependen del tiempo, son constantes:
E[ Y t ] = E[ Y t+m ]  m
2. Las varianzas son constantes y no dependen del tiempo (son
finitas):
Var[ Y t ] = Var[ Y t+m ]    m
3. Las autocovarianzas entre dos variables aleatorias del
proceso que correspondientes a períodos distintos de
tiempo (distintos valores de t) sólo dependen del lapso de
tiempo transcurrido entre ellas:
Cov( Y t ,Y s ) = Cov( Y t+m ,Y s+m )  m

De esta última condición se desprende que si un fenómeno es

estacionario sus variables pueden estar relacionadas linealmente
entre si, pero de forma que la relación entre dos variables sólo
depende de la distancia temporal k transcurrida entre ellas.
Definición. Proceso estocástico estacionario en sentido débil o

estacionarios en covarianza. Un proceso estocástico estacionario
en sentido débil existe si mantiene constantes todas las
características de sus momentos a lo largo del tiempo, es decir, si
para todo t:
PROCESO ESTOCÁSTICO RUIDO BLANCO (WHITE NOISE)

En este contexto, un proceso estocástico ruido blanco es una
sucesión de variables aleatorias (proceso estocástico) con
esperanza matemática nula (cero), varianza constante, y
autocovarianzas nulas para distintos valores de t. Es un caso
particular de un proceso estacionario en sentido débil.
Definición. Proceso estocástico ruido blanco. Es un proceso

estacionario que cumple las siguientes características:

Se puede interpretar un proceso estocástico ruido blanco como

una sucesión de valores sin relación alguna entre ellos, oscilando
en torno a una media cero dentro de un margen constante.
Si además la serie de tiempo, yt, es un proceso estocástico ruido

blanco, esta normalmente distribuido y todas las realizaciones
del proceso son independientes entre sí, se conoce como ruido
blanco gaussiano.
En este tipo de procesos, como ruido blanco gaussiano, implica

que conocer valores pasados no proporciona ninguna
información sobre el futuro ya que el proceso es puramente
aleatorio, por consiguiente, carece de memoria, también es
conocido como procesos de memoria corta o de efectos
transitorios.
GRAFICO. PROCESO RUIDO BLANCO
PROCESO ESTOCÁSTICO PASEO ALEATORIO (RANDOM WALK)

Así como existen procesos estacionarios, suponga una serie de
tiempo, yt, definida como un tipo de proceso estocástico no
estacionario, es decir, existen cambios en su media y varianza a lo
largo del tiempo. Se define como un paseo aleatorio (random
walk). Su forma funcional se encuentra determinada por:

Su estructura implica que el efecto de cualquier suceso que

ocurra en el pasado permanece para siempre impactando la
dinámica de la serie, también es conocido como procesos de
memoria larga o de efectos permanentes.
Esta es una diferencia fundamental respecto a procesos

estacionarios, donde el impacto de lo ocurrido en el pasado
remoto tiende a desaparecer, en la medida en que los parámetros
estimados se hacen sucesivamente más pequeños.
GRAFICO. PROCESO PASEO ALEATORIO
ESTRUCTURA DE MODELOS ARMA

Siguiendo la metodología planteada por Box y Jenkins (1970), los
modelos de series de tiempo tratarán de expresar la evolución de
un proceso estocástico o una serie de tiempo estacionaria, yt, en
función del pasado, innovaciones o impactos aleatorios que sufrió
en el pasado.

Para ello, se utilizarán dos tipos de formas funcionales lineales:

1. Modelos autorregresivos (AR).
2. Modelos de Medias Móviles (MA).
MODELOS AUTORREGRESIVOS-AR(P)
Se define un modelo autorregresivo (AR) como aquel en el que la
variable endógena de un período t es explicada por las
observaciones de ella misma correspondientes a períodos
anteriores (parte sistemática) más un término de error ruido
blanco (innovación puramente aleatoria).
Los modelos autorregresivos se abrevian con la palabra AR tras la

que se indica el orden del modelo: AR(1), AR(2),....etc.
El orden del modelo expresa el número de observaciones

rezagadas de la serie de tiempo analizada que intervienen en la
ecuación. Así, por ejemplo, un modelo AR(1) tendría la siguiente
expresión:
Y t =  0 + 1Y t -1 +  t
La expresión genérica de un modelo autorregresivo, no de un
AR(1), sino de un AR(p) sería la siguiente:
Y t =  0 + 1Y t -1 + 2 Y t -2 + ......+ p Y t - p +  t
Esta forma funcional se acompaña de una serie de restricciones

conectadas con hipótesis analíticas:
1. La correlación entre una variable y su pasado va
reduciéndose a medida que nos alejamos más en el tiempo
(proceso ergódico).

La ergodicidad requiere que valores de un proceso estocástico

suficientemente separado entre periodos a medida que se
incrementa el tiempo disminuya su correlación.
Definicion. Ergodicidad. Una serie de tiempo estacionaria es

ergodica si cov[yt,yt-i-→0 ∀ i cuando t→∞.
2. La magnitud de los coeficientes está limitada en valor

absoluto. Así, por ejemplo, en el caso de un AR(1), el
coeficiente autorregresivo de un proceso estocástico
estacionario ha de ser inferior a 1 en valor absoluto. En el
caso de un AR(2) es la suma de los dos coeficientes que no
puede exceder el triangulo unitario. En casos mas generales,
como un AR(P) se hablará del circulo unitario.
Cada una de estas restricciones expresadas en los coeficientes se

conectan con las propiedades de estacionariedad del proceso, o
dicho de otro modo, sólo los modelos cuyos coeficientes respetan
una serie de condiciones (que dependen del orden P del modelo
autoregresivo) representan procesos estocásticos estacionarios,
por tanto, tienen utilidad analítica.
MODELO DE MEDIAS MÓVILES-MA(Q)

Un modelo de medias móviles (MA) es aquel que explica el valor
de una determinada variable en un período t en función de un
término independiente y una sucesión de innovaciones
correspondientes a períodos precedentes, convenientemente
ponderados.

Estos modelos se denotan con las siglas MA, seguidos, como en el

caso de los modelos autorregresivos, del orden entre paréntesis.
Así, un modelo con q términos de error o MA(q) respondería a la
siguiente expresión:
Y t =  +  t + 1  t -1 + 2  t -2 + ....+ q  t -q
¿Qué significa que una variable aleatoria se explique en función
de las innovaciones cometidas en períodos precedentes? ¿De
dónde proceden esos errores? ¿Cuál es la justificación de un
modelo de este tipo?
Y t =  Y t -1 +  t  Y t -1 =  Y t -2 +  t -1 
Y t =  t +   t -1 +  Y t -2  ........
2
Y t =  t +   t -1 +   t -2 +   t -3 + ....+   t - j +
2 3 j
En realidad, un modelo de medias móviles (MA) puede obtenerse

a partir de un modelo autorregresivo al realizar sucesivas
sustituciones, o lo que es lo mismo:
Yt=∑ ϕ ε
Cualquier serie de tiempo puede describirse como la suma de sus

componentes estocásticos AR(p) y MA(q).
MODELO AUTOREGRESIVO DE MEDIA MÓVIL-ARMA(p,q)

Un proceso estocástico estacionario, yt, sigue un modelo
autoregresivo de media móvil de orden (p,q) o ARMA(p,q) si:
yt= μ+ϕ1yt-1+ϕ2yt-2+…..+ϕpyt-p+εt+θ1εt-1+θ2εt-2+......+θpεt-q

O lo que es lo mismo:
y = μ + ε + ∑ϕ y + ∑θ ε
Para todo t=1,2,….. Donde εt~IID(0, ) y μ, ϕ1,…,ϕp y θ1,…,θq son

parámetros del modelo. Es decir, es la suma lineal de los
componentes AR y MA de orden p y q respectivamente.
OPERADOR Y POLINOMIO DE REZAGOS
El operador de rezago Lp aplicado al valor de una serie de tiempo,
yt, devuelve el valor rezagado p observaciones. Es decir:
LpYt=Yt-p
Un polinomio de rezagos de orden p, p(L), se compone de una

sucesión de p operadores de rezagos con sus respectivos
coeficientes. Suponga un AR(P):
yt= ϕ1yt-1+ϕ2yt-2+…..+ϕpyt-p+εt
Utilizando los polinomios de rezagos se puede expresar de la

forma:
(1-ϕ1L- ϕ2L2 ϕ3L3-…..- ϕpLp)yt=εt
El polinomio de rezagos permite abreviar la expresión de un

modelo AR(p) escribiéndose como:
ϕp(L)yt=εt
En el caso de los modelos MA(q) se tiene que:

yt= μ+ϕp(L)εt

CONDICIONES DE ESTACIONAREIDAD EN SERIES DE TIEMPO

La atención a la estacionariedad de las series de tiempo se ha
convertido en algo indispensable por varios motivos, entre ellos:
1. La detección de la no-estacionariedad resulta
estadísticamente fundamental, ya que afecta de forma
decisiva las etapas de identificación, contraste y validación
de los modelos planteados. En ese sentido, no debe olvidarse
que la mayor parte de la teoría econométrica está construida
asumiendo la estacionariedad de las series.
2. Tratar de evitar al máximo que la no estacionariedad de las
variables guíe los resultados de las estimaciones de las
relaciones que las unen, provocando la obtención de análisis
espurios.
3. El análisis de estacionariedad es básico como etapa previa
en el análisis de cointegración, una de las principales
aportaciones a la técnica econométrica de los últimos años.
4. El concepto de tendencia estocástica frente a tendencia
deterministica interesa conceptualmente a la teoría
económica, en especial, en el contexto del análisis temporal
de los efectos de la política económica sobre las variables
macroeconómicas.
Verificar la estacionareidad de un proceso estocástico se puede

desde dos puntos de vista. La primera, con el valor de las raices
características. La segunda, el comportamiento de los momentos
de la serie de tiempo. Se analizará cada uno de ellos
detenidamente.

ESTACIONAREIDAD POR ECUACION EN DIFERENCIA

Suponga un proceso AR(P) de la forma:
yt=ϕ1yt-1+ϕ2yt-2+….+ϕpyt-p
Puede ser reexpresado como φt= ℱφt-1+υt:
Determinar la estacionareidad de un proceso AR(P) utiliza la

matriz ℱ. A partir de ella, se constuye la ecuación característica
|ℱ-λI|=0 que genera un polinomio de orden p de la forma:
λp+ϕ1λp-1+ ϕ2λp-2+…….+ϕp=0
La condición de estacionareidad implica que cada una de las

raices características de este polinomio sea inferior a la unidad
|λi|<1.

Los valores de las raices caracteristicas del polinomio

autoregresivo pueden ser números reales o números complejos.
Las soluciones imaginarias de la forma a+bi se dice estacionarias
si el valor modulo, calculado como r=√a + b , es menor a la
unidad.
Sin pérdida de generalidad, en el caso de un AR(2), la solución

del sistema |ℱ-λI| obtiene la siguiente ecuación características de
la forma:
λ2-ϕ1λ-ϕ2=0
Para este caso, si el valor de las raíces características (λ1,2) de

esta ecuación cuadrática son menores que uno (λ1,2<|1|) el
proceso se dice estacionario.
ESTACIONAREIDAD POR POLINOMIO AUTOREGRESIVO

Sea el modelo autoregresivo de orden P (se omite la constante
por simplicidad):
εt
Utilizando el operador de rezagos (L) se tiene que:
εtt
εt
Genera el siguiente polinomio con la siguiente forma funcional:

(1-ϕ1L- ϕ2L2 ϕ3L3-…..- ϕpLp)yt=εt
Reescrito de una forma adecuada se tiene que:
ϕp(L)yt=εt

El proceso estocástico, εt, al ser ruido blanco implica la ausencia

de tendencia (media cero), por tal motivo es posible definir lo
siguiente:
ϕp(L)yt=0
De este modo, es necesario calcular los valores de L que hacen
que las raices características del polinomio el autoregresivo (L)
sean igual a cero.
COMPARACION DE METODOLOGIAS
Un proceso AR(P) puede reexpresarse a través de la matriz ℱ. Se
determina su estacionareidad si la solución de la ecuación
característica |F-λI| implica que cada una de las raices
caacteristicas es inferior a la unidad (λ<1).
Al igual que con solución de la ecuación en diferencia,

determinar la estacionareidad del proceso autoregresivo
necesita evaluar las raices características del polinomio.
La verificación de la estacionareidad para un proceso AR(P) se

puede efectuar de dos maneras:
POLINOMIO DE LA ECUACION EN DIFERENCIA POLINOMIO AUTOREGRESIVO
(λp+ϕ1λp-1+ϕ2λp-+…….+ϕp-1λ+ϕp)=0 (1-ϕ1L- ϕ2L2 ϕ3L3-…..- ϕpLp)=0

Raices (λ) inferiores a la unidad Raices (L) superiores a la unidad
Al ser una visión del mismo proceso AR(P) se puede demostrar

que el valor reciproco o inverso de la solución de la ecuación en
diferencias (λ) son las raices características del polinomio
autoregresivo ϕp(L).

Las raíces características de la ecuación en diferencias (λ)

corresponden a las raíces características inversas del polinomio
autoregresivo (L), de este modo, las raices del polinomio
caracteristico deben ser superiores a la unidad L>1.
Desde un punto de vista del polinomio autoregresivo se dirá que

la condicion de estacionareidad implica que sus raices se
encuentren por fuera del círculo unitario.
Por ejemplo, en el caso de un proceso AR(1), utilizando

polinomios de rezagos se tiene que:
yt=ϕ1yt-1+εt
yt(1-ϕ1L)=εt
yt(1-ϕ1L)=εt
ϕ(L)yt=εt donde ϕ(L)=(1-ϕ1L)
Utilizando la matriz F se puede demostar que la raíz

característica de un proceso AR(1) es igual a ϕ1 (λ=ϕ1). Es decir,
la estacionareidad de este proceso depende del valor de ϕ1.
En términos del polinomio autoregresivo el único valor de L que

satisface (1-ϕ1L)=0 es L=(1/λ)=(1/ϕ1), por tanto:
(1-ϕ1L)= .1 ϕ 0 1/=0
Un proceso AR(1) es estacionario si en la raíz del polinomio

autoregresivo L=|1/ϕ1|>1 o desde la solución de la ecuación en
diferencia |ϕ1|<1. De esta manera, el proceso es estacionario si y
solo si la raíz del polinomio autoregresivo es mayor que 1 en
valor absoluto o se encuentra por fuera del circulo unitario.

CIRCULO UNITARIO
Suponga un modelo AR(p) descrito de la forma:
El proceso AR(p) tiene el siguiente polinomio autoregresivo:

Φp(L)=1-ϕ1L—ϕ2L2-……- ϕpLp
El proceso AR(p) es estacionario si y solo si todas las raíces del

polinomio autoregresivo satisfacen que |L|>1.
Por lo tanto, la estacionareidad requiere que todas las raíces del

polinomio autoregresivo, ϕ(L), se encuentren con un valor de más
de una unidad desde el origen o por fuera del círculo unitario.
Con los valores de las raíces características del polinomio

autoregresivo se puede proceder a definir el círculo unitario.
El círculo unitario es una

círcunferencia de radio igual a
1 cuyo eje horizontal está
compuesto por un segmento
de recta de números reales,
mientras el eje vertical está
compuesto por números
imaginarios que corresponden
a las raíces características del
inverso de la ecuación en
diferencias. El punto de
intersección es (0,0).

En un gráfico de círculo unitario se pueden representar raíces

iguales y reales, diferentes y reales e imaginarias.
ESTACIONAREIDAD EN TÉRMINOS DE MOMENTOS

Es posible demostrar estacionareidad por medio de determinar
las condiciones matemáticas respecto a la media, varianza y
covarianza del proceso en cuestión. Sin perdida de generalidad,
suponga un proceso AR(1) de la forma:
yt=ϕ0+ϕ1yt-1+εt
Donde t se distribuye N(0,𝛔2), tipo ruido blanco gausiano, se

demuestra que es también una representación MA(∞):
Tomando valor esperado en ambos lados de la ecuación se

demuestra que E(yt)=0, cumple con la primera condición de
estacionariedidad dado que la suma de todos los términos ruido
blanco, εt, tienen valor esperado constante e igual a cero.
Ahora tomando varianza en ambos lados de la ecuación se

demuestra que:
Dado que las covarianzas de las innovaciones son ruido blanco

en distintos puntos del tiempo son cero y si |ϕ1|<1 entonces los
valores de ϕ <1 son una serie infinita que converge a 1/(1- ϕ ).
De este modo, la varianza del proceso AR(1) es:

Tienen varianza constante y cumple con la segunda condición de

estacionareidad.
Se puede demostrar paralelamente que la estructura de

autocovarianzas esta en función del valor de ϕ1:
Estas covarianzas son constantes, finitas e independientes para t

si y solo si |ϕ1|<1. De esta forma, |ϕ1|<1 es una condición
necesaria y suficiente para demostrar la estacionareidad en
covarianza para el proceso AR(1).
Esta condición asegura de igual forma que el proceso AR(1) sea

ergodico dado que:
El proceso AR(1) es estacionario y ergodico en la medida que el

efecto de valores pasados se desvanece al transcurrir el tiempo o
|ϕ1|<1. Si ϕ1>1 la varianza y covarianza del proceso son
infinitas y el proceso es no estacionario.
Este procedimiento debe realizarse para cada uno de los procesos

estocásticos en busca de demostrar sus condiciones de
estacionaeidad.

FUNCIÓN DE AUTOCORRELACION SIMPLE Y FUNCIÓN DE

AUTOCORRELACION PARCIAL
El proceso de identificación de una serie de tiempo desde un
punto de vista pragmático utiliza el calculo de los momentos a
través de las funciones de autocorrelación.
FUNCIONES DE AUTOCORRELACION
Definición. Función de medias. La función de medias de un
proceso estocástico (Yt)t∈I es una función de t que proporciona
las esperanzas de la serie de tiempo, yt, para cada periodo t.
Definición. Función de varianzas. La función de varianzas de un

proceso estocástico (Yt)t∈I es una función del tiempo (t) que
proporciona las varianzas de las serie de tiempo, yt , para cada t.
Definición. Función de autocovarianzas. La función de

autocovarianzas de un proceso estocástico (Yt)t∈I es una función
que describe las covarianzas entre las variables del proceso en
cada par de instantes. Por ejemplo:
Definición. Función de autocorrelación. La función de

autocorrelación de un proceso estocástico (Yt)t∈I es una función
que describe las correlaciones entre la variable Yt en un par de
instantes ti, tj∈I cualesquiera i≠j.

Definición. Función de autocorrelación simple (FAS). Es la

función de autocorrelación entre dos variables separadas por h
instantes para series estables en autocovarianza. Se denota por
ρh. Proporciona las correlaciones en función del rezago h.
Definición. Función de autocorrelación parcial (FAP). Mide el

aporte de las variaciones de una serie de tiempo, Yt, frente a otra
variable, aislados los efectos de las restantes variables.
Por ejemplo, sea la serie de tiempo, Yt, rezagada dos periodos. Si

se efectua un análisis con únicamente la función de
autocorrelación simple (FAS) ignora el hecho que parte de la
correlación que pueda existir entre yt y yt-2, se debe a que ambas
están correlacionadas con yt-1.
Este hecho lo elimina la función de autocorrelación parcial (FAP)

ya que esta únicamente observa la relación entre yt y yt-2
eliminando cualquier efecto de yt-1.
Los coeficientes de autocorrelación parcial de los modelos

teóricos se denotan como ϕKK, y los estimados para la muestra
cómo Φ̂ kk.
ECUACIONES DE YULE-WALKER
Sea el modelo AR(p) donde se omite la constante por simplicidad
en la exposición:
Suponga el modelo estacionario, si se multiplica cada miembro

por el rezago YT-K se tiene que:

Suponga ahora que E[YtYt-k-=γk, suponiendo E[Yt]=E[Yt-k]=0, es

la autocovarianza entre la variable Y en el periodo t y el periodo
k, entonces:
Dividiendo por la varianza del proceso respecto al periodo

actual, es decir, γ0 se tiene que que el coeficiente de
autocorrelación del periodo k-esimo, ρk, se puede expresar en
función de sus valores pasados como:
Si se tiene k rezagos que pueden ser realizaciones de k=1,2,…,p

se genera un sistema de p ecuaciones lineales sobre los
coeficientes de autocorrelación de la forma:
Ya que existe una condición de simetría dentro de las

correlaciones implica que ρk-j=ρj-k este sistema de ecuaciones
recibe el nombre de ecuaciones de Yule-Walker.
El sistema de ecuaciones anterior puede ser considerando en

términos de coeficientes de autocorrelación ρi.

En particular si en vez de la autocorrelación poblacional, ρi, se

dispone de las estimaciones, ρ̂ , puede plantearse el siguiente
̂ .
sistema de ecuaciones para la estimación de ϕ
Las ecuaciones de Yule-Walker que deteminan el valor de las

autocorelaciones parciales (ϕ ̂ ) en función de las
autocorrelaciones simples (ρ̂ ) se pueden reescribir en forma
matricial como:
1 ρ̂ … ρ̂ ̂
ϕ ρ̂
ρ̂ 1 … ρ̂ ̂ ] = [ρ̂ ]
[ϕ
… …
… …
… 1 ] ϕ ̂ ρ̂
[ρ̂ ρ̂
La solución al anterior sistema de ecuaciones de la forma AX=B

arroja los coeficientes Φ ̂ KK que conforman la función de
autocorrelación parcial o FAP. Su representación matricial es:
Definición. Matrices de autocovarianzas y autocorrelaciones de

orden h. Las matrices de autocovarianzas y autocorrelaciones
son una forma organizada de expresar los resultados de los
parametros estimados para las autocovarianzas y coeficientes de
autocorrelación.

Suponga la existencia de h órdenes de coeficientes donde se

observan los resultados en las siguientes matrices de tamaño
hXh:
Matriz de autocovarianzas Matriz de autocorrelaciones
ANÁLISIS DEL CORRELOGRAMA DE UNA SERIE

Un procedimiento que no requiere la aplicación de ningún
contraste de hipotesis sobre la serie de tiempo, es el de observar
su correlograma. Es decir, la representación gráfica de su función
de autocorrelación simple (FAS) y parcial (FAP).
Distintos trabajos, en especial los presentados por Hoskin

(1989), Diebold y Rudebusch y Lo (1991), se han centrado en
analizar las variaciones de las funciones de autocorrelación en
términos de la significancia de los coeficientes de correlación
simple (FAS) y parcial (FAP) para la identificación de una serie
hde tiempo.
En general, la regla a aplicar indica que los valores de la FAS o la

FAP de una serie no estacionaria descienden muy suavemente
hacia el cero, mientras que cuando no hay presencia de procesos
estacionarios el descenso es exponencial.

Las imágenes que se muestran a continuación corresponden a

series reales de tipo de cambio para Colombia durante un
periodo de un año. La diferencia en el patrón de evolución sobre
un correlograma.
FAS DEL TIPO DE CAMBIO EN COLOMBIA

SERIE ESTACIONARIA SERIE NO ESTACIONARIA
La razón del comportamiento de la FAS y FAP en uno y otro está

en función de las raíces características del polinomio de la
ecuación en diferencias para el proceso estocastico.
De esta forma, si la serie es no estacionaria, con al menos una

raíz característica igual a la unidad (λi=1), posee memoria larga
sobre las innovaciones pasadas y recientes (presenta un
componente de tendencia) y la covarianza entre dos periodos
separados por un lapso de tiempo, ∆, presentarán
necesariamente algún tipo de relación, o sea, los coeficientes de
correlación yt,yt-j tenderán a mantenerse elevados.
Cuando es una serie estacionaria, los términos ϕi, o de

autocorrelación simple entre dos periodos de tiempo, es menor a
la unidad y fuerza a los coeficientes de autocorrelación a
descender rápidamente hacia cero en una progresión geométrica
que depende del valor de la raíz mas alta del polinomio.

PROCESO DE IDENTIFICACIÓN DE ESTRUCTURA DE REZAGOS

SIGNIFICATIVOS
Basados en la FAS y FAP se puede determinar los órdenes de los
procesos estocásticos AR(p) y MA(q) basados en las siguientes
reglas:
Los procesos AR tienen memoria relativamente larga, ya que el

valor actual está correlacionado con todos los anteriores rezagos,
aunque con coeficientes decrecientes si la serie es estacionaria.
Sin embargo, si se desea analizar procesos de memoria corta

usualmente son utilizados los procesos de media móvil, o
procesos MA.
Para procesos AR o MA puros basta con conocer la FAS y FAP del

proceso para efectuar su identificación. En el caso mas simple de
un proceso AR(1) se realizan un proceso de identificación con
una FAS decreciente y una FAP con un valor de uno.

Este proceso se puede repetir para otros procesos como se

encuentra a continuación.
Existe una dualidad entre procesos AR y MA, de manera que la

FAP de un MA(q) tiene la estructura de la FAS de un AR(q) y la
FAS de un MA(q) tiene la estructura de la FAP de un AR(q).

El proceso de identificación para procesos MA tiene la siguiente

forma de trabajo.
FAS y FAP de un modelo ARMA (1,1)

En concreto, un examen detallado de las funciones de

autocorrelación simple (FAS) y parcial (FAP) demuestra que:
a. Un proceso genérico AR(p) presenta un decrecimiento
rápido de los coeficientes de autocorrelación simple (FAS)
junto a la presencia de p coeficientes significativos de
autocorrelación parcial (FAP).
b. De forma simétrica, un proceso genérico MA(q) muestra un
decrecimiento rápido de los coeficientes de autocorrelación
parcial (FAP) junto a la presencia de q coeficientes
significativos autocorrelación simple (FAS).
Aunque desde el aspecto teórico de un AR(p) o un MA(q) es

sencillo diferenciar, cuando se analizan series temporales reales,
la representación de correlogramas muestrales resulta siempre
algo menos evidente, y por tanto, más confusa.
En ese sentido, conviene observar las siguientes

recomendaciones:
a. Análisis preliminar. El análisis de los correlogramas es sólo
un análisis preliminar que después podrá complementarse
con medidas adicionales, en todo caso, el correlograma
deberá utilizarse para complementar con pruebas de
hipótesis y otros cálculos.
b. Orden del proceso. El número p o q de rezagos significativos
en la FAP o en la FAS puede evaluarse en términos
estadísticos35 pero en un primer momento basta observar si
35 Bartlett demostró que:

ˆ k  N 0, 1 n 
Como para cualquier distribución normal estándar, el intervalo de confianza al 95% es 1,96*DT , pueden calcularse los límites de nulidad de los
“ρ”: cualquiera que se salga de esos límites es estadísticamente distinto de “0” (límites que aparecen dibujados en el correlograma de STATA)

los valores de los coeficientes son gráficamente

significativos, es decir, si presentan un valor evidentemente
mayor que el resto de coeficientes. Los rezagos
estadísticamente significativos son de orden limitado.
c. FAS y FAP. El patrón AR(p) exige la presencia simultánea de
un decrecimiento en la función de autocorrelación simple
(FAS) y (p) valores estadísticamente significativos en la
función de autocorrelación parcial (FAP). De forma similar,
pero invertida los patrones de un MA(q) deben aparecer
también de forma simultánea.
d. Rezagos estacionales. Un valor aparente significativo en un
orden elevado (salvo en los rezagos estacionales), sin que
previamente los anteriores rezagos parezcan significativos,
suele indicar alguna atipicidad en la serie, y no un patrón de
interés analítico.
TABLA RESUMEN PROCESO DE IDENTIFICACIÓN

A continuación se presentan los patrones teóricos de la función
de autocorrelación simple (FAS) y función de autocorrelación
parcial (FAP) según el tipo de modelo, los cuales son útiles en la
identificación de los órdenes p y q del modelo ARMA:

Una zona gris en la utilización de este método radica en el

comportamiento de la función de autocorrelación cuando existe
una serie no estacionaria. Esta es extremadamente similar al del
caso de una serie estacionaria en el que la raíz toma un valor
cercano a la unidad.
Para ejemplificar, suponga cuatro (4) correlogramas en su FAS

correspondientes a distintos valores del coeficiente a1 del
proceso teórico:
Donde la sucesión εt ha sido generada idéntica para todos los

casos:
Puede comprobarse como el primero de los casos (paseo

aleatorio) puede confundirse con el resto, aun cuando el valor de
a1 esté relativamente alejado de la unidad (ρ=0.95).
En el gráfico siguiente se puede observarse la similitud entre el

valor del coeficiente de autocorrelación de un AR(1) y el de un
paseo aleatorio para valores muy cercanos a la unidad e incluso,

cómo el ritmo de decrecimiento es más lento para un ρ=0.98

cuando, como en este caso el número de observaciones es 30.
SERIE CON COEFICIENTES DE CORRELACIÓN CERCANOS A LA

UNIDAD Y UN PASEO ALEATORIO
PRUEBAS DE AUTOCORRELACION: LJUNG-BOX

Despues de la observación del gráfico de la función de
autocorrelación simple (FAS) y parcial (FAP) debe completarse
el análisis con el cálculo de pruebas de hipotesis.
Este tipo de contraste estadístico permite, después de calculados

los coeficientes de autocorrelación simple (FAS) y parcial (FAP),
determinar si cualquiera de un grupo de autocorrelaciones de una
serie de tiempo son estadísticamente diferentes de cero.
El estadístico conocido como Q fue propuesto inicialmente por

Box y Pierce (1970) y complementado por Ljung y Box (1978).
Los estadísticos calculados son:
Q de Box-Pierce:
Q de Ljung-Box:

En ambos casos, la hipótesis a contrastar radica en que los P

primeros coeficientes de autocorrelación simple calculados, ρj,
son iguales a cero.
El escalar T será igual al número total de coeficientes de

correlación representados en una función que relaciona
coeficientes de correlacion contra el tiempo o correlograma.
H0: ρj =0 (el coeficiente de autocorrelación es igual a cero)
H1: ρj ≠0 (el coeficiente de autocorrelación es distinto a cero)
Estos contrastes se distribuyen como una χ2 con (T-k) grados de
libertad.
Su aplicación se puede ver en dos partes. La primera, en el
proceso de validación de la FAS y FAP donde existen P rezagos
que corresponde al proceso de identificación de la serie de
tiempo y determinar su significancia estadistica.
La segunda, aplicarlos sobre los residuos de un modelo ARMA

previamente estimado para determinar si el comportamiento de
los residuos sigue un proceso ruido blanco o no.
En cada caso la distribución de contraste es χ2 y toma el valor de

los k coeficientes estimados como los grados de libertad.
Si el estadístico QLB supera el p-valor se rechaza la hipótesis nula

de los P primeros coeficientes son significativamente nulos.

Salida STATA - Prueba Ljung-Box (QLB)
La AC o FAS muestra la La PAC o FAP muestra la El estadístico de prueba Ljung- Grafica la AC la cual Grafica la PAC la cual no
correlación entre el valor correlacion entre el valor Box (QLB) parte de la hipótesis demuestra un lento muestra picos después del
corriente de unemp y el valor 3 corriente de unemp y su nula que todos los coeficientes decaimiento en la segundo rezago lo cual
trimestres atrás es 0.8045. AC o valor tres trimestres atrás es de correlación superiores al muestra que los otros
tendencia, siguiriendo no
FAS puede ser utilizado para 0.1091 sin el efecto de los rezago P son iguales a cero, estacionareidad dentro rezagos son espejos del
definir el modelo MA(q) Esta serie muestra
dos periodos previos. PAC o del proceso estocastico. segundo rezago.
únicamente si la serie es autocorrelación significativa en
estacionaria. FAP puede ser utilizado para
definir el modelo AR(p) el valor Prob>Q el cual en
únicamente en series cualquiera es menor que 0.05,
estacionarias por lo tanto, se rechaza la
hipótesis nula que todos los
rezagos estan no
correlacionados.
ESTACIONAREIDAD E INVERTIBILIDAD
La distribución teórica de un proceso generador de datos (DGP)
utiliza la FAS y FAP como aproximación su comportamiento que
asume un proceso estocástico {yt} es estacionario. Además, los t-
estadísticos y el estadístico de Q de Ljung-Box también asumen
estacionareidad.
Los coeficientes estimados por la parte autoregresiva deben ser

consistentes con este supuesto fundamental. De este modo, por
ejemplo, debe ser investigado si en un modelo AR(1) el valor
estimado |ϕ|<1. Para un modelo ARMA(2,q) las raíces
características del polinomio autoregresivo (1-ϕ1L-ϕ2L2) se
encuentran por fuera del circulo unitario.

La metodología Box-Jenkins necesita que el modelo sea

invertible. La importancia de la invertibilidad radica en el uso de
la FAS y FAP que implícitamente asumen que un proceso
estocástico puede ser aproximado a un modelo autoregresivo.
El concepto esencial de invertibilidad parte de definir si las

innovaciones existentes en el modelo de serie de tiempo se
pueden invertir en una representación de observaciones pasadas
desde su representación autoegesiva.
Más generalmente, si los modelos ARMA pueden escribirse como

modelos AR, se dice que el modelo de serie de tiempo es
invertible. El concepto de invertibilidad hace referencia al hecho
que los modelos de media móvil (MA) pueden escribirse de una
forma autorregresiva (AR).
Esta noción es fundamental si se quiere pronosticar futuros

valores de la variable dependiente. De lo contrario, la tarea de
predicción será imposible cuando las innovaciones no son
invertibles. Es decir, las innovaciones en el pasado no se pueden
estimar, ya que no se puede observar.
Definición. Condicion de invertibilidad. Suponga un proceso

ARMA de la forma:
Donde At~vaiid(0,ς2) y μ, ϕ1, ϕ2,….,ϕp,θ1,….,θq son parámetros

tales que las raíces del polinomio de rezagos:

Estan todas por fuera del circulo unitario (condición de

estacionareidad). Un modelo ARMA(p,q) se dice invertible si,
adicionalmente, todas las raíces del polinomio:
Están fuera del círculo unitario. Se denomina a este proceso

estacionario e invertible.
Por ejemplo, si un modelo AR(1) tiene un valor inferior a la

unidad en valor absoluto cumple con las condiciones de
estacionariedad. Para el caso de un modelo ARMA (p,q) las
características de las raíces estimadas del polinomio AR
definidas como (1-a1L-a2L2) deben estar por fuera del circulo
unitario.
En la aproximación por la metodología Box-Jenkins también se

necesita que el modelo sea invertible. Formalmente, la sucesión
{yt} es invertible si esta puede ser representada por un proceso
autoregresivo convergente o de orden finito. Como ejemplo se
considera un proceso MA(1):
yt= εt-β1εt-1 donde |β1|<1
Con algebra y aplicando polinomios de rezago, se tiene que:

yt/(1-β1L)=εt
De forma equivalente y utilizando propiedades de sucesiones y

series se tiene que:
yt+β1yt-1+β yt-2+β yt-3+β yt-4+….=εt

Si |β1|<1 la ecuación anterior demuestra que un MA(1)

convergen a una AR(∞). Puede ser estimado adecuadamente con
la elección de un p que simule a un proceso de orden infinito. Es
un proceso invertible.
Sin embargo si |β1|≥1 la sucesión {yt} no puede ser representada

por un proceso AR de orden finito, en tal caso no es invertible.
De forma más general, para un modelo ARMA tener una

representación AR convergente implica que las raíces del
polinomio (β1yt-1+β2yt-2+β3yt-3+……+βqyt-q-1) debe estar por
fuera del circulo unitario.
TEOREMA DE LA DESCOMPOSICIÓN DE WOLD

Cualquier proceso estacionario, yt, con media cero puede ser
representado como la suma de un componente determinístico
mas uno no determinístico de la forma:
y =∑ ε +
Donde 0=1 y ∑ ε < ∞. El término de error

pronosticado, εt, es ruido blanco y calculado sobre la proyección
lineal rezagada de la forma:
El valor de esta no correlacionado con ε para cualquier j. El

valor de puede ser pronosticado arbitrariamente bien desde

una función de valores pasados de Y, es decir:
El término se conoce como componente linealmente

determinístico de Yt, mientras ∑ ε se conoce como el
componente lineal no determinístico. Si es igual a cero
entonces el proceso es lineal puramente no deteministico.
Las conclusiones asociadas a las definiciones, y el teorema

anterior, implican que:
1. Todo proceso estacionario AR, MA o ARMA es esencialmente
un MA(∞) estacionario.
2. Permite generar un pronostico óptimo de Y basado en la
estabilidad de los dos primeros momentos sin la necesidad
de utilizar momentos mas altos o distibuciones de
probabilidad asociadas.
Si las innovaciones, εt, son ruido blanco, entonces el modelo lineal

ARMA es la unica posible representación relacionando valores
observados de la serie de tiempo, yt, y su evolucion pasada36.
En la práctica implica estimar infinitos parámetros, lo cual es

imposible. Para solucionar lo anterior, el objetivo es buscar
alguna representación mas parsimoniosa del modelo MA(∞)
donde existen un MA(q), con un valor de q lo suficientemente alto
y sea una buena aproximación.
36Sin embargo, si εt esta no correlacionada pero no es un proceso independiente, entonces el modelo lineal existe pero no es la unica
representacion dinamica de la serie. En este caso es posible que el modelo lineal no sea útil y la posibilidad de trabajar con modelos no lineales es
posible.

La utilidad del teorema de descomposición de Wold radica en que

permite exponer la evolución dinámica de una serie de tiempo, yt,
en forma lineal y en términos de sus innovaciones pasadas
(Funcion Impulso Respuesta, IRF) con el propósito de
identificación, estimación y pronostico.
En conclusión, un proceso AR(p) o ARMA(q) puede escribirse

como un proceso MA(∞), por el teorema de la descomposición de
Wold. De otra parte, gracias a la invetivilidad, un proceso MA(q)
puede expresarse como un AR(∞), es decir, como suma infinita
de valores anteriores de la serie.
TRANSFORMACIONES A LA SERIE
En su mayoría las series de tiempo económicas tienen
características incompatibles con una proceso generador de
datos (DGP) estacionario.
La metodología Box-jenkins intentará bajo algunas

transformaciones sobre la serie original acercarse a la
estacionariedad en sentido debil.
EVALUACIÓN DE LA SERIE A DISTINTAS TRANSFORMACIONES

Yt Log Yt
D Yt Ds Log Yt

Por ejemplo, si se efectua un proceso de diferenciación sobre una

serie de tiempo es capaz de eliminar su tendencia de largo plazo
buscando un nivel constante sobre su media, una característica
del primer momento de un proceso estacionario en sentido
débil.
Definición. Diferenciación. Es un procedimiento que tiene como

objetivo eliminar la tendencia de una serie de datos que consiste
en suponer que la tendencia evoluciona lentamente en el tiempo,
de manera que en el instante t la tendencia debe estar próxima a
la tendencia en el instante t−1.
De esta forma, si se resta a cada valor de la serie anterior, la serie

resultante estará de forma aproximada libre de tendencia.
Matematicamente se expresa de la siguiente forma:
De forma general:
Debido a que las primeras diferencias son tasas de variación de

la serie de tiempo, una manera de resumir este resultado puede
indicar que la serie original tiene una tendencia en media
proporcional a los niveles de la serie en tasas de cambio y
pueden estar en línea con un proceso generador de datos (DGP)
estacionario en sentido débil.

TRANSFORMACION BOX-COX
La igual que lo ocurrido con la media, en el segundo momento o
varianza, las series de tiempo económicas tampoco cumple con
las caractesristicas necesarias para satisfacer las condiciones de
un proceso estacionario en sentido débil.
Una transformación logarítmica puede ayudar a estabilizar la

volatilidad y acercar al proceso hacia una varianza constante
dentro de la definición del segundo momento del proceso
estacionario en sentido débil.
Una metodología usual de trabajo, calcula la diferencia del

logaritmo de la serie para satisfacer las condiciones de un
proceso estacionario en sentido débil, en su primer y segundo
momentos.
Es decir, calcular ∆log yt = log yt-log yt-1, se traduce en una serie

sin tendencia y varianza constante. Esta técnica es un caso
particular de una metodología más general conocida como
transformaciones de BOX-COX.
La familia de transformaciones más utilizada para resolver

problemas de falta de normalidad y heterocedasticidad de una
serie es la familia de transformaciones BOX-COX.
Definición. Tranformación de Box-Cox. Son utilizadas en

estrategias estadísticas para corregir sesgos en la distribución,
varianzas desiguales y no linealidad en una relación.

Por ejemplo, aplica con el objetivo de transformar variables de

manera que se adecuen en cumplir con el requisito de normalidad
o estacionareidad.
Con el objetivo de encontrar una varianza constante y una

distribución normal, la transformación de BOX-COX debe ser
utilizada dentro del procedimiento usual de tratameinto de una
serie de tiempo.
El procedimiento parte de transformar la variable Y, cuyos

valores muestrales se suponen positivos, en caso contrario se
suma una cantidad fija M tal que Y+M>0. La transformación de
BOX-COX depende de un parámetro 𝜆 por determinar y viene
dada por la siguiente formula:
Si se quieren transformar los datos para conseguir normalidad y

homocedasticidad, el mejor método para estimar el parámetro 𝜆
es utilizar la estimación por máxima verosimilitud (ML) y se
calcula para diferentes valores de 𝜆 según la transformacion:
Siendo ŷ=(y1,y2,…..yn)1/n la media geométrica de la variable Y.

Para cada 𝜆, se obtiene el conjunto de valores {Ui(𝜆)}i=1…n. La
función de verosimilitud es:

Se elige el parámetro λ̂ que maximiza L(λ). En la práctica, la

transformación más utilizada para encontrar un segundo momento
constante y normalidad en el proceso estocástico es el logaritmo
natural.
TENDENCIAS DETERMINISTAS Vs TENDENCIAS ESTOCÁSTICAS
El comportamiento de la series de tiempo en general parte de un
comportamiento con tendencia, es decir, un movimiento de largo
plazo de una serie de tiempo que altera la media del proceso a
medida que transcurre un periodo de tiempo.
Para en análisis de series de tiempo estacionarias resulta

importante, en algunas oportunidades, eliminar el componente
de tendencia para observar que otras componentes existen o
pueden ser identificadas.
Sin embargo, identificar cual es el proceso que genera la

tendencia, o el cambio en media de la serie de tiempo, tiene dos
posibilidades con dos conceptos y supuestos distinos desde un
punto de vista teorico y práctico.
La primera, una tendencia regular, permanente y constante

conocida como tendencia deterministica. La segunda, un
comporamiento puramente estocastico con las propiedades de
un paseo aleatorio (random walk) conocida como tendencia
estocastica.

TENDENCIAS DETERMINISTAS
Cuando se observa la solución general a una ecuación en
diferencias, que representa una serie de tiempo, se admite una
descomposición de la serie en componentes cíclico, tendencia,
estacional y estocástico.
La principal característica que define al componente de tendencia

frente a los demás es la presencia de efectos permanentes o
deterministicos sobre la serie de tiempo, yt, que alteran o no la
media en el largo plazo. Las innovaciones estocásticas no tienen
peso signiticativo dentro del comportamiento de la serie.
Definir una tendencia constante de tipo determinístico en una

serie de tiempo, yt, puede ser modelada como:
La inclusión de esta variable deterministica en el tiempo (t)

presenta un patrón dominado por una tendencia como en los
siguientes casos presentados de formas determinísticas lineales
o cuadráticas:
Este tipo de procesos, se clasifican dentro de aquellos que están

definidos por lo que se denomina tendencia deterministica.

Este patrón de evolución parecería servir adecuadamente al

análisis de ciertas series económicas dado que resulta usual
encontrar magnitudes que exhiban perfiles similares a los
presentados.
Esta tendencia de tipo determinista puede también combinarse

con un proceso autorregresivo para generar otra variedad de
procesos que se denominan proceso estacionario sobre una
tendencia deterministica. Su expresión sería la siguiente:
En este caso, el proceso es dominado por la componente de

tendencia sumando a un proceso estacionario, con un valor
razonable de la varianza de εt.
Poder distinguir gráficamente de un proceso estacionario sobre
una tendencia de un proceso con tendencia deterministica resulta
casi imposible.
EVALUACIÓN DE TENDENCIAS DETERMINISTICAS

Suponga se identificó un patrón de tendencia deterministica en
una serie de tiempo, yt, que se debe modelar a partir de la suma
de un componente de tendencia más un componente estocástico.
Es decir, se asume que la serie de tiempo (yt) esta compuesta por

la tendencia deterministica en cada instante del tiempo (Tt) más
un componente sin tendencia (YSTt). La representación
matemática de forma lineal se expresa como:
yt  Tt  YSTt

En el gráfico se observa como la serie original (en azul) es la

suma de dos componentes. El primero, la serie sin tendencia (en
rojo) o YSTt. El segundo, valores de la tendencia deterministica de
forma lineal (línea discontinua) o Tt:
ESTIMACIÓN DE TENDENCIA Y SERIE FILTRADA DE TENDENCIA

Serie Original Tendencia Serie (sin) "filtrada de" tendencia
800,00
600,00
400,00
200,00
0,00
-200,00
-400,00
1
6
11
16
21
26
31
36
41
46
51
56
61
66
71
76
81
86
91
96
En el gráfico (en azul) puede observarse como la serie original
puede ser modelada por una tendencia lineal creciente que puede
ser estimada con una regresión líneal (línea discontinua roja
muestra la tendencia).
En ese caso, el procedimiento habitual para eliminar la tendencia

determinística y encontrar el componente estocástico parte de
aplicar sobre la serie de tiempo, yt, un filtro.
Para calcular el filtro se efectua una regresión lineal por OLS de la

serie de tiempo, yt, contra una variable de tiempo (t=1,2,3,4,……)
para encontrar los valores de la tendencia en cada período.
Es decir, se estima la regresión de la serie no estacionaria, yt,

contra un término de tendencia determinista (t) obteniéndose
una estimación de la serie original ŷt.

La decisión a considerar será el tipo de función matemática que

mejor ajusta la tendencia de la serie (lineal, parabólica,
exponencial, etc).
SELECCIÓN DEL MODELO DE TENDENCIA (T)

Sobre la elección del modelo de tendencia deterministica, la parte
más importante de este método, se debe tener en cuenta:
1. Parsimonia. Debe priorizarse la sencillez en la selección del
modelo de tendencia. Esta debe sólo centrarse en la evolución
de la serie en el largo plazo, de modo que no es necesario que
la tendencia reproduzca exactamente cada movimiento a
corto plazo. Un comportamiento oscilante podría modelarse,
por ejemplo, con una función sinusoidal.
AJUSTE DE TENDENCIA
Ajuste de tendencia Correcto (serie Ajuste de Tendencia Incorrecto (tendencia
oscilante alrededor de una tendencia sobreparametrizada)
monótona creciente)
30.0000 30.0000
25.0000 25.0000
20.0000 20.0000
15.0000 15.0000
10.0000 10.0000
5.0000 5.0000
0.0000 0.0000
96
97
98
99
00
01
02
03
04
05
96
97
98
99
00
01
02
03
04
05
e-
e-
e-
e-
e-
e-
e-
e-
e-
e-
e-
e-
e-
e-
e-
e-
e-
e-
e-
e-
en
en
en
en
en
en
en
en
en
en
en
en
en
en
en
en
en
en
en
en

2. Distintos escenarios. Si existen dudas sobre el modelo de

tendencia a utilizar, pueden probarse especificaciones
alternativas (lineal Vs logarítmica, lineal Vs exponencial, por
ejemplo) y utilizarse los resultados de la regresión (R2,
contrastes t para los términos incluidos en la regresión, etc)
con el fin de valorar cuál de las especificaciones ajusta mejor
la evolución de la serie.
3. Tendencias compuestas. Las tendencias deterministicas
pueden ser compuestas, es decir, para un determinado
período de análisis pueden combinarse distintos tipos de
tendencias (primero lineal creciente, luego logarítmica
decreciente, por ejemplo)
4. No linealidades. Algunas tendencias deterministicas pueden
no ser lineales por lo que su estimación con un modelo de
regresión lineal requerirá la linealización previa de la
función a estimar si no se conocen métodos de estimación no
lineales.
5. Estacionalidad. En presencia de componentes estacionales
conviene habitualmente modelarlos adecuadamente antes
de proceder al análisis de tendencia.
CONSTRUCCIÓN DE LA SERIE SIN TENDENCIA (TST)

El residuo de esta regresión será la serie filtrada de tendencia
definida como serie filtrada de tendencia que corresponde al
componente estocástico o serie estacionaria. La serie sin
tendencia, o filtrada, YST, se calcula como:

La serie de tiempo corregida (filtrada), de tendencia, YSTt,

reproduce las variaciones de la serie original pero sin mostrar
tendencia alguna que representa el componente aleatorio.
En resumen, una vez definido que el comportamiento de la serie

de tiempo sigue una tendencia deterministica es elegido el
modelo de tendencia más adecuado. Con procedimiento de
filtrado:
1. Selección de la tendencia. La tendencia se corresponde con la
serie estimada (ŷt), en tanto que la serie filtrada es el residuo
de esta regresión o el componente estocástico de la serie de
tiempo. La serie original (yt) menos la estimación de la
tendencia (ŷt).
TIPOS DE TENDENCIA Y FUNCIÓN MATEMÁTICA A ESTIMAR

TENDENCIA Potencial TENDENCIA Exponencial
Serie Potencial Ajuste Serie Exponencial Ajuste
200000,00 80000,00
70000,00
150000,00
60000,00
50000,00
100000,00
40000,00
50000,00 30000,00
20000,00
0,00
10000,00
0,00
-50000,00
-10000,00
-100000,00 -20000,00
1
8
15
22
29
36
43
50
57
64
71
78
85
92
99
15
22
29
36
43
50
57
64
71
78
85
92
99
yi  a  tib  ui yi  a  bt  ui
TENDENCIA Logarítmica TENDENCIA Polinomica
Serie Logarítmica Ajuste Tendencia Polinómica Ajuste
40,00 100,00
35,00 80,00
30,00
60,00
25,00
40,00
20,00
20,00
15,00
10,00 0,00
5,00 -20,00
0,00 -40,00
1
7
13
19
25
31
37
43
49
55
61
67
73
79
85
91
97
1
7
13
19
25
31
37
43
49
55
61
67
73
79
85
91
97
yi  a  b  ln(t )  ui yi  a  b  t  b  t 2  ui

2. Estimación. Se estima, conforme al modelo elegido en

tendencia deterministica, la regresión de la serie en función
del tiempo. El ajuste lineal por OLS implica estimar:
yt  a  bTt  U t
3. Analisis de la serie sin tendencia (YST). Posterior a la
estimación del modelo se calcula la serie filtrada, o sin
tendencia, como el residuo de la regresión. Sobre la serie
generada que se supone estacionaria se efecua un proceso de
identificación.
Algunas señales con las cuales se puede observar errores al

aplicar filtros para la eliminación de la tendencia deterministica
son:
1. Significancia individual. El t-estadístico de significancia
individual tiende a infinito para la variable de tendencia
determinista (t) introducida en el filtro y es inconsistente,
por lo que se rechaza la hipótesis nula del parámetro de
tendencia.
2. Coeficiente de ajuste. El R2 converge a una distribución no

degenerada, es decir, a medida que el tamaño de la muestra
se incrementa no converge hacia un escalar, sino hacia una
variable aleatoria.
3. Durbin-Watson. El estadístico de autocorrelación Durbin-

Watson (DW) de la regresión de la serie de tiempo sobre
una tendencia temporal, comentado por Durlauf y Phillips
(1988), tiende a acercarse a cero, es decir, no se rechaza la
existencia de autocorrelación positiva de tipo AR(1).

TENDENCIAS ESTOCÁSTICAS
La tendencia de una serie, comprendida como la variación de la
media del proceso, puede ocurrir debido a un comportamiento
de tendencia determinística (constante a través del tiempo) o
tendencia estocástica (en función de la permanencia de las
innovaciones pasadas).
Procesos no estacionarios con tendencia determinística y

estocástica poseen diferentes características y supuestos de
memoria (corta y larga) y muestran un desarrollo distinto de
largo plazo.
Si se observan algunas series de tiempo se pueden clasificar

entre aquellas con tendencias deterministas. La justificación
para la selección en un modelo de una tendencia estocástica o
tendencia determinística parte de las innovaciones del proceso
estocastico.
Para el primer caso, si las innovaciones son significativas y

tienen un efecto permanente sobre la media del proceso este es
apropiado.
En el segundo caso, el supuesto de parámetros constantes para

una tendencia a través del tiempo e innovaciones poco
significativas sobre la media del proceso es adecuado.
Sin embargo, en casos donde los cambios son pequeños y

frecuentes como en preferencias en el tiempo, tecnología,
aprendizaje, etc. no tienen impactos significativos en una

tendencia pero sus efectos acumulativos son significativos y no

pueden ser ignorados.
Este último argumento es usual en la selección de tendencias

estocásticas frente a tendencias determinísticas.
Por ejemplo, para la tendencia determinística no existen

procesos no estacionarios lo que indica que es un proceso
estacionario alrededor de una tendencia determinística de largo
plazo.
La tendencia estocástica, por su parte, asume procesos no

estacionarios, por tanto, la existencia de efectos permanentes de
las innovaciones dentro de una serie de tiempo.
Desde el punto de vista de la teoría económica sería muy difícil

justificar una tendencia determinística.
Es muy posible, por ejemplo, que la productividad de una

empresa tienda a crecer de forma natural en la medida en que
con el paso del tiempo se incorporan mejoras tecnológicas y de
aprendizaje en los procesos productivos.
Sin embargo, la productividad usualmente no se comportará de

una manera invariable, constante y predecible con el paso del
tiempo con algunas innovaciones poco significativas de corto
plazo como lo aseguraría una tendencia determinística.
Una aplicación de tendencia estocástica sobre tendencia

determinística desde la macroeconomía, por ejemplo, plantea la

dicotomía entre tendencia y ciclo en el análisis de las

fluctuaciones económicas.
La visión de las fluctuaciones surge de perturbaciones

temporales que están asociadas a políticas monetarias y fiscales.
Estas innovaciones son propagadas por la actividad económica
en caminos que resultan en patrones sistemáticos de
persistencia de estos efectos en las series de tiempo generando
una tendencia estocástica de largo plazo.
Frente a la existencia de una tendencia determinista en una serie

de tiempo implica supuestos fuertes en su comportamiento no
sensibles o limitados, en algunos casos, a la realidad de los
procesos observados en la práctica. Harvey (1997).
Debe tenerse especial cuidado para no confundir la tendencia

determinista y estocástica, ya que tanto uno como otro método
tiene supuestos e implicaciones en el tratamiento de una serie de
tiempo totalmente distintos.
TENDENCIAS ESTOCÁSTICAS E INNOVACIONES

La existencia de tendencias estocásticas sobre series de tiempo y
el impacto de las innovaciones sobre la tendencia puede
observarse desde dos (2) casos principalmente:
Caso 1. El modelo con tendencia estocástica de mayor sencillez

viene determinado por el paseo aleatorio (random walk):

Con εi ruido blanco. La solución recursiva de un paseo aleatorio,

como se observó anteriormente, corresponde a:
Esta expresión permite comprobar que el valor esperado de un

paseo aleatorio es estacionario en media por definición y
depende de un valor inicial, y0:
Su varianza no es constante a través del tiempo dado que su

expresión corresponde a:
Según este proceso la varianza se amplía con el paso del tiempo

tendiendo a infinito a medida que t también lo hace.
En la ecuación anterior puede observarse como cada una de las

innovaciones εt=(ε0,ε1,...,εt-1,εt) tiene sobre la serie de tiempo, yt, un
efecto permanente (o de tendencia) ya que no desaperece pero
siempre tratándose de un elemento de naturaleza aleatoria.
Así, la esperanza condicional para yt+s, es decir, el valor más

probable de yt+s dada la t-esima realización anterior del proceso,
yt, es precisamente, yt, para todos los posibles valores de t y s.

Esto confirma que cualquier innovación (shock) de la suma

contenida en las innovaciones ruido blanco εi permanece.
Tiene una presencia sobre yt+s de la misma intensidad que sobre

yt. Este es un componente de tendencia que rara vez alcanza un
valor anterior y ninguna fuerza tiende a devolverlo a su nivel de
equilibrio o la condición inicial (y0).
Figura1: Paseo aleatorio SIN tendencia Figura 2: Paseo aleatorio CON tendencia
determinista (No Estacionaria en media ) determinista (No estacionaria en media)
12.0000 50.0000
10.0000
40.0000
8.0000
6.0000
30.0000
4.0000
2.0000
20.0000
0.0000
-2.0000 10.0000
-4.0000
-6.0000 0.0000
-8.0000
-10.0000
-10.0000
ene-96
ene-97
ene-98
ene-99
ene-00
ene-01
ene-02
ene-03
ene-04
ene-05
ene-96
ene-97
ene-98
ene-99
ene-00
ene-01
ene-02
ene-03
ene-04
ene-05
Caso 2. El Paseo aleatorio con deriva (drift), incorpora una

constante o deriva (a0) dentro de la expresión del paseo
aleatorio de la forma:
La expresión deriva (drift) se aplica ya que el proceso así

definido experimentará una variación constante definida por el
término a0 dado que la solución genérica recursiva a la ecuación
anterior responde a la expresión:

Después de t períodos, el valor de la serie de tiempo, yt, se ve

impactado por todas las innovaciones pasadas y presentes a
través del término de tendencia estocástica. Al mismo tiempo,
también permanente pero perfectamente conocido un término
determinista a0t.
A diferencia del paseo aleatorio, la deriva incluida en este

modelo supone que el proceso será no estacionario en media y
varianza. Es decir,
Para la varianza se tiene que:
Comparando un paseo aleatorio de otro con deriva, el patrón

gráfico de evolución de este tipo de procesos estará dominado
por la componente de tendencia determinista.
No obstante para muestras pequeñas y una varianza de los

términos de error, εt, suficientemente elevada un paseo aleatorio
puede confundirse con un paseo aleatorio con deriva o con un
proceso con tendencia determinística.

Si el paseo aleatorio con deriva resulta gráficamente muy similar

al presentado al proceso con tendencia determinista explica como
frecuentemente se califican o confunden procesos deterministicos
que, probablemente, presenten un componente con tendencia
estocástica.
Solamente para muestras grandes un proceso estocástico podrá

ser distinguido del otro en la medida en que, aunque el paseo
aleatorio con deriva presentará una marcada evolución de su
tendencia, por tanto, tenderá a fluctuar de forma algo más visible
sobre la línea de tendencia de lo que lo haría un modelo
determinista puro.
En cualquier caso, la trascendencia de un posible error entre

identificar tendencias deterministicas o estocásticas en los
resultados del modelo exige establecer un modus operandi con
más garantías que observar algunos estadísticos.
Para lo anterior, se realizan pruebas especializadas conocidas

como pruebas de raíz unitaria (unit root test) basadas en un
concepto de integración.

Este método es insalvable en el proceso de identificación, para lo

cual deben conocerse los contrastes que permitan detectarlas.
CONCEPTO DE INTEGRACIÓN
Si se toma un paseo aleatorio (random walk), por ejemplo, y
sobre este proceso son ejecutadas transformaciones en media
(primeras diferencias), se puede demostrar que además de
seguir siendo estacionario en media se convierte también en un
proceso estacionario en varianza, cumpliendo ambos supuestos
de estacionaridad en sentido debil, es decir:
yt = yt-1+εt
yt =
∆yt =
∆yt = εt
E,∆yt] = 0
Y su varianza:
En el caso de un paseo aleatorio con tendencia deterministica o

deriva (a0t), por ejemplo, la diferenciación también permite
convertir una serie no estacionaria en estacionaria tanto en
media como en varianza. Para su primer momento:

Para su segundo momento:
Se puede así mismo comprobar como las covarianzas para

observaciones del proceso separadas por el rezago j-esimo sólo
dependen del valor de ese rezago. Es decir, se puede comprobar
que ambos procesos diferenciados cumplen con estacionariedad
en sentido débil.
La idea de como la diferenciación corrige los problemas

derivados de la presencia de tendencias estocásticas y
determinísticas puede generalizarse sobre las siguientes dos
definiciones.
Definición. Serie integrada de orden d. Se dice que una serie, yt,

no estacionaria es integrada de orden d, notada como yt~I(d),
cuando puede ser transformada en una serie estacionaria
diferenciándola d veces.
Definición. Serie integrada de orden d. Engle y Granger (1987).

Una serie es integrada de orden d si admite una representación
ARMA estacionaria e invertible después de ser diferenciada d
veces.
Granger (1986) y Engle y Granger (1987) caracterizaron las

series I(0) frente a las I(1) de la siguiente forma:

PROCESO INTEGRADOS Vs NO INTEGRADOS
Sin embargo, la diferenciación de una serie para convertirla en

estacionaria sólo es adecuada cuando se encuentra ante
tendencias estocásticas, nunca cuando existen tendencias
deterministas. De ahí la importancia de su identificación.
A partir de los conceptos de proceso autoregresivo de media

móvil (ARMA) y el concepto de integración se comprende la
existencia de modelos ARIMA o modelos autoregresivos,
integrados de media móvil. Algunos ejemplos son:
Proceso estocástico ARIMA
Ruido Blanco ARIMA(0,0,0)
AR(p) ARIMA(p,d,0)
MA(q) ARIMA(0,d,q)
AR(p) y MA(q) ARIMA(p,d,q)
ANÁLISIS DE RAÍZ UNITARIA
Cuando una serie es no estacionaria, o lo que es lo mismo,
cuando no es integrada de orden cero, I(0), se dice que presenta
al menos una raíz unitaria.
La importancia de definir si existen o no raíces unitarias en una

serie de tiempo económica se puede observar desde dos

aspectos. El primero, determinar la estacionariedad de la serie.

El segundo, determinar si las innovaciones que se presentan en
el proceso tiene un impacto transitorio o permanente.
Dos aplicaciones están directamente relacionadas con el

concepto de raíz unitaria en economía.
El primero, en el análisis empírico de la actividad económica de

largo plazo, y su relación con el corto plazo, pronostican que
muchas variables económicas reales muestran considerable
persistencia en los cambios de corto plazo, más precisamente
contienen una raíz unitaria en su comportamiento.
Por ejemplo, La hipótesis de ingreso permanente formulada por

Friedman (1957), se basa en la idea que el consumo y el ahorro
no son función del ingreso corriente, sino de dos tipos de
ingresos:
1. El ingreso permanente, definido como el ingreso futuro
2. El ingreso transitorio, o no esperado, de naturaleza
estocástica.
Ante un incremento de la renta, la persona discernirá si se trata

de un aumento permanente o transitorio. Para Friedman, un
incremento transitorio de la renta no influye en el consumo
corriente, por lo tanto, se ahorra casi en su totalidad,
aumentando la riqueza del individuo, y consecuentemente su
consumo futuro.

El mismo razonamiento es válido en términos agregados.

Innovaciones (shocks) a una economía, como un incremento de
los términos de intercambio, favorecerían el ahorro total.
El consumo también se divide en permanente y transitorio,

siendo este último aleatorio. El consumo permanente es una
fracción c de ese ingreso, que puede definirse como una relación
entre la renta corriente, o del periodo, y una proporción de la
renta obtenida el año anterior. De este modo,
YP = λYt + (1 – λ) Yt–1
Donde:
YP: es el ingreso permanente
λ: es una fracción 0 < λ <1 que representa la parte de la renta
que se considera como permanente.
El valor de λ depende de la estabilidad de la renta de las
personas. A ingresos más uniformes corresponden valores de λ
más próximos a 1.
Yt: es la renta corriente
Yt- 1: es la renta del periodo anterior.
Hall (1978), desde un punto de vista macroeconómico, sobre la
función consumo muestra que bajo una versión de la hipótesis
de ingreso permanente, cambios en el consumo no son
pronosticables, es decir, siguen un paseo aleatorio. Las
innovaciones en los niveles de consumo son permanentes dentro
de la trayectoria de largo plazo (proceso no estacionario).
La segunda, más desde un punto de vista estadístico, tiene que

ver con la capacidad de pronóstico de las series de tiempo en el
mediano y largo plazo.

Si el principal interés radica en la proyección h periodos hacia

adelante y su asertividad de cálculo se hace relevante
determinar el grado de persistencia de las innovaciones
(permanente o transitoria) y el tipo de tendencia (determinística
o estocástica) sobre la serie de tiempo, yt.
Las características sobre la persistencia de las innovaciones en

las series integradas (no estacionarias) frente a la transitoriedad
las no integradas (estacionarias) y la definición del tipo de
tendencia (determinística o estocástica) se hace fundamental
para el análisis y determinación del orden de integración, y por
tanto, la existencia de raíces unitarias del proceso.
Observar la evolución gráfica de la serie de tiempo puede

permitir localizar cambios de estructura, comportamientos
estacionales o medias y tendencias de tipo determinista, lo que
permitirá aplicar con mayor porcentaje de éxito pruebas de
hipótesis estadísticas para determinar la existencia de raíces
unitarias.
GRÁFICO DE SERIE NO ESTACIONARIA O CON RAIZ UNITARIA

En el gráfico siguiente, por ejemplo, se han representado dos

procesos, uno estacionario y otro con una (1) raíz unitaria. En
ambos casos se ha utilizado la misma sucesión de perturbaciones
aleatorias mientras que los coeficientes utilizados en cada caso
han sido diferentes.
DIFERENCIACIÓN GRAFICA DE PROCESOS ESTACIONARIOS Y NO

ESTACIONARIOS
Modelo estacionario
Modelo I(1):
Incluso con procedimientos técnicamente elaborados, resulta

complejo diferenciar un proceso con una raíz unitaria de otro
con una tendencia determinística exponencial.
El análisis gráfico no puede considerase una herramienta

suficiente para el análisis de la estacionariedad de una serie de
tiempo. Solo ha de servir como etapa previa a la aplicación de
contrastes más especificos.
Distintas pruebas estadísticas de raíz unitaria se han

desarrollado para investigarla. Los contrastes de hipótesis
estadística se pueden dividir en cinco grandes grupos.

El primer conjunto de pruebas verifican la hipótesis nula de la

existencia de raíz unitaria contra la alternativa de una serie
estacionaria en el proceso generador de datos (DGP), que puede
tener un término de media no cero, tendencia lineal
determinística o ajustes estacionales, tal es el caso de las pruebas
Dickey-Fuller (DF) y Dickey-Fuller Aumentada (ADF).
La segunda, parte de suponer el componente estocástico

modelado por un proceso AR(P) o alternativamente incluido por
técnicas no paramétricas como la prueba Schmidt-Phillips.
La tercera clase de pruebas permiten además de determinar la

raíz unitaria como hipótesis nula, calcular cambios estructurales
de la serie. En este contexto, los procedimientos también
incluyen tratar con la situación en la cual el cambio en el tiempo
es desconocido, tal como la prueba Phillips-Perron (PP).
La cuarta, la prueba KPSS (Kwiatkowski, Phillips, Schmidt &

Shin) toma un camino diferente en afrontar el problema sobre la
ejecución de pruebas de raíz unitaria al probar la
estacionariedad como hipótesis nula contra la alternativa de raíz
unitaria, a diferencia de las anteriores.
Por último, se pueden incluir dentro de la estructura de pruebas

de raíz unitaria un componente estacional, como las pruebas
HEGY, dentro de la estructura de análisis.
Una buena revisión de la literatura de raíces unitarias se

encuentra en Stock (1994).

En búsqueda de comprender la metodología de tratamiento de

raíces unitarias en series de tiempo económicas se analizará
inicialmente la versión sencilla de tratamiento de las pruebas
mencionadas, comenzando por la prueba de Dickey Fuller (DF)
en su versión original. Con el conocimiento y metodología se
aplicaran a los demás contrastes.
CONTRASTES DE NO ESTACIONARIEDAD PRUEBA DICKEY-

FULLER (DF)
Para el primer caso, el planteamiento inicial de contraste de raíz
unitaria parte de la prueba Dickey y Fuller (DF). Se origina en un
modelo autorregresivo de orden uno, AR(1), como:
yt=μ+a1yt-1+εt
Donde μ y a1 son parámetros a estimar por OLS y εt es un

término de error que cumple las propiedades de un proceso
ruido blanco.
Dado que a1 es un coeficiente autocorrelación, por tanto, toma

valores entre -1<a1<1, si a1=1, la serie yt es no estacionaria. Si el
valor de a1 es mayor que la unidad, entonces se dice que la serie
es explosiva.
En economía usualmente se omite los casos para series

explosivas ya que su aplicabilibidad en fenómenos económicos
tiene poca relevancia teorica y práctica. De ahí que en la mayoría
de casos se aplica a procesos estacionarios o con raíz unitaria.

De esta forma, la hipótesis de estacionariedad de una serie puede

ser evaluada analizando si el valor absoluto del coeficiente de
autocorrelación, a1, es estrictamente menor que 1.
Se puede demostrar que una expresión equivalente a la anterior,

mediante la utilización de diferencias:
La prueba DF plantea contrastar estadísticamente si a1=1 o γ=0.

Puesto que en economía las series explosivas no tienen mucho
sentido, la hipótesis nula se analiza frente a la alternativa que
establece
H0: a1=1 o γ =0 (tiene raíz unitaria).
H1: a1<1 o γ <0 (Es un proceso estacionario)
En resumen, esta es una prueba de NO ESTACIONARIEDAD que

contrasta la hipótesis nula (H0) como la presencia de una raíz
unitaria en el proceso generador de datos (DGP) de la serie
analizada.
H0: γ=0 o Existe raíz unitaria (es un proceso no estacionario)

H1: γ<0 o No existe raíz unitaria (es un proceso estacionario)
Si se supone inicialmente, desde un punto de vista formal, como

modelo de partida para el análisis de una determinada serie, yt,

un proceso no estacionario autorregresivo de orden uno como

hipótesis nula H0:
Frente a este modelo se plantea uno alternativo de un proceso

autoregresivo de orden uno AR(1) estacionario en su hipótesis
alternativa (H1) del tipo:
Se trata, por tanto, de contrastar si el coeficiente a1 es igual a la

unidad o distinto de ella.
La estimación de a1 será consistente según los valores que tome

el valor encontrado en la estimación. Si |a1|<1, la distribución
del estimador es asintóticamente normal, o lo que es lo mismo, el
estadístico t-student converge hacia una N(0,1) cuando los
grados de libertad tienden a infinito.
En el caso que |a1|>1, también puede caracterizarse la

distribución del estimador del parámetro, y de su razón de
contraste t, si bien la convergencia en el límite no se produce
hacia una normal.
El problema surge cuando |a1|=1, ya que en este caso, la

distribución del parámetro, y por tanto, de su razón de contraste
estadístico no puede caracterizarse adecuadamente dada la
inconsistencia y sesgo de los resultados.

Para probar el coeficiente a1, no se puede utilizar el contraste

tradicional t-student sobre una estimación por OLS del primer
modelo.
La razón radica en que la hipótesis nula que habitualmente se

contrasta a partir de la cual se deriva la expresión y propiedades
de la prueba t parte de contrastar (a1=1), es decir, se necesita
contrastar H0: a1=1.
Si la hipótesis nula no se rechaza, es decir, existe un proceso no

estacionario, la varianza de la serie de tiempo, yt, sería no
estacionaria.
La varianza, de este modo, crecería con los valores del tamaño de

muestra según la expresión dada de la varianza de un paseo
aleatorio con deriva:
En estas condiciones la estimación del parámetro a1 sería

inconsistente y sesgada respecto al verdadero valor del
parámetro y el uso de la distribución t-student estándar sería
incorrecta.
La distribución del estimador es entonces función de

movimientos Brownianos. Según Fuller (1976) se tiene que
N(a1-1) converge en distribución a un cociente de integrales de
Wiener.
Por tanto, la distribución de probabilidad asintótica del

estimador OLS del modelo AR(1) presenta una discontinuidad

cuando a1=1 y, como sustituto, deberán utilizarse las

distribuciones derivadas de forma empírica mediante un
procedimiento de experimentos de Montecarlo realizado por
Dickey (1976).
En este experimento se generaron un elevado número de series

ruido blanco, εt, para construir el mismo número de paseos
aleatorios con deriva. La estimación de los parámetros de interés
en cada uno de esos modelos controlados arrojó las siguientes
conclusiones:
1. El 90% de los valores estimados del parámetro a1 estaban
menos alejados de 2.58 errores estándar del verdadero
valor (la unidad).
valor (la unidad).
valor (la unidad).
Tras este experimento de Dickey, Fuller (1976) obtuvo la

distribución límite apropiada y publicó, tabulados, toda una
batería de valores críticos, dado que el dato empírico del
contraste varía en función del tamaño muestral.
Estas tablas de referencia permiten prescindir de la distribución

t-student a la hora de contrastar si el parámetro a1 es igual, o no,
a la unidad.

Más recientemente, MacKinnon (1991) realizó un número

mayor de simulaciones que las tabuladas por Fuller (1976).
Además, MacKinnon estimó la superficie de respuesta usando los

resultados de la simulación, lo que permite calcular los valores
críticos de la prueba DF para cualquier tamaño muestral y
cualquier número de variables en el lado derecho de la ecuación.
El procedimiento para la aplicación de la prueba DF estima el

modelo propuesto y calcula el valor estimado del parámetro
analizado.
Es decir, γ nulo (γ=0) es lo mismo que a1=1, o existe una raíz

unitaria. Decir que γ es menor que cero (γ<0) equivale a decir
que a1 es menor que la unidad o un proceso autorregresivo
estacionario.
Una vez calculado se compara con el valor empírico de

referencia obtenido con las tablas de Dickey y Fuller o de
MacKinnon. Si el valor estimado para γ es superior al tabulado
dado un determinado nivel de confianza se admite la hipótesis
nula, o sea, la presencia de raíz unitaria.
PRUEBA DF Y PROCESO GENERADOR DE DATOS (DGP)

Los valores críticos del t-estadístico de referencia para el
contraste DF no sólo dependerán del tamaño muestral también
del tipo de modelo estimado, por tanto, del proceso generador de
datos (DGP) supuesto.

Antes de estimar los parámetros del modelo es necesario decidir

si el proceso generador de datos (DGP) será el presentado
anteriormente, ó contendrá una deriva (a0), un término de
tendencia determinista (a2t) o ambas simultáneamente.
Los tres modelos propuestos por Dickey-Fuller son por tanto:

Modelo 1. Simple τ
Modelo 2. Constante τμ
Modelo 3. Constante y tendencia ττ
determinística (deriva)
Una vez decidido el modelo estadístico de referencia la manera

de efectuar el contraste será diferente. Se nota generalmente por
las letras τ para el caso más simple, τμ para el caso del modelo
con constante y ττ para el caso del modelo con constante mas
tendencia determinista.
Consultar correctamente el estadístico de referencia es

fundamental dado que las diferencias entre modelos implican
distintos valores de τ, τμ y ττ.
Por ejemplo, un nivel de significancia del 95% y un valor de 100

observaciones los valores críticos serían –1.95 para τ;–2.89 para
τμ y –3.45 para ττ.
CONTRASTES CONJUNTOS DE PARÁMETROS EN LA PRUEBA DF

Sobre los modelos propuestos que contienen más de un
parámetro (modelos 2 y 3) puede además también contrastarse
la hipótesis de nulidad simultánea de parámetros conjuntos.

Dickey y Fuller (1981) plantearon la construcción de

estadísticos F clásicos para contrastar las hipótesis.
En el modelo 2 donde existe una deriva (a0) y el parametro de

raíz unitaria (γ) de la forma:
Se contrasta de manera conjunta la hipótesis nula de ambos

coeficientes (deriva [a0] y parametro de raíz unitaria ,γ-) son
iguales a cero.
H0: γ=a0=0
H1: γ≠0 o a0≠0
Estadístico de contraste: ϕ1
En el modelo 3, por su parte, adicional a la deriva (a0) y el

parametro de raíz unitaria (γ) existe un componente de
tendencia deterministica (a2) de la forma:
Se contrasta la hipótesis nula que todos los coeficientes son

iguales a cero.
H0: γ=a0=a2=0
H1: γ≠0 o a0≠0 o a2≠0
O también que el parametro de raíz unitaria (γ) y tendencia (a2)

son iguales a cero.
H0: γ=a2=0
H1: γ≠0 o a2≠0

Los estadísticos de contraste, ϕ1,2,3, se construyen según la

expresión de la prueba F:
Donde SCRmr y SCRmrn son las sumas de cuadrados de los

residuos (SCR)de los modelos restringido (mr) y no restringido
(mnr), n es el número total de observaciones, k el número de
parámetros del modelo no restringido y r el número de
restricciones.
Como en el caso del contraste t individual, no es posible utilizar

las tablas habituales de la razón F por lo que de nuevo debe
acudirse a las tablas de Dickey-Fuller en las que se recogen los
valores generados empíricamente para ϕi.
Resulta necesario resaltar, que la aplicación de los contrastes de

nulidad conjunta ϕ1, ϕ2 y ϕ3 supone una forma alternativa a los
estadísticos individuales t de contrastar la estacionariedad de yt.
Podría, por ejemplo, contrastarse con ϕ2 la hipótesis nula que yt

siga un paseo aleatorio simple (no estacionariedad) frente a un
AR(1) estacionario con término independiente. Esto hace más
compleja la realización e interpretación del contraste DF.
Por último, conviene no olvidar que, aún a pesar del carácter

molesto (nuisance) de algunos de los parámetros, cabe la
posibilidad de contrastar, también, la nulidad individual de los
mismos dada la existencia de una raíz unitaria. Puede
contrastarse:

1. En el modelo 2 la hipótesis de una deriva igual a cero (a0=0)

dado que existe raíz unitaria (γ=0) mediante un contraste
ταμ.
2. En el modelo 3 las hipótesis con una deriva igual a cero
(a0=0) dado que existe raíz unitaria (γ=0) (estadístico τατ).
3. En el modelo 3 una pendiente del componente
determinístico igual a cero (a2=0) dado que existe raíz
unitaria (γ=0). (estadístico τβτ).
RESUMEN PRUEBAS DF
PRUEBA DF Y ELECCIÓN DE COMPONENTES DETERMINISTAS

DEL PROCESO GENERADOR DE DATOS (DGP)
El primer problema que plantea la aplicación de la prueba DF
radica en la estructura teórica del proceso generador de datos
(DGP) asumida para la serie, yt, ya que influye decisivamente en
los resultados obtenidos.
Así, a los resultados del contraste serán distintos si se supone

para una serie de tiempo, yt, un modelo con o sin deriva, con o
sin tendencia determinista, con componente autorregresivo de

orden uno u orden superior a uno o con o sin componente de

medias móviles.
En que la mayor parte de las ocasiones, el modelo con las

características del proceso generador de datos (DGP) se
desconoce a priori.
Ya se ha observado cómo, desde el primer momento, se ha

diferenciado claramente el caso de un modelo simple de un
modelo con deriva y/o tendencia determinista, dado que los
contrastes de referencia son en uno y otro caso diferentes sobre
la prueba DF (t, tm, tt).
Incluso se ha visto que una misma hipótesis nula puede

contrastarse utilizando las pruebas individuales τi o los
conjuntos τi, dependiendo del proceso generador de datos (DGP)
supuesto y de los coeficientes a incluir en el contraste en cada
caso.
Las diferencias entre los estadísticos de referencia τ y ϕ para

una misma hipótesis nula en las tablas de Dickey-Fuller de 1976
para τ y 1981 para ϕ son importantes, por lo que parece
fundamental cuidar la elección del modelo y la hipótesis a
contrastar en cada caso, siendo en muchas ocasiones esta etapa,
decisiva de cara a la correcta aplicación del contraste.
PRUEBA DICKEY FULLER AUMENTADA (ADF)

La prueba DF únicamente tiene sentido para un proceso AR(1),
una generalización de esta prueba se efectua cuando se realiza el
analisis para un AR(p).

Si el proceso es autoregresivo de orden P, AR(P), el polinomio

característico es α(P)=1 α1 ··· αp=0. En otras palabras, la
hipótesis de interés radica en que el polinomio α(P)=0.
Matematicamente, sin perdida de generalidad, suponga un

proceso AR(3):
Sumando y restando para a3yt-2
Calculando:
Sumando y restando para (a2+a3)yt-1:
Sumando y restando yt-1 en ambas partes de la ecuación:
Siguiendo a la notación de Lutkepohl (2004) se tiene que ϕ=γ, y

una forma funcional (a1+a2+…..+aP-1) que es el polinomio a
contrastar en la prueba de raíz unitaria ADF desde una visión
generalizada en un modelo AR(p) coincide con las raíces del
polinomio caracteristico.

El componente de innovaciones estocásticas se determina como

εt=ut. Donde finalmente se puede resumir:
En este modelo se desea probar, al igual que la en la prueba DF,

H0: Φ=0 versus H1: Φ<0.
Esta es conocida como la prueba Augmented Dickey–Fuller

(ADF) basada en t estadístico del valor del coeficiente Φ desde
una estimación OLS [Fuller (1976) y Dickey & Fuller (1979)].
Al igual que la DF, no se cuenta para los contrastes con una

distribución normal asintótica. Los valores críticos de la
distribución límite son obtenidos por ejercicios de simulación.
La distribución limite depende de los componentes

determinísticos (tendencia determinística y deriva) a ser
incluidos. Diferentes valores críticos arrojan resultados distintos.
Es de observar que incluir ajustes estacionales a través de

dummies adicionales a la deriva o a la tendencia lineal no resulta
en cambios adicionales en las distribuciones límite.
De otra parte, se puede demostrar, como lo hicieron Said &

Dickey (1984), que las pruebas de raíz unitaria pueden
efectuarse si el proceso es un ARMA teniendo el supuesto de la
transformación correspondiente desde un proceso ARMA hacia
un AR de orden infinito, AR(∞) basados en la condición de
invertibilidad.

En este caso las distribuciones limite obtenidas para un proceso

AR(∞) aplican según la velocidad de crecimiento del tamaño de
muestra.
REPRESENTACIÓN DE UNA PRUEBA ADF EN STATA
Se rechaza la hipotesis nula de raiz unitaria, es decir, es una serie

estacionaria, a todos los niveles de significancia. Del resultado de
la regresión el valor estimado de β de -0.5217 implica que el
coeficiente de correlacion, ρ=(1-0.5217) =0.478. Experimentos
con mayor o menor número de rezagos arrojan la misma
conclusión.
Para finalizar es importante resaltar que al trabajar con P

rezagos las decisiones sobre el orden del modelo AR(p) o el
número de rezagos sobre la diferencia de yt debe contemplarse
como fundamental en la selección de la prueba.
Esta elección debe estar basada sobre los criterios de selección

del modelo o una prueba secuencial para eliminar parámetros no
significativos iniciando de ordenes altos [Ng & Perron (1995)].

DETERMINACION DEL ORDEN DE INTEGRACIÓN I(d)

Debe ahora colocarse de manifiesto una característica del
contraste DF que quizá resulte inadvertida. El contraste ADF no
puede dar resultados concluyentes en una sola etapa.
Si se aplica la prueba ADF sobre una serie, yt, y el resultado es no

rechazar la hipótesis nula (no estacionariedad o presencia de
una raíz unitaria I[1]). La conclusión debe ser que, o bien la serie
es NO ESTACIONARIA, yt~I(1), o bien no es integrada de ningún
orden, es decir, que no puede transformarse en estacionaria por
diferenciación.
Para decidir entre una u otra alternativa Charemza y Deadman

(1992) sugieren aplicar nuevamente la prueba ADF ahora sobre
la serie en diferencias, ∆yt:
∆yt=γyt-1+εt
Contrastando el parámetro γ para ∆yt y que resultase nulo o
menor que cero, es decir, γ <0, por tanto fuera estacionaria I(0),
se afirma que la serie, yt, es integrada de orden uno yt~I(1)
Si, en cambio, la aplicación de la prueba ADF sobre este nuevo
modelo afirmara que ∆yt tiene una raíz unitaria, entonces el
proceso debería continuar ahora con ∆∆yt a fin de determinar si
la serie es integrada de orden dos, yt~I(2).
O se está ante una serie no integrable. Podría proseguirse ahora

con ∆∆∆yt y así sucesivamente. El esquema Charemza-Deadman
(1992) se expone a continuación:

Esquema Charemza-Deadman (1992)
En cualquier caso, como se muestra al final del esquema, siempre

se debe tener presente la posibilidad que el contraste ADF no sea
capaz de detectar la presencia de una raíz unitaria para un
determinado orden de diferenciación.
Si así fuera, se corre el peligro de sobrediferenciar una serie. En

ese caso, tal y como señalan Charemza y Deadman (1992) la
prueba DF tiende a tomar un valor muy alto y positivo (en lugar
de negativo) acompañado así mismo de un valor muy elevado
del coeficiente de determinación para el ajuste.
En general si el orden de integración de una serie de tiempo y el

número de raíces unitarias del modelo AR(P), no es claro el
procedimiento debe diferenciar la serie primero en las veces que
sea necesaria hasta hacerla estacionaria.
Otro procedimiento de contraste, alternativo al expuesto por

Charemza-Deadman (1992), y usual en la literatura parte de
Dickey y Pantula (1987).

La idea es realizar una sucesión de contrastes empezando por el

número máximo de raíces unitarias que se piensa pueden
encontrarse.
Así, si se piensa que un proceso tiene exactamente, y como

mucho, dos raíces unitarias, se planteará el modelo siguiente:
Si efectivamente la serie de tiempo, yt, tiene dos raíces unitarias,

la segunda diferencia de la serie, ∆2yt, debe ser estacionaria por
lo que el parámetro β1 debe ser nulo (β1=0).
Se efectúa el contraste de la hipótesis nula H0:β1=0, si no se

puede rechazar la hipótesis nula de no estacionareidad, se afirma
que yt tiene exactamente dos raíces unitarias, o sea, es I(2).
Si β1 es menor que cero debe plantearse entonces el modelo:
Dado que ya se sabe que no hay dos raíces unitarias, porque se

rechazó el modelo anterior, alguno de los dos coeficientes (β1 o
β2), o ambos, no serán nulos.
La hipótesis nula (H0) en este caso radica en que la serie de

tiempo, yt, tenga una raíz unitaria, o ∆yt es estacionaria.
Para eso será necesario que en la expresión anterior el

parametro β2=0 y β1<0.

Si no es así, debe rechazarse la hipótesis nula (tanto β1 como β2

son no nulos), entonces yt será estacionaria, es decir, no tendrá
ninguna raíz unitaria.
Este procedimiento puede utilizarse para un orden de

integración mayor a dos (r>2), similar al caso en que se
sospechen sólo dos raíces unitarias comenzando el contraste con
el modelo:
Si la prueba de raíz unitaria es rechazada, otra se aplica a la serie

que es diferenciada una vez menos que en la prueba anterior. Si
de nuevo una raíz unitaria es rechazada, el procedimiento es
repetido hasta que una raíz unitaria no será rechazada.
Por ejemplo, suponga que se tiene una serie de tiempo, yt, donde
se sospecha que el orden de integración es I(2) se efectúan los
siguientes pasos para determinar el orden de integración:
1. Se realiza una prueba de raíz unitaria para la segunda

diferencia de la serie yt, ∆2yt. Si se rechaza la hipótesis nula,
es decir, ∆2yt es estacionaria.
2. Se aplica la prueba de raíz unitaria sobre la primera
diferencia de la serie yt, ∆yt. Si no se rechaza la prueba de
raíz unitaria en ∆yt este resultado confirma que yt es
modelada como una serie I(1).
3. Si la prueba de raíz unitaria nuevamente se rechaza para
∆yt, es decir, ∆yt es estacionaria entonces tratar a yt como
una serie I(2) no es una buena elección y debe comenzar
nuevamente el proceso.

La estrategia para determinar el número de raíces unitarias

aplicando pruebas primero a las series diferenciadas de un
número máximo de veces hasta encontrar el no rechazo de la
hipótesis nula fue propuesta por Pantula (1989) y es conocido
como el principio de Pantula.
PRUEBAS PARA PROCESOS CON CAMBIOS DE NIVEL

Perron (1989) utiliza un análisis de cambio estructural para
confrontar los hallazgos de Nelson y Plosser (1982). Con las
mismas variables utilizadas sus resultados indican que muchas
variables macroeconómicas no están caracterizadas por
procesos con raíz unitaria. Realmente las variables tienen
procesos de cambio estructural.
Si existe un cambio de nivel en un proceso generador de datos

(DGP), este hecho se debe tomar en cuenta en una prueba de raíz
unitaria ya que, por ejemplo, la prueba ADF puede tener muy
baja potencia si el cambio estructural es ignorado [Perron
(1989)].
Phillips y Perron (1988), de aquí en adelante PP, desarrollaron

un número de pruebas de raíz unitaria. Las pruebas PP difieren
de la prueba ADF principalmente en cómo trata la correlación
serial y heterocedasticidad en los errores de la serie.
La prueba PP puede ser vista como un estadístico ADF que fue

ejecutado con varianzas robustas para capturar la correlación
serial utilizando un estimador de covarianzas consistente tipo
Newey–West.

La prueba PP utiliza errores estándar robustos para contemplar

la correlación serial, mientras la prueba ADF implementa
rezagos adicionales de la variable en primeras diferencias. La
prueba PP parte del contraste:
H0: La serie tiene raiz unitaria
H1: la serie no tiene raíz unitaria (es estacionaria)
En particular, la prueba ADF utiliza regresiones paramétricas

para aproximar la estructura ARMA de los términos de error en
la regresión.
La prueba PP, por su parte, minimiza el impacto cualquier

correlación serial en la regresión a través de la estructura de
covarianzas. La prueba PP calcula la regresión de la forma:
Donde ut es I(0) y los residuos pueden ser heterocedasticos. La

prueba PP para cualquier correlación serial y heterocedasticidad
en los términos de error, ut, directamente modifica los
estadísticos de prueba tπ=0 y T̂ .
Estos estadísticos modificados, denotados por Zt y Zπ están dados

por:
Los términos 𝛔2 y 𝛌2 son estimaciones consistentes de los

parámetros de varianza:

Donde, ST=∑ u . La varianza muestral de los residuos por

mínimos cuadrados, û , es un estimador consistente de ς2 y la
varianza de largo plazo de u , utilizando û , es un estimador
consistente de λ2.
Bajo la hipótesis nula establece que π=0, la prueba PP para los

estadísticos Zt y Zπ tiene la misma distribución asintótica que la
prueba ADF.
Una ventaja de la prueba PP sobre la ADF radica en que la primera

es más robusta a formas de heterocedasticidad en el término de
error, ut.
Otra ventaja radica en que, en principio, en la prueba PP no tiene

que especificar un rezago de la parte autoregresiva en la
ejecución de la regresión.

REPRESENTACIÓN DE UNA PRUEBA PP EN STATA
Se rechaza la hipótesis nula de una raíz unitaria en todos los

niveles de significancia. Los valores críticos interpolados para Zt
difieren un poco de aquellos encontrados para la prueba ADF.
Una aproximación distinta a cambios estructurales parte de

suponer que el cambio es determinístico. En este caso se
considera una función de cambio, la cual se denota por ft(θ) γ
que puede ser incluida en el componente determinístico μt.
Donde θ y γ son parámetros desconocidos o vectores de

parámetros y los términos de error son generados por un
proceso AR(p) que utilizando polinomios de rezago.
Se puede expresar como α (L)(1 ρL)xt=ut con el polinomio de

la forma α (L)=1 α L ··· α Lp 1. Algunos ejemplos de
funciones pueden basarse en:

1. El primer caso es un cambio de nivel modelado a través de

una variable dummy donde sufre la variación en la fecha TB.
La función no involucra al parámetro θ. En la función de
cambio f γ el parámetro γ es un escalar.
GRÁFICO DE CAMBIO A TRAVÉS DE UNA DUMMY
2. El segundo caso se basada sobre una función de distribución

exponencial la cual permite cambios graduales no lineales a
un nuevo nivel iniciando en la fecha TB en la función f (θ)γ,
ambos θ y γ son parámetros escalares. El primero está
restringido a un parámetro positivo (θ>0) mientras el
parámetro γ puede asumir cualquier valor.
GRÁFICO DE CAMBIO A TRAVÉS CON FUNCIÓN EXPONENCIAL

3. El tercer caso, visto como una función racional, en la

utilización del operador de rezago sobre un cambio en una
variable dummy (d1t). El término de cambio se define como
un operador de rezago de la forma
,γ1(1 θL) 1+γ2(1 θL) 1L]d1t. Donde θ es un parámetro
escalar en el intervalo 0 y 1 y el vector γ=(γ1,γ2) está
constituido de forma bidimensional. Un camino para
describir esta función es:
GRÁFICO DE CAMBIO A TRAVÉS CON FUNCIÓN RACIONAL
Estas expresiones ofrecen la posibilidad de cambios no lineales

muy generales. Obsérvese que ambas funciones f(2)t(θ)γ and
f(3)t(θ)’γ pueden generar cambios suaves y de una sola vez en el
momento TB para valores adecuados de θ. Estas son
formulaciones mucho mas generales que f(1)tγ
Saikkonen y Lutkepohl (2002) y Lanne, Lutkepohl & Saikkonen

(2002) han propuesto pruebas de raíz unitaria para los modelos:
El método de contraste se basa en la estimación del término

determinístico utilizando Mínimos Cuadrados Generalizados

(GLS) y sustrayéndolo de la serie original. Posteriormente, una

prueba ADF es ejecutada sobre la serie ajustada.
Si un modelo posee una tendencia lineal o cambio en términos

de estructura se asume que los parámetros η=(μ0, μ1,γ’)’ son
estimados minimizando la suma generalizada de cuadrados del
error del modelo en primeras diferencias.
Donde υt=α*(L)-1ut. En otras palabras, la estimación se efectúa

bajo la hipótesis nula de raíz unitaria que minimiza:
Donde α* es un vector de coeficientes en α*(L),

Σ(α*)=cov(V)/ς , V=(υ1, υ1,……,υT,)´ es el vector de errores del
modelo. Y=[y1,Δy2,…., Δyt]´ y el vector de parámetros Z=[Z1, Z2,
Z3] con Z1=,1,0,…,0], Z2=,1,1,…1- y Z3=[f1(θ), ∆f2(θ),…., ∆fT(θ)- .
Aunque la serie ajustada x̂ =yt-μ̂ +μ̂ t-ft(+θ̂ ) γ̂ deberá ser

utilizada en una aproximación ADF.
Denotando el estimador del polinomio AR obtenido

minimizando Qp(η,θ,α*) por el polinomio ̂ ( ) se define
w
̂ =α ̂ (L)xt y base de la prueba de raíz unitaria del modelo de
regresión auxiliar de la forma:

Donde ft(θ)=dft/dθ es la primera derivada de ft(θ) con respecto

al parametro θ y rt denota el termino de error. La prueba de raíz
unitaria se obtiene mediante un t-estadístico usual de los
estimadores de ϕ basados en una estimación OLS del modelo.
Como en el caso del estadístico ADF, la distribución asintótica es

no estándar. Los valores críticos son tabulados por Lanne
(2002).
Una distribución asintótica es obtenida si el termino de

tendencia determinística es excluida a priori. Debido a la
potencia de la prueba tiende a mejorar cuando la tendencia
lineal no se presenta, es aconsejable utilizar información a priori
para este efecto.
Si la serie de interés tiene fluctuaciones estacionales también es

posible incluir dummies estacionales adicionales al modelo:
Al ejecutar la prueba es necesario decidir el orden del modelo AR

y el cambio en la fecha TB. Si la fecha es conocida la función de
cambio deseada puede ser incluida y el orden autoregresivo
puede ser elegido en el camino usual para un modelo de niveles

con la ayuda de los criterios de selección, pruebas secuenciales

(criterio de Pantula) y herramientas de chequeo de los modelos.
Si la fecha de cambio estructural es desconocida Lanne,

Lutkepohl & Saikkonen (2003) han recomendado, sobre la base
de resultados de simulación, elegir un proceso autoregresivo lo
suficientemente amplio en una primera etapa elegir una función
y entonces capturar la fecha de cambio estructural que minimiza
Qp(η,θ, α ).
En este primer paso, elegir una función de cambio estructural

como una dummy es recomendable. Usualmente la elección de la
fecha de cambio estructural no será crítica si esta no es
totalmente irracional. En otras palabras, la prueba de raíz
unitaria no es sensible a pequeñas malas especificaciones de la
fecha de cambio.
Una vez una posible fecha es establecida, deben ejecutarse

análisis más detallados del orden del proceso autoregresivo y ser
utilizadas para potenciales reducciones del orden que pueden
mejorar el poder de la prueba.
PRUEBA KPSS
Otra posibilidad de investigar las propiedades de integración de
una serie de tiempo, yt, es probar la hipotesis nula que un
proceso generador de datos (DGP) es estacionario (H0: yt∼I(0))
contra la alternativa que el proceso es integrado I(1) (H1:
yt∼I(1)).

Kwiatkowski, Phillips, Schmidt & Shin (1992) han derivado una

prueba para este par de hipótesis. El punto de partida es un
proceso generador de datos (GDP) de la forma:
Donde Dt contiene componentes determinísticos (deriva o deriva

más tendencia lineal), ut es I(0) y puede ser heterocedastico.
Es importante observar que μt es un paseo aleatorio puro con

varianza . La hipótesis nula para la serie de tiempo, yt, sea
estacionaria, I(0), contrasta:
H0: ς =0 (μt es constante o implica yt estacionaria)

H1: ς >0 (μt es variable o implica yt no estacionaria)
Si H0 tiene una serie, yt, compuesta de una constante y el término

ut es estacionario, yt, es también estacionaria.
Aunque no directamente, la hipótesis nula también implica raíz

unitaria de un promedio móvil (MA) en la representación de Δyt.
El estadístico de la prueba KPSS es un multiplicador de Lagrange

(LM) y está dado por:

Donde Ŝ =∑ û , û es el residuo de la regresión de yt sobre Dt

y λ̂ es un estimador consistente de la varianza de largo plazo de
ut utilizando û .
Bajo la hipótesis nula de la serie de tiempo, yt, es I(0)

Kwiatkowski, Phillips, Schmidt y Shin muestran que KPSS
converge a un movimiento browniano estándar que depende de
la forma de los términos deterministas Dt pero no de los valores
del coeficiente β. En particular, si Dt=1 entonces:
Donde V1(r)=W(r) rW(1) y W(r) es un movimiento Browniano

estándar para r∈[0, 1]. Si Dt=(1, t)t entonces:
Donde V2(r)=W(r)+r(2 3r)W(1)+6r(r2 1)∫ W(s)ds.
Valores críticos para la distribución asintótica de las ecuaciones

anteriores deben ser obtenidos por métodos de simulación.
La prueba de estacionariedad es de una cola por derecha, de

modo que se rechaza la hipótesis nula en un nivel de si es mayor
a 100(1 α)% de la distribución asintótica.

Lo ideal en este tipo de resultados indica que, si una serie, yt, es

I(0), la prueba Dickey-Fuller Aumentada (ADF) debe rechazar la
hipótesis nula de no estacionariedad, mientras que la prueba
KPSS no debe rechazar su hipótesis nula.
Tal resultado es consistente porque dos enfoques diferentes

conducen a la misma conclusión.
En la práctica, sin embargo, el resultado ideal no siempre se

obtiene por varias razones:
1. Si ninguna de las pruebas rechaza la hipótesis nula, esto
puede ser debido a insuficiente potencia de cada una de
ellas. En ese caso, es difícil decidir sobre las propiedades de
integración de yt. Puede ser necesario ejecutar un análisis
de desempeño bajo supuestos alternativos para las
variables involucradas.
2. Es posible que el DGP no es el supuesto en estas pruebas.
Por ejemplo, si existen cambios estructurales, varianzas no
homogéneas, distribuciones con colas pesadas (fat tails) que
a veces se observan en series de tiempo financieras y no son
modeladas adecuadamente.

¿QUÉ PUEDE OCURRIR SI SE EQUIVOCA EN LA IDENTIFICACIÓN

DEL MODELO DE REFERENCIA?
a. Si se toma como modelo de partida un modelo con
tendencia determinista y término constante, se puede estar
sobreparametrizando la estimación lo que supone una
inmediata pérdida de grados de libertad.
b. Los valores críticos de referencia para no rechazar o
rechazar la hipótesis nula dependen del modelo estimado
por lo que, parece algo arriesgado tomar conclusiones de no
rechazar o rechazar la hipótesis en cada momento con un
modelo que, quizá, no sea realmente válido.
c. Concretamente, para un determinado nivel de significancia,
los intervalos de confianza alrededor del valor γ=0 se
amplían de forma importante si se incluye una deriva o una
tendencia determinista provocando, en caso de no ser
realmente necesarios, frecuentes errores en el rechazo de la
hipótesis nula de raíz unitaria.
d. La potencia del contraste decrece tanto mayor sea el número
de parámetros incluidos incorrectamente.
Una posible alternativa a este esquema podría ser el comenzar

por el modelo más restringido e ir incluyendo nuevos
parámetros de forma secuencial.
Sin embargo, este procedimiento tampoco soluciona el problema

de potencia del contraste dado que la omisión de la deriva o la
tendencia determinista, cuando estas son variables relevantes,
también provoca de nuevo una cuantiosa pérdida de potencia
hasta el punto de poder incluso anularse por completo.

Campbell y Perron (1990) comprobaron empíricamente que la

omisión de una variable relevante que crezca tan rápido o más
que otra de las incluidas tiene implicaciones en la potencia de la
prueba.
Por ejemplo, el término de tendencia determinista, provoca que

la potencia del contraste se reduzca hasta cero a medida que el
tamaño muestral se incrementa (consistencia de la prueba).
Si la variable omitida fuese la deriva, el t-estadístico sería

consistente pero, para muestras pequeñas, la potencia se vería
seriamente afectada.
Este problema admite además ciertos matices adicionales. En

primer lugar, cuando el proceso generador de datos (DGP)
contiene una tendencia o una deriva, la varianza muestral de yt
queda dominada por ellas.
Así, se ha comprobado empíricamente que, en esos casos, los

estadísticos tμ y tτ de la prueba ADF convergen a una distribución
normal estándar por lo que, si se conoce la presencia real de esa
tendencia lineal o deriva, la hipótesis nula γ=0 debe contrastarse
usando una distribución normal estandarizada en lugar de las
distribuciones asintóticas tabuladas por Dickey y Fuller.
En segundo lugar, Hylleberg y Mizón (1989) mostraron que los

valores normales estándar llevan frecuentemente al rechazo de
la hipótesis nula, es decir, encontrar series estacionarias, incluso
con muestras grandes, a menos que la constante sea muy grande.

Estos autores propusieron nuevos valores críticos situados entre

los clásicos tabulados por DF y los de la distribución normal.
A medida el tamaño de la constante se reduce, estos valores se

aproximan más a los valores ADF.
Por esta razón, en estas situaciones y para muestras pequeñas,

se recomienda como criterio general utilizar las tablas
propuestas por Dickey y Fuller y no las normales estandarizadas.
En la práctica, el problema de la elección de los regresores

deterministas a incluir en el contraste no tiene una solución
sencilla.
El principio general puede ser el de elegir aquella especificación

que, a priori, sea más verosímil tanto bajo la hipótesis nula como
bajo la alternativa.
Así, puede realizarse un análisis previo de la serie que ayude a

determinar si es de consideración de una tendencia (determinista
o estocástica) y en ese caso incluir una constante y una tendencia
en la regresión.
Si la serie no presenta tendencia pero tiene media no nula, se

incluye la deriva en el modelo y, por último, si presenta media
nula y ausencia de tendencia se aplica el contraste con el modelo
más restringido.

ESQUEMA DE ANÁLISIS DE ESTACIONARIEDAD

Serie inicial “Yt”
NO SI
¿Es estacionaria en media ?
PRUEBAS DE RAÍZ UNITARIA
Aplicar filtro de tendencia
Continuamos con la serie filtrada Continuamos con la serie

“Yt(ft)” inicial “Yt”
NO ¿Es “Yt(ft)” estacionaria SI NO ¿Es “Yt” estacionaria en

SI
en varianza ? varianza ?
Aplicar
Aplicar BOX-COX Aplicar
Aplicar BOX-COX
diferencias diferencias
(1) Continuamos con la (2) Continuamos con (3) Continuamos con la (4) Continuamos con
serie filtrada en la serie filtrada serie en diferencias la serie original
diferencias “dYt(ft)” “Yt(ft)” “dYt” “Yt”
ESTIMACIÓN
Los parámetros del modelo ARMA pueden estimarse por Máxima
Verosimilitud (ML) asumiendo una distribución condicional
concreta para la serie de interés. Aunque las observaciones no
son mutuamente independientes, la verosimilitud puede
obtenerse mediante la siguiente función de verosimilitud:

Si esta condicionalmente normal entonces su función de densidad

condicional viene dada por:
Si también se supone que el proceso es estacionario y Gaussiano,

de forma que la distribución marginal de las observaciones
iniciales sea Gaussiana, entonces la densidad marginal es:
El logaritmo de la función de verosimilitud Gaussiana se define

como:
En los modelos ARMA, la varianza condicional siempre es

constante. Por lo tanto:
La media condicional y la distribución marginal dependen del

modelo particular que se haya ajustado a la serie.

Ejercicio. Suponga el caso de un AR(1). Construya la función de

verosimilitud asociada. Sean los momentos y la forma funcional
del proceso estacionario de la forma:
Por lo tanto, el logaritmo de la función de verosimilitud Gaussiana

se define como:
Si se consideran que los valores iniciales de la serie son fijos en

distintas realizaciones, entonces:
El estimador de máxima verosimiltud condicional es equivalente

a OLS con sus propiedades asintóticas iguales a las del estimador
de máxima verosimilitud.
Bajo el supuesto de estacionariedad, la distribución asintótica del

estimador de máxima verosimilitud (ML) es la habitual, lo que
permite realizar contraste de hipótesis sobre los parámetros del
modelo de forma estándar.

En general, se plantea una función de verosimilitud que busca

iteraciones sucesivas hasta alcanzar un valor de convergencia.
Teóricamente el método de máxima verosimilitud es adecuado
en la medida que muestras grandes poseen propiedades
asintóticas.
Esto quiere decir que se generan estimadores asintóticamente

consistentes y convergen a una distribución normal, por lo que
las pruebas hipótesis convencionales sobre los parámetros del
modelo serán válidas.
DIAGNÓSTICO DE LOS RESIDUOS

Una vez se ha especificado y estimado el modelo para una serie de
tiempo estacionaria, una bateria de herramientas de diagnóstico
están disponibles para comprobar la idoneidad del modelo.
El tratamiento usual del diagnóstico parte en primer lugar de

utilizar herramientas gráficas para la verificación del
comportamiento de los residuos, luego contrastar algunas
pruebas de hipótesis que pueden utilizarse para investigar sus
propiedades específicas.
Por último, la solidez y estabilidad del modelo pueden ser

revisadas estimando de forma recursiva sobre diferentes
submuestras.
La estructura de análisis y pruebas estadísticas para la idoneidad

del modelo se puede resumir en la siguiente tabla:

Prueba Objetivo
Grafica Análisis descriptivo de los residuos.
LM Prueba para determinar efecto ARCH,
varianza constante o no condicionada.
Q-Ljung-Box Estacionariedad y autocorrelación de
los residuos.
Prueba de Contraste de ruido blanco sobre los
Pormanteau residuos
Normalidad Jarque-Bera
Prueba de estabilidad Test de Chow
ANÁLISIS DESCRIPTIVO DE LOS RESIDUOS
Graficando la serie de residuos de un modelo estimado de series
de tiempo es un camino para detectar posibles deficiencias. Por
ejemplo, datos atípicos, varianzas no homogéneas, o cambios
estructurales mostrarse en las series analizadas.
Con el objetivo de detectar residuos inusuales, la estandarización

de los residuos puede ser útil antes de graficarlos como técnica
alternativa.
Sea la serie de residuos estimados ût con (t=1,…,T) se obtienen

los residuos estandarizados de la forma û =(ût-u̅̂ )/ς
̂u donde
̂u=T-1∑ (û
ς u̅̂ )2 y u̅̂ =∑ û .
Si los residuos son normalmente distribuidos con media cero,

aproximadamente el 95% de los residuos estandarizados
deberían estar sobre la banda ±2 desviaciones estándar
alrededor de la media cero.

También puede ser útil graficar los residuos estandarizados al

cuadrado con el objetivo de identificar periodos de baja o alta
volatilidad (clusters de volatilidad).
Además, la FAS y FAP de los residuos puede ser valioso

observarlos en la medida que revelen algún tipo de correlación
serial utilizando el estadistoco QLB.
De manera similar, las autocorrelaciones de los residuos al

cuadrado pueden ser informativas a cerca de la posible
heterocedasticidad condicionada de los residuos.
Si no existe correlación remanente en los residuos o

heterocedasticidad condicionada, la FAS y FAP deben tener unas
bandas de ±2/√T alrededor de cero. Errores estándar
asintóticamente calculados tienden a ser menores que 1/√T,
especialmente para bajo número de rezagos.
Por lo tanto, la FAS y FAP asociado con un bajo número de

rezagos se encuentran fuera de una banda calculada de ±2/√T es
un indicador sobre la pertinencia del modelo.
GRAFICO ESTANDARIZADO DE LOS RESIDUOS GRAFICO DE LOS RESIDUOS AL CUADRADO

FAS DE LOS RESIDUOS FAP DE LOS RESIDUOS
PRUEBA DE PORTMANTEAU
La prueba de Pormanteau verifica la hipótesis nula que no existe
correlación permanente en los residuos desde el rezago 1 hasta el
rezago h-esimo contra la alternativa que al menos una de las
autocorrelaciones no es cero.
En otras palabras la prueba de hipótesis es:

H0: ρu,1 = ··· = ρu,h = 0
H1: ρu,i ≠ 0 para al menos un i= 1, . . . , h
O mejor:
En otras palabras la prueba de hipótesis es:
H0: todas las autocorrelaciones son cero.
H1: existe al menos una autocorrelación distinta de cero.
Donde ρu,i=Corr(ut,ut-i) denota el coeficiente de autocorrelación

de los residuos de la serie. Si ût son residuos de la estimación del
modelos ARMA(p,q) el estadístico asociado es:
Donde ρu,j se expresa como:

La prueba de hipótesis tiene un t-estadístico con una distribución

χ2 con h-p-q grados de libertad. Donde h es el rezago, p y q es el
orden del modelo ARIMA estimado.
La hipótesis de no autocorrelación de los residuos es rechazada

para valores grandes del valor del estadístico Qh.
La región de rechazo busca el valor límite de la distribución χ2

cuando el número de autocorrelaciones va hacia infinito (h→∞) y
hace consistentes los resultados.
Por lo tanto, el tamaño de la prueba no puede ser confiable si el

tamaño del rezago, h, es demasiado pequeño.
De otro lado, la prueba puede tener una potencia reducida si el

tamaño del rezago, h, es demasiado grande y como consecuencia
no informar adecuadamente las autocorrelaciones existentes.
También a través de experimentos de Montecarlo se demostró

que la aproximación χ2 sobre la distribución de hipótesis nula es
una buena aproximación para tamaños de muestra grandes
(T→∞).
PRUEBA DE PORMANTEAU SOBRE LOS RESIDUOS EN STATA

El resultado de la prueba rechaza la hipótesis nula de la existencia

de no autocorrelación de los residuos o existe autocorrelación de
los residuos.
PRUEBAS DE NORMALIDAD
Lomnicki (1961) y Jarque & Bera (1987) han propuesto pruebas
para determinar la normalidad de los residuos basadas en el
tercer y cuarto momento de la distribución de los términos de
error, en otras palabras, la asimetría y kurtosis de la distribución.
Denotando por ust los residuos del modelo estandarizado

(ust=ut/ςu), la prueba de hipótesis efectúa el siguiente constraste:
H0 : E(ust)3 = 0 y E(ust)4 = 3
H1 : E(ust)3 ≠ 0 o E(ust)4 ≠ 3
Es decir, verifica si el tercer y cuarto momento de los residuos

estandarizados son consistentes con una distribución normal.
La estimación estandarizada de los residuos se denota por ûst y el

estadístico de prueba es:
Dónde:
: es una media de asimetría de la distribución
: es una media de apuntamiento de la distribución.
La prueba estadística contrastada tiene una distribución χ2 con

dos grados de libertad.

La hipótesis nula es rechazada si el estadístico JB se ubica en la

región de rechazo. Por otra parte, si la hipótesis nula no se rechaza
esto no necesariamente indica que la distribución subyacente es
una normal, únicamente que coinciden los cuatro momentos de la
distribución.
PRUEBA DE NORMALIDAD SOBRE LOS RESIDUOS EN STATA
Se puede rechazar la hipótesis de mpg es distribuida

normalmente, pero no se puede rechazar la hipótesis de
normalidad para la variable trunk al nivel del 5% de confianza.
Si los residuos no son normales es interpretado como una

inconsistencia del modelo. Sin embargo, en mayor medida la
teoría asintótica sobre inferencia en modelos dinámicos trabaja
sobre ciertas distribuciones de los residuos no normales.
Modelar rasgos de no normalidad puede resultar en un modelo de

mayor ajuste y realismo que aquellos con residuos normales.
Por ejemplo, tener en cuenta efectos ARCH pueden resolver

incluir efectos de varianzas heterocedasticas. Por tanto, las
pruebas ARCH deben también ejecutarse en la metodología de
diagnóstico.

PRUEBA ARCH
En la mayoría de análisis sobre los residuos se asume la
normalidad y varianza constante. Sin embargo, es posible
encontrar varianzas heterocedasticas que pueden ser capturadas
a través de modelos de volatilidad condicionada heterocedastica
o modelos ARCH.
Es decir, los residuos tienen una estructura en términos de

rezagos de la forma:
Y contrastar la hipótesis nula:
El estadístico LM puede ser calculado como un producto del

coeficiente de determinación R2 de la regresión sobre û . De
manera más precisa el estadístico LM es:
Tiene una distribución asintótica χ2(q) si el valor del estadístico

se ubica con valores muy altos se rechaza la hipótesis nula de no
existencia de volatilidad condicionada y se asume la existencia de
efecto ARCH en los residuos.
En este caso es necesario realizar proceso de modelamiento

independiente para determinar el comportamiento de la
varianza.

PRUEBA ARCH SOBRE LOS RESIDUOS
El resultado de la prueba arroja que efectos para los tres rezagos,

ARCH(1), ARCH(2) y ARCH(3) los tres rechazan la hipótesis nula
que los errores no tienen efectos ARCH. Es decir, tienen un
componente de heterocedasticidad condicionada.
ANÁLISIS DE ESTABILIDAD: TEST DE CHOW

Otro camino para verificar la pertinencia de un modelo parte de
investigar la estabilidad en el tiempo. Para este propósito se
realizan diferentes estimaciones en distintos subperiodos. El test
de Chow ofrece un camino formal para realizarlo.
La prueba de Chow permite la posibilidad para determinar

estadísticamente cambios estructurales. Diferentes versiones son
presentadas en la literatura, tales como muestras divididas
(Sample-Split) y puntos de quiebre (Break Point).
Las muestras divididas (Sample-Split) verifican la estabilidad de

los parámetros ante un cambio estructural en una fecha TB. De
esta forma, las muestras divididas (Sample-Split) verifican si la
hipótesis nula que los coeficientes estimados en un modelo AR(P)
y el termino determinístico no cambian durante los periodos
antes y después de una fecha TB.

El puntos de quiebre (Break Point), por su parte, verifican la

estabilidad de los parámetros, adicionalmente, el supuesto de
ruido blanco de la varianza del error o una varianza constante o
tipo ruido blanco.
Si se asume la existencia de cambio estructural ocurrida en la

fecha TB las pruebas sobre muestras divididas (Sample-Split) o
puntos de quiebre (Break Point), en general, comparan las
estimaciones asociadas de los parámetros de un AR(P) con
periodos antes de TB con las obtenidas después de TB.
De forma más precisa, suponga un modelo AR(P) que es estimado

por OLS de una muestra completa con T observaciones, divididas
en dos grupos de T1 y T2 observaciones, donde TB>T1 y T-TB≥T2.
Este conjunto de pruebas compara la varianza residual estimada

de un modelo del conjunto de observaciones T1 con la varianza
estimada de un modelo que permite cambio en los parámetros
para la fecha T2.
Por lo tanto, se verifica si existen diferencias significativas en la

estimación antes y después de la fecha TB.
Si se denotan los residuos estimados para cada una de las

( ) ( )
submuestras como û , û y û , respectivamente, se puede
definir que:

Ambas pruebas estadísticas son derivadas como una razón de

verosimilitudes basadas sobre la correspondiente hipótesis nula.
Los estadísticos de contraste para efectuar pruebas de hipótesis

para el supuesto de muestras divididas (sample-split) adquieren
la siguiente forma funcional:
Bajo parámetros de consistencia, tienen una distribución limite χ2

con k grados de libertad. Donde k es el número de restricciones
impuestas asumiendo un modelo con coeficientes constantes.
En otras palabras, k es la diferencia entre la suma del número de

coeficientes de la regresión estimada en el modelo AR(P) en el

primero y ultima submuestras y el número de coeficientes en la

muestra completa.
Sin embargo, el número de parámetros puede diferir en los dos

subperiodos si existe, por ejemplo variales dummy que no son
cero únicamente en una submuestra.
La prueba de punto de quiebre (Break Point) tiene el siguiente

estadístico de contraste:
Bajo parámetros de consistencia, tienen una distribución limite χ2

con k+1 grados de libertad.
Para la prueba de punto de quiebre (Break Point), adicional a los

grados de libertad, es obtenida por la consistencia de la varianza
de los residuos también es comprobada.
Los parámetros de consistencia de la prueba de hipótesis es

rechazada si los valores de los estadísticos para muestras
divididas (sample-split o SS), λSS y/o punto de quiebre (Break
Point o BP), λBP son grandes.
Todas las pruebas pueden ser ejecutadas secuencialmente para

un conjunto de fechas de potenciales cambios estructurales TB y
los resultados pueden ser graficados.
Una impresión visual de posibles inestabilidades sobre los

parámetros es obtenida.

Los resultados de contrastes repetidos no será independiente y se

rechazaran la estabilidad del modelo cuando una de las
estadísticas exceda el valor crítico de una prueba individual y
conduzca a resultados erróneos.
Si una sucesión de pruebas es ejecutada y la decisión está basada

sobre el valor máximo del t-estadístico puede tomar en cuenta de
derivar la distribución asintótica del t estadístico.
Por ejemplo, si la prueba de muestras divididas (sample-split) es

aplicada a todos los periodos en un conjunto T⊂*1,2….,T+
entonces efectivamente se considera una prueba basada sobre el
estadístico.
Prueba de Chow en STATA

PRONOSTICO
Si se ha encontrado un modelo adecuado para el proceso
generador de datos (DGP) de una serie de tiempo puede ser
utilizada para pronosticar la variable en estudio.
Los procesos AR son particularmente utilizables para este

propósito. Tener una componente deterministica y asumir un
AR(p) de la forma yt = α1yt-1+ ··· + αpyt-p + ut, donde el término,
ut, son generados por un término independiente no
correlacionado ruido blanco.
Se puede demostrar que en el óptimo (mínimo ECM) un periodo

hacia adelante tiene la esperanza condicional:
Para pronósticos más amplios, h>1, puede ser obtenido

recursivamente de la forma:
Donde yt+j|T=yt+j para j<0. El correspondiente error de

pronóstico está dado por:

Donde se puede observar por sustitución sucesiva que los

coeficientes Φj pertenecen a una representación MA si el proceso
es estacionario e invertible.
En consecuencia, los coeficientes ΦJ pueden ser calculados de

forma recursiva como:
Con ϕ0=1 y αi=0 para i>p. Donde ut, es el error de pronostico un

paso hacia adelante y el pronóstico es insesgado, es decir, el error
de pronostico tiene expectativa cero.
Este es el ECM de pronóstico h periodos hacia adelante:
Para cualquier otro pronostico h periodos hacia adelante con el

ECM ς̅ (h), por ejemplo, ς
̅ (h)- ς (h) es no negativa.
Este resultado se basa en el supuesto que ut es ruido blanco

independiente, es decir, ut y us sean independientes para s≠t.
Si ut es ruido blanco no correlacionado y no es independiente en

el tiempo implica que los pronósticos obtenidos de forma
recursiva son:

Con yT(j)=yT+j para j<0 es el mejor pronostico lineal. Es

importante indicar que el pronostico del ECM para variables
estacionarias, I(0), esta acotado por la varianza condicional ς (h)
de la serie yt.
Si el proceso yt es gaussiano, es decir, ut~vaiid N(0,ς2), el error de

pronostico también se comporta normalmente.
Este resultado puede ser utilizado para construir intervalos de

confianza de la forma:
Donde c1-γ/2 es el porcentaje (1-γ/2)100 de una distribución

normal estándar y ςy(h) denota la raíz cuadrada de ς (h), es
decir, ςy(h) es la desviación estándar del error de pronostico h
periodos hacia delante de la variable yt.
Aunque se ha presentado el pronostico para procesos

estacionarios las mismas formulas aplican si yt es I(d) con d>0.
También los Φj pueden ser calculados como:
En el caso no estacionario, los Φj no son coeficientes en una

representación MA, y no convergen a cero para j→∞. Como
consecuencia, el ECM del pronóstico no converge para h→∞.
Para variables no estacionarias de orden d, I(d), existe otra

posibilidad para calcular en pronostico.

Suponga yt es I(1) de modo que ∆yt es estacionaria. Es posible

utilizar el hecho que yt+h=yt+∆yt+1+……+∆yt+h.
De este modo, el pronostico yt+h desde el periodo t, solamente es

necesario de la variable estacionaria ∆yt+j (j=1,…,h) y sumárselo
al pronóstico de yt para obtener el pronóstico de yt+h.
Este pronóstico es idéntico al obtenido directamente de los

niveles en una formulación AR(p).
En la práctica, no se conoce el proceso generador de datos (DGP)

pero se ejecuta sobre la aproximación a este. En otras palabras,
las cantidades estimadas se efectúan incluyendo el gorro de
estimación sobre la ecuación de pronóstico, es decir:
El correspondiente error de pronóstico es:
En el origen del pronóstico T, el primer término del lado derecho

implica los residuos futuros solamente, mientras el segundo
término variables presentes y pasadas.
En consecuencia, si ut es ruido blanco visto como una vaiid los dos

términos son independientes. Por otra parte, bajo supuestos
estándar, la diferencia yT+h|t - yT+h|T es pequeño en probabilidad
en la medida que el tamaño de muestra utilizada para la

estimación se hace grande. Por lo tanto, la varianza del error de

pronóstico es:
Donde o(1) denota un termino que se aproxima a cero en cuanto

el tamaño de muestra tiende a infinito. De esta forma, para
estimación de muestras grandes la incertidumbre puede ser
ignorada en evaluar la precisión de pronóstico y estableciendo
intervalos de confianza.
En muestra pequeña incluye un término de corrección. En este

caso, la precisión del pronóstico dependerá sobre la precisión de
los estimadores.
Incluir un término determinístico en el proceso utilizado para

pronóstico es utilizado. El valor apropiado del termino
determinístico es adicionado a cada pronostico.
EVALUACIÓN DE LOS ERRORES DE PRONÓSTICO

Si se entiende que una predicción es mejor que otra cuando
comete menor error, los criterios de selección de modelos parten
de elegir medidas como el error cuadrático medio (ECM), error
absoluto medio (EAM) y error absoluto porcentual medio (EAPM)
y U de theil que sean lo menores posibles.
Estos indicadores se calculan dentro de muestra. Es decir,

valores que el modelo pronosticó basado en el proceso
generador de datos (DGP) estimado para las H últimas

observaciones ya observadas y se comparan con el valor real, del

siguiente modo:
Otra medida que permite analizar la bondad de la predicción.

Está basada en la diferencia cuadrática que existe entre las tasas
de crecimiento de la variable real y la estimada conocida como U
de Theil.
El valor de coeficiente está comprendido entre 0 y 1. El valor 0

supone una predicción perfecta ya que coinciden ambas tasas en
todos los puntos.
El valor 1 en cambio supone máxima desigualdad, este hecho se

causa por predicciones nulas para valores reales distintos de
cero o viceversa.
n
  yˆ  yi 
2
i
i 1
U  Theil  n
n n
 yˆ  y
2 2
i i
i 1
 i 1
n n

El valor del coeficiente se puede atribuir a tres factores:

1. Error Sistemático: atribuido a la diferencia sistemática entre
el promedio de las tasas reales y estimadas de la variable
dependiente. Toma valores positivos o negativos según la
media de la tasa de crecimiento de la variable estimada sea
mayor o menor que la media de la tasa de la variable real.
2. Error de Dispersión: atribuido a la diferencia entre las
desviaciones típicas de las tasas de crecimiento reales y
estimadas de la variable dependiente. Toma valores entre 0
y 1 ó -1 y 0 según la dispersión de la tasa de crecimiento de
la variable estimada sea mayor o menor que la media de la
tasa de la variable real.
3. Error de Correlación: Supone el que las dos series siguen
trayectorias distintas, queda reflejado en la mayor o menor
correlación existente entre las tasas de crecimiento reales y
estimadas de la variable dependiente.
CARACTERÍSTICAS DE LOS PRONOSTICOS REALIZADOS CON
MODELOS ARIMA
1. Modelos AR(p): El pronostico tiende a μ (media del proceso)
a medida que aumenta el horizonte temporal de la
predicción.
2. Modelos MA(q): dada la memoria limitada que caracteriza a
estos procesos, el pronostico es igual a μ (media del proceso)
cuando el horizonte temporal del pronostico es mayor que el
orden del proceso (q).
3. Modelos ARMA(p,q): a partir de "q" períodos futuros el
pronostico tiende a μ (media del proceso) a medida que
aumenta el horizonte temporal.

4. Modelos ARI(p,d) e IMA(d,q): la predicción ya no tiende a μ

sino que será una línea recta con pendiente igual a la media
del proceso Δyt (serie resultante de las transformaciones
necesarias para hacerla estacionaria).
SELECCIÓN Y EVALUACION DE MODELOS
Muchos modelos ARIMA pueden ser identificados, estimados y
generar un pronóstico cumpliendo con los requerimientos para la
selección de un modelo.
Sin embargo, debe ser seleccionado uno de ellos para la toma de

decisiones.
La evaluación econométrica, más allá de considerar criterios

estadísticos habituales como el análisis de la significancia
individual de los coeficientes AR y MA.
Sin embargo, pueden complementarse con otras metodologías

para dar una mejor resultado en la selección frente a la elección
de distintos modelos:
a. Criterios de información (Akaike37 y/o Schwarz38 entre
otros). Sera elegido a través estos criterios comparativos
aquel modelo que con los mismos resultados estadísticos
37 El coeficiente AIC: responde a la expresión:

 e' e 
2k  n ln( L)  2k  n ln  
 n 
2k k  1
Para muestras pequeñas, se propone la versión corregida AICc (muestras pequeñas): AIC 
n  k 1
38 El criterio de Schawrz, denominado generalmente BIC, es algo más exigente que el AICE para la inclusión de nuevas variables y responde a la
 e' e   ln( n) 
expresión ln    k  
 n   n 

utilice el menor numero de parámetros o criterio de

parsimonia.
b. Evaluación de los errores de pronóstico. Proporciona
criterios suficientes para elegir aquel modelo que posea el
error de pronóstico minimo como criterio de seleccion entre
varios y sea fundamento de la toma de decisiones.
CRITERIOS DE INFORMACIÓN
La búsqueda de un criterio de parsimonia utiliza el cálculo de los
criterios de información que corresponde a las propuestas por
Akaike (1973,1974), Schwarz (1978) y Hannan-Quinn (1979)
tanto para modelos uniecuacionales como multiecuacionales.
Estos criterios de selección de modelos miden el ajuste (fit) de un

modelo dado, maximizando el valor de la función de máxima
verosimilitud en conjunto con el uso de diferentes funciones de
costos (penalty) para tomar en cuenta el hecho que a mayor
número de parámetros estimados no generan valor en la
estimación del modelo (parsimonia).
El insumo de todos los modelos parte del valor maximizado de la

función de verosimilitud, lnL(Θ), donde Θ ̂ es el estimador de
máxima verosimilitud de los parámetros Θ, basado en una
muestra de tamaño n.
Definición. Criterio de información de Akaike (AIC). Para este

modelo proporciona una aproximación para muestras pequeñas.
Se define como:

Definición. Criterio de información Bayes-Schwarz (BIC).

Suministra una aproximación para muestras grandes del
porcentaje de probabilidad del modelo bajo consideración. Este
criterio se define como:
Definición. Criterio de información Hannan–Quinn. Este criterio de

información fue propuesto para seleccionar el orden
autorregresivo de los modelos de promedios móviles o vectores
autorregresivos (VAR), y es definido por:
Por medio de criterios de información al comparar diferentes

modelos ARIMA(p,d,q) es seleccionado aquel que minimiza estos
criterios.
METODOLOGÍA BOX – JENKINS

Este método resume lo visto hasta el momento. Se basa en el
análisis de las propiedades estocásticas de las series de tiempo
modeladas a través de una estructura ARIMA. En este sentido, las
características de la serie deben ser al menos estacionarias en
sentido débil.
El objetivo de la metodología Box–Jenkins es identificar, estimar

contrastar y pronosticar en un modelo estadístico donde se puede
inferir la conducta del proceso generador de datos (DGP).

PROCEDIMIENTO
Las etapas que se deben seguir en la elaboración y construcción
de un modelo ARIMA basados en la metodología Box–Jenkins
parten de los siguientes principios.
METODOLOGÍA BOX-JENKINS
Etapa 1. Identificación. Esta fase consiste en inferir el proceso

generador de datos (GDP) asociado a la serie de tiempo
analizada. Significa encontrar valores adecuados de la parte
autoregresiva (p), orden de integración (d) y componente de
media móvil (q) del modelo ARIMA.
Es importante recalcar que la metodología BOX–JENKINS se basa

en una serie estacionaria en la construcción de un modelo ARIMA.
Para ello, se efectúan las pruebas de raíz unitaria que muestren la

estacionariedad de la serie. En caso que la serie no sea
estacionaria puede diferenciarse d veces hasta que ésta sea
estacionaria identificando el orden de integración d del modelo
siguiendo el criterio de Pantula.

Etapa 2. Estimación. La estimación del modelo ARIMA se efectúa

para la serie estacionaria e identificados los ordenes p,d,q. La
estimación de la parte autoregresiva (AR) se puede efectuar por
OLS. Sin embargo, se recurre a la estimación de parámetros
utilizando técnicas de mayor generalidad como máxima
verosimilitud (ML) ya que en la parte de media móvil (MA) la
estimación por OLS resulta inconsistente.
Etapa 3. Verificación de Diagnóstico. En esta etapa busca evaluar

si el modelo estimado se ajusta a los datos en forma razonable.
La validación o verificación incluye el análisis de los coeficientes

o parámetros del modelo, evaluación de la bondad de ajuste,
análisis de los residuos y ejecución de pruebas de hipotesis.
1. Análisis de los coeficientes. Se desea que el modelo
ARIMA(p,d,q) estimado cumpla con las condiciones de
estacionariedad e invertibilidad y que exista significancia
estadística en los rezagos incorporados. Teniendo en cuenta
las propiedades asintóticas de la estimación, los estadísticos
t-student pueden utilizarse para probar significancia
individual de cada uno de los coeficientes hasta p y q.
2. Bondad de ajuste. Se asocian a medidas como criterios de

información como el Akaike Information Criterion (AIC) o
Schwartz Bayesian Criterion (SBC). Estas son herramientas
estadísticas útiles para elegir el número adecuado de
rezagos p y q del modelo ARMA. A esta prueba se le conoce
como la prueba de parsimonia. Al efectuar el diagnóstico se
desea que tanto el AIC y SBC sean lo menor posible al
comparar modelos con diversas combinaciones de p y q.

3. Análsis de los residuos. El supuesto de errores del modelo

ruido blanco debe verificarse. Para ello es posible efectuar
varios análisis:
a. Gráfico de los residuos. Consiste en una gráfica
generalmente estandarizada de los errores en función
del tiempo.
b. Correlograma de los residuos y el estadístico de
contraste Ljung–Box. Se evalúa con el correlograma de
los errores del modelo y si son ruido blanco a rraves de
la prueba QLB. En caso de no serlo, es indicativo de la
existencia de alguna estructura remanente del modelo
que no se logró capturar. En caso de que el modelo
cuente con errores autocorrelacionados se volverá a la
etapa de identificación con el objeto de reformular el
modelo hasta que los errores sigan un proceso
puramente aleatorio.
c. Histograma y pruebas univariadas de normalidad.
Generalmente se acostumbra probar que los errores
del modelo siguen una distribución normal. Para ello,
se construye el histograma de frecuencias. De otra
parte, se ejecutan pruebas de normalidad sobre los
términos de error.
d. Ejecucion de pruebas de hipótesis estadísticas
asociadas con el supuesto de ruido blanco sobre los
residuos (pruebas ARCH, Pormanteau, etc).
Debido a que en la práctica es difícil identificar y estimar con

exactitud el modelo ARMA adecuado, se suelen plantear dos o
más modelos factibles, que luego de ser estimados son útiles
para la elección del más apropiado.

Etapa 4. Pronóstico. Con el modelo seleccionado se efectúan

pronósticos k periodos hacia delante de manera recursiva. Es
importante considerar que el pronostico se efectua sobre la
variable original diferenciada y transformada en varianza.
Se hace necesario ejecutar pruebas de backtesting e intramuestra

para verificar al asertividad y pertinencia del modelo (ECM, U-
Theil).
PROCESOS ESTACIONALES (SARIMA)
Durante los últimos años se presenta un aumento pronunciado
del interés por el análisis del componente estacional en las series
de tiempo.
Muchas series de tiempo económicas muestran alguna forma de

estacionalidad. Variables macroeconomicas como desempleo e
inflación o sectores como agricultura, construcción o diversión
tienen claros patrones estacionales. De hecho, las variaciones
estacionales de algunas series de tiempo tienen un impacto
significativo en el cálculo de su varianza total.
Tasa de desempleo Colombiana trece principales ciudades

2001-2006

De otra parte, la presencia de componentes estacionales en las

series de tiempo estacionarias obliga a plantearse al menos tres
preguntas previas a la identificación:
1. ¿Conviene preservar el componente estacional en la serie o
eliminarlo antes de identificar sus estructuras ARMA y
utilizar los resultados con fines analíticos?
2. En caso que sea de interés eliminar el componente
estacional, ¿Cuándo conviene aplicar el correspondiente
filtro para eliminar la estacionalidad? ¿Antes del tratamiento
de la tendencia determinista y las raíces unitarias? ¿Después
de los filtros de tendencia pero antes del análisis de Raíces
Unitarias?
3. Suponiendo que está claro cuándo conviene eliminar la
estacionalidad, ¿existe un procedimiento estándar o más de
uno? y lo que es más importante, ¿es indiferente la aplicación
de los distintos métodos que existen o por el contrario los
distintos procedimientos impactan sobre la serie filtrada
resultante y, por tanto, sobre el resto de las etapas del
análisis?
4. Se se elimina el componente estacional ¿Cual es el impacto
de no incorporarlo en el pronóstico de la serie?
La respuesta a cada una de estas preguntas implica elegir

distintos métodos para descartar o incorporar el componente
estacional. La aplicación de cada uno de ellos genera resultados
que pueden diferir sustancialmente en el resto de las etapas
(identificación y análisis de estacionariedad).

MODELOS ESTACIONALES
Existen dos caminos para responder estas preguntas. El primero,
los efectos estacionales se incorporan en la metodologia Box-
Jenkins. El segundo, modelar la tendencia utilizando técnicas de
desestacionalizacion.
El camino elegido, en este caso, es incoporar en la metodología

BOX-JENKINS el componente estacional en la serie de tiempo. En
respuesta a cada una de las pegutnas expuestas, y bajo este
supuesto, se tiene que:
1. Es conveniente presevar el componente estacional.
2. El tratamiento de identificación, estimación, verificación y
pronóstico del componente estacional debe ser utilizado
sobre la serie no estacionaria y la serie diferenciada en su
componente estacionario y estacional.
3. Si es efectuado un pronóstico sobre una serie de tiempo, yt,
que ignora patrones estacionales por definición tendrá alta
varianza en periodos donde se observa la estacionalidad y
sus intervalos de confiaza y pruebas de hipótesis se
ampliaran de forma significativa.
En conclusión, la inclusión de factores con patrones estacionales

se debe efectuar y ayudará a mejorar el modelamiento de series
de tiempo.

MODELOS DE SERIES DE TIEMPO ESTACIONAL POR

METODOLOGÍA BOX JENKINS
Al igual que la determinación de la tendencia deterministica o
estocastica, el componente estacional es un obstáculo al
momento de aproximarse al componente estocástico puro que se
desea modelar para realizar un pronóstico adecuado.
Cuando el componente estacional es significativo en el

comportamiento de la serie de tiempo, previo a concluir su
estacionariedad aplicando la metodología BOX-JENKINS es
necesario ejecutar un análisis de la estacionalidad.
ANÁLISIS DE ESTACIONALIDAD
Incorporar efectos estacionales describe un componente que
modela la media del proceso estacionario a través de su parte
autoregresiva (p), media móvil (q) con un orden de integración
(d) expresado como (p, d, q). De aquí en adelante será conocida
como parte regular.
Adicional al anterior, se modela una serie de tiempo con

frecuencia estacional donde existen ordenes para su parte
autoregresiva (P), orden de integración (D), media móvil (Q) y
rezagos estacionales significativos (S) definidos notacionalmente
como (P,D,Q,S). De aquí en adelante será conocida como parte
estacional.

El modelo completo que incorpora a la estructura ARIMA

estacionaria una parte estacional dentro del proceso estocastico
se conoce como SARIMA (modelo Estacional Autorregresivo
Integrado de Media Móvil) que es la agregación de la parte
regular más la estacional.
De forma resumida, el proceso estocástico puede ser notado

como un SARIMA(p,d,q)(P,D,Q,S). De por si, la representación
matemática se modifica de la siguiente manera:
COMPONENTE ESTRUCTURA MODELO

Regular ARIMA(p,d,q)
Regular+Estacional SARIMA(p,d,q)(P,D,Q,S)
Regular+Estacional SARIMA(1, 1, 1)(1, 1, 1, 4)
Es importante resaltar nuevamente que preliminar a cualquier

tipo de análisis o pronóstico sobre series de tiempo estacionarias
que se le quiera realizar debe analizarse su componente
estacional.
Una vez incorporado en el modelamiento la estructura estacional

de la serie de tiempo, es decir, contemplar en el modelo el
componente regular y estacional, se puede emplear la
metodología BOX-JENKINS con las propiedades de
estacionariedad en sentido débil para ejecutar el respectivo
pronóstico.

METODOLOGÍA BOX-JENKINS CON COMPONENTE ESTACIONAL
Graficos, Diferenciacion estacional

FAS/FAP, Raiz unitaria estacional
Raiz Prueba HEGY
Unitaria
Graficos,
FAS/FAP,
Pruebas Raiz Unitaria
Criterios Pantula/CD
Diferenciacion
Box-Cox
Maxima verosimilitud
Residuos:
Grafico (outliers-tendencias)
ARCH-LM
Pormanteau
Q-Ljung-BOX
ECM
Criterios de información
Si no se ejecutan los pasos anteriores se puede invalidar las

conclusiones derivadas en el componente regular de la FAS-FAP y
de las pruebas de raiz unitaria, sin importar el grado de
diferenciación o integración de la variable para garantizar
estacionariedad.
En otras palabras, las pruebas de hipótesis aplicadas sobre una

serie de tiempo diferenciada en su componente regular, y que aun
así conserva estacionalidad, pueden señalar que la serie de tiempo

es estacionaria es sentido debíl, Sin embargo, es una conclusión

errada dada la presencia de efectos estacionales desconocidos en
la transformación inicial.
TÉCNICAS DE DESESTACIONALIZACION
Descartar el componente estacional, implica utilizar una serie de
metodologías de suavizamiento exponencial estacional como
Holt-Winters multiplicativo y aditivo o trabajar con técnicas de
desestacionalizacion como X11, X12, TRAMO/SEATS o filtros de
tendencia de largo plazo tipo Hodrick & Prescott o Baxter & King.
Este tipo de metodologías se analizaran posteriomente, dando

únicamente un enfoque al tratamiento de series de tiempo
estacionarias con componente estacional por medio de la
metodología SARIMA(p,d,q)(P,D,Q,S).
EVALUACIÓN DE LA ESPECIFICACIÓN SARIMA(p,d,q)(P,D,Q,S)

Suponga dos procesos puramente estacionales para datos
trimestrales que pueden ser modelados desde un punto de vista
autoregresivo (AR) como:
yt=ϕ4yt-4+εt |ϕ4|<1
O para una media móvil (MA) como:

yt=εt+θ4εt-4
Este proceso es similar a la metodología de identificación

utilizada en la metodología BOX-JENKINS, en este caso un
modelo AR(4) con comportamiento estacional y estacionario.

Para este caso, la FAS en el modelo autoregresivo estacional y

estacionario teorico muestra un decaimiento exponencial en los
rezagos 4, 8, 12 y un solo valor significativo en el rezago 4 y las
demás correlaciones cero.
ρt FAS TEORICO DE UN PROCESO AR(4)

1
t
4 8 12 4
-1
En la práctica, la identificación de un proceso estacional no es tan
sencilla por el hecho que patrones estacionales interactúan con
patrones no estacionales en el proceso generador de datos (DGP).
La FAS y FAP para procesos estacionales/no estacionales no
necesariamente reflejan ambos elementos.
Un análisis gráfico de la serie de tiempo, asi como de la FAS y

FAP de un proceso estacional y no estacionario es similar a un
proceso no estacional y no estacionario en los rezagos s, 2s, 3s,…,
etc.
Aunque la identificación de un proceso estacional en una

estructura ARIMA es de mayor complejidad, la evaluación
econométrica de las especificaciones SARIMA, al igual que todos
los conceptos para el componente regular, son igualmente
aplicables para evaluar la conveniencia de la inclusión de
términos estacionales.

De este modo, se identifica la presencia de términos AR(p) y/o

MA(q) en la componente regular, observando los correlogramas o
utilizando criterios de evaluación pueden identificarse
estructuras estacionales en su parte autoregresiva (SAR(P)) y
estacionales en su parte de media móvil (SMA(Q)).
Con relación al correlograma, en el caso de las componentes

estacionales las estructuras SAR(P) y SMA(Q) se identifican
teóricamente con los mismos patrones señalados para el
componente regular.
Sin embargo, para evaluar en este caso un decrecimiento en la

FAP o FAS se debe fijar exclusivamente en los valores de los
coeficientes de autocorrelación tanto simples como parciales
correspondientes a los rezagos estacionales.
Por ejemplo, para una serie trimestral, se debe observar

gráficamente el valor de los coeficientes de autocorrelación para
t-4, t-8, t-12……etc.
Dado que es necesario observar coeficientes de autocorrelación

para rezagos estacionales, deberán solicitarse correlogramas más
extensos temporalmente que para la identificación del
componente regular.
En una serie mensual, por ejemplo, una docena de coeficientes

son suficientes para observar cualquier estructura en la
componente regular. Sin embargo, no podría observarse el
componente estacional dado que el único coeficiente estacional
disponible sería t-12.

El ajuste estacional en los datos aparecen con una periodicidad s,

inferior a un año, que corresponde a los coeficientes estacionales
observables en la función de autocorrelación simple (FAS) y
función de autocorrelación parcial (FAP) vistos a través de los
rezagos s, 2s, 3s.
FAS Y FAP PARA UN MODELO ESTACIONAL
En conclusión, desde un punto de vista de las funciones de

autocorrelacion FAS/FAP es importante tener en cuenta:
1. En el estado de identificación, es necesario diferenciar los
datos y verificar el comportamiento de la FAS. En una
cantidad importante de casos las series de tiempo
estacionales no serán estacionarias. En estos casos es
necesario calcular la primera diferencia estacional (∆D).
2. Al igual que con el método tradicional, es posible utilizar la
FAS y FAP para identificar modelos potenciales. La principal
recomendación radica en estimar modelos con coeficientes
ARMA(p,q) no estacional de bajo orden. Tambien efectuar
estimación de modelos estacionales de ordenes cortos.

De por si, existen casos donde los coeficientes de autocorrelación

de la parte estacional son cercanos o iguales a la unidad y dan pie
a la idea de raíces unitarias estacionales.
ESTACIONALIDAD ADITIVA Vs MULTIPLICATIVA

Los coeficientes autoregresivos estacionales en un modelo
ARIMA pueden ser incorporados en la estructura. Por ejemplo,
suponga un modelo ARMA con datos mensuales, el rezago cuatro
(4) pueden ayudar a capturar la estacionalidad de este periodo.
Es decir:
yt=ϕ1yt-1+ϕ4yt-4+εt+θ1εt-1
Este metodo trata los coeficientes estacionales aditivamente
sobre una estructura AR(p), MA(q) o ARMA(p,q) y será conocido
como estacionalidad aditiva.
La estacionalidad multiplicativa, por su parte, permite

interactuar el modelo ARIMA con efectos estacionales. Suponga
la siguiente especificación multiplicativa de la forma:
yt = ϕ1yt-1+εt+θ1εt-1+θ4εt-4+θ1θ4εt-5
Utilizando polinomios de rezago:
(1-ϕ1L)yt = (1+θ1L)(1+θ4L4)εt
Factorizando:
(1-ϕ1L)/(1+θ4L4)yt = (1+θ1L)εt
Se puede demostrar que (1-ϕ4L4)=1/(1+θ1L4), entonces:

(1-ϕ1L)(1-θ4L4)yt = (1+θ1L)εt

Comparando los dos modelos se observa que efectos

estacionales aditivos y multiplicativos difieren en que en el
segundo permite al término de media móvil en el primer rezago
interactuar con el efecto estacional en el promedio móvil del
rezago 4 (θ1θ4), algo común en las series reales.
Estimando únicamente tres coeficientes (ϕ1, θ1, θ4) se permite

capturar efectos de un término autoregresivo en el rezago 1 y los
efectos de promedios móviles en los rezagos 1, 4 y 5. Las
estimaciones de los tres coeficientes están interrelacionadas.
Si el valor no restringido de θ5 se aproxima al producto θ1θ4 es

preferible la forma de efectos multiplicativos puesto que son más
ricos en la interaccion del patrón estacional con el no estacional.
Ademas, este tipo de estructura es de mayor parsimonia ya que

se capturan las principales características del proceso
estocastico con un número inferior de coeficientes respecto de
los efectos aditivos.
Por esta razón, muchos paquetes estadísticos contienen rutinas

capaces de estimar modelos multiplicativos, conocidos como
SARIMA, por ejemplo STATA.
ANÁLISIS DE FRECUENCIA DE UNA SERIE ESTACIONAL

Una serie temporal puede entenderse como una sucesión de
números. Las sucesiones de números reales se pueden escribir
como combinaciones lineales de senos y cosenos (o
exponenciales complejas). Esta representación se hace mediante
la Transformada de Fourier Discreta.

La teoría moderna de series temporales se basa en la hipótesis

de una serie temporal como una realización de un proceso
estocástico. Análogamente, a las series temporales, los procesos
estocásticos se pueden representar mediante combinaciones
lineales (más exactamente, integrales) de funciones
trigonométricas o exponenciales complejas, aunque ponderados
por coeficientes aleatorios.
Esta representación es la llamada representación espectral de un

proceso estocástico. La varianza de los coeficientes de la
representación se llama densidad espectral. La Transformada de
Fourier Discreta de una serie temporal puede entenderse como
una estimación de la densidad espectral.
Una sucesión finita x1,...,xT (que puede ser una serie temporal, es
decir, una realización de un proceso estocástico) puede
escribirse como suma de senos y cosenos de la forma siguiente:
Donde ωk=2πk/T son las frecuencias naturales. Uno de los

aspectos donde hay más variedad en cuanto a la representación
espectral es en las unidades que se emplean para expresar la
frecuencia.
La frecuencia ω es el coeficiente que multiplica a t en las

funciones trigonométricas esto significa que sus unidades son
radianes/unidad de tiempo y sus valores recorren el intervalo
,0, π-.

De otro lado, cuando T es par, n=T/2. Entonces,

senω0t=senωnt=0, mientras que cos ω0t=1 y cos ωnt=(−1)t.
Consecuentemente,
Si T es impar entonces n = (T − 1)/2 y
Los coeficientes ak y bk nos dan la amplitud de las funciones

sinusoidales. Se puede demostrar que, en estas dos formas, la
representación es única viendo que *cos ω t, sen ω t+ ∩{1}
(−1)t} en el caso par y *cos ω t, sen ω t+ =1 ∩{1} en el
impar forman una base del espacio de las sucesiones finitas de T
elementos.
Por otra parte, los coeficientes ak y bk se pueden obtener como:
Puesto que todos los senos y cosenos que aparecen son

periódicos del periodo s, entonces el lado derecho de la ecuación
es también periódico.

Esto significa que no solo se cumple para t=1,...,s, sino también

para t=(s+1),...,T. Consecuentemente, en la representación de
Fourier de una sucesión periódica de periodo s aparecen
solamente las s/2 + 1 frecuencias 0, 2π/s,...,π.
Como ejemplo, se considera el caso de T = 32 y s = 4 que es una

sucesión periódica de periodo s y una sucesión no periódica. En
el CASO 1 la representación espectral solo contiene las
frecuencias 2π/4 y 4π/4. Por el contrario, caso 2, aparecen
muchas otras frecuencias.
CASO 1 CASO 2
INTEGRACIÓN ESTACIONAL
Al igual que para series estacionarias sin componente estacional,
para este tipo de procesos estacionales deberá determinarse el
grado de integración regular (d).
Adicionalmente, deberán aplicarse principios de identificación

del grado de integración estacional (D) y procedimientos para
efectuar diferencias estacionales de la forma:

La sucesión de contrastes a ejecutar en un

SARIMA(p,d,q)(P,D,Q,S) para determinar el tipo de modelo a
implementar sobre su parte estacional en una serie estacionaria
depende de manera significativa de la definición del orden
integración regular y estacional (d,D). Entre las diferentes
definiciones de integración estacional se mencionan tres.
Definición. Integracion estacional. Osborn (1988). Se dice que

una variable es integrada de órdenes (d,D), denotado I(d,D), si la
serie se transforma en estacionaria después de d diferencias
regulares y D diferencias estacionales, es decir, Xt~I(d,D) si
(1-L)d(1-Ls)DXt=∆d∆DXt es estacionaria.
Definición. Integracion estacional. Engle (1989). Una serie de

tiempo es integrada de orden d0 y ds, denotado por el término
SI(d0,ds), si (1-L)do[S(L)]dsXt=∆do[S(L)]dsXt es estacionaria, donde
la expresión polinómica S(L) se define como
S(L)=1+L+L2+L3+….Ls-1.
Cuando las variables no presentan integración estacional ambas

definiciones coinciden, es decir, I(1,0)=SI(1,0), I(2,0)=SI(2,0),
etc.
Por el contrario, siempre que una serie es estacionalmente

integrada estas definiciones difieren. Esto sucede ya que
Δs=(1-Ls) puede factorizarse como (1-L)S(L). De esta manera, el
equivalente de I(0,1) es SI(1,1); I(1,1)=SI(2,1) y así
sucesivamente. De la misma manera, el proceso SI(0,1) no tiene
equivalente.

Definición. Integracion estacional. Hylleberg (1990). Una serie xt

es un proceso estacional integrado si tiene una raíz unitaria
estacional en su representación autoregresiva. Más
generalmente, es integrada de orden d en la frecuencia  si el
espectro de xt toma la forma f(ω)=c(ω-θ)-2d
Para la frecuencia  próxima al parametro . Esto es denotado

convenientemente por xt~I(d). Esta definición resulta adecuada
al discutir los resultados de algunas pruebas.
CRITERIO DE PANTULA PARA SERIES ESTACIONALES

El criterio de Pantula (1987) sobre series de tiempo
estacionarias aplica igualmente a series de tiempo con un
componente estacional con el objetivo de determinar el orden
de integración (d,D).
El método sugiere conservar el tamaño de muestra en el caso de

más de una raíz unitaria estacional y comenzar la sucesión de
pruebas que parten de una hipótesis nula de existen raices
unitarias estacionales y a partir del número máximo de raíces
unitarias en consideración.
Siguiendo este criterio se comienza ejecutando la prueba de

hipótesis de existencia de dos raíces unitarias estacionales.
La idea básica parte de establecer la hipótesis nula de la

existencia de raíz unitaria regular en el rezago de orden uno (1)
o en los rezagos estacionales, yt~I(d,D).

Cuando la hipótesis de existencia de raíces unitarias en las

frecuencias estacionales no se rechaza, deben utilizarse datos
estacionalmente corregidos.
Las transformaciones para la prueba de hipótesis son

modificados de manera tal que al estimarse el modelo se utilicen
datos apropiadamente ejecutando diferenciación regular para el
componente estacionario (Δ) y/o estacional (Δs).
TIPOS DE PROCESOS ESTACIONALES

La evidencia empírica indica que, además de ser no
estacionarias, muchas series de tiempo con periodicidad inferior
a la anual muestran también variaciones estacionales que son
más grandes y más irregulares de lo que se creía.
Si ha sido detectada la estacionalidad en una serie de tiempo se

puede intentar capturar la estacionalidad por medio de variables
dummy estacionales lo que es equivalente a suponer que las
variaciones estacionales son puramente determinísticas39.
Sin embargo, algunas series de tiempo despliegan movimientos

estacionales que cambian lentamente a través del tiempo.
En otras palabras, algunas series observadas con periodicidad

trimestral o mensual parecen desplegar a menudo variaciones
estacionales estocásticas no estacionarias.
39No se puede olvidar que también es posible utilizar algún filtro para obtener datos estacionalmente ajustados como los mencionados en la
sección anterior.

En esos casos, los correspondientes procesos generadores de

datos (DGP) son llamados estacionalmente integrados o
procesos con raíces unitarias estacionales.
Si los efectos estacionales cambian gradualmente a través del

tiempo, el modelo determinístico produce una especificación
errada.
Por esta razón, siempre que se utilicen datos estacionales en

series de tiempo es aconsejable hacer pruebas sobre las
propiedades estacionales de las series de tiempo con el objetivo
de realizar modelamiento determinisitico o emplear
diferenciación estacional.
La teoría subyacente al análisis de series de tiempo estacionales

considera tres clases de procesos:
1. Componentes determinísticos
2. Componentes estacionarios en covarianza
3. Raiz unitaria estacional
PROCESOS CON COMPONENTE DETERMINÍSTICO

El componente determinístico para el modelamiento de series de
tiempo estacionales se analiza en tres casos (Alonso-Semaán
2008).
Caso 1. La primera clase incluye aquellos procesos generados por

componentes puramente determinísticos como un término
constante, representado usualmente por variables dummy
estacionales y tendencias determinísticas.

Por ejemplo, el proceso yt es generado por dummies estacionales

que afectan la coordenada al origen:
s
y t   i Dit  t
i 1
Las variables Dit (i=1,2,...,s) toman el valor 1 cuando t
corresponde a la estación i-esima y cero (0) en los otros casos.
Donde t es un conjunto de variables aleatorias independientes e
idénticamente e distribuidas (IID).
Caso 2. La ecuación anterior puede ser reformulada para evitar la

confusión entre los niveles de las diferentes estaciones, de la
siguiente manera:
s 1
yt     i* Dit*  t
i 1
Donde  es la media del proceso y los coeficientes i* están
sujetos a la restricción de sumar cero.
Para hacer operativa esta restricción las dummies del modelo

Dit* (i = 1, 2,..., s) se definen de manera tal que toman valor 1
cuando t corresponde a la estación i y cero el resto de las veces.
Donde t es una serie de variables aleatorias IID.
Caso 3. En la ecuación anterior también puede incluirse

tendencias determinísticas con coeficientes estacionales
constantes o variables, es decir:
s1 s
yt     i Dit    i [ Dit  g (t )]   t
i 1 i 1

Donde g(t) es un polinomio determinístico en t.
ESTACIONALIDAD DETERMINÍSTICA
Caso 1 Caso 3
PROCESOS ESTACIONARIOS ESTACIONALES

Si por el contrario, el proceso generador de datos (DGP)
corresponde a un proceso estacionario en su covarianza
estacional, entonces la mejor opción es estimar un modelo
estacional multiplicativo SARMA. En este caso el proceso
generador de datos (DGP) se puede expresar como:
El proceso puede tambien ser estacional estacionario alrededor

de una tendencia lineal.
ESTACIONALIDAD ESTACIONARIA

PROCESOS NO ESTACIONARIOS ESTACIONALES

Por el contrario, si el proceso generador de datos (DGP) implica
la presencia de un proceso no estacionario estacional (raíces
unitarias estacionales) entonces la aproximación correcta es
emplear la integración o diferenciación estacional.
En este caso el proceso generador de datos (DGP) sería por

ejemplo:
Este proceso se conoce como paseo aleatorio estacional sin

deriva (seasonal random walk).
ESTACIONALIDAD NO ESTACIONARIA
El proceso estacional estacionario en covarianza, puede ser

ejemplificado de forma más general como:
yt = syt–s + t
Donde s<1 y t es un conjunto de variables aleatorias IID. Si

s=1. Se tiene entonces un proceso que exhibe un patrón
estacional que varía a través del tiempo o un paseo aleatorio

estacional. En ese caso, la variable ∆syt, es estacionaria, definida

como:
syt=yt–yt–s
La diferencia principal entre estas formas de estacionalidad

radica en que en el modelo determinístico, si t es ruido blanco,
las innovaciones tienen sólo un impacto inmediato.
En el caso del procesos estacionales estacionarios las

innovaciones en el componente estacional tienen un efecto
transitorio (desaparecen en el largo plazo).
Para procesos estacionales integrados tienen propiedades

similares a aquéllas observadas en el caso regular. Es decir, las
series tienen memoria larga de manera tal que los efectos de una
innovación en el componente estacional permanecen y pueden,
en consecuencia, modificar el patrón estacional de manera
permanente.
De hecho, los procesos no-estacionarios estacionales tienen

propiedades similares a las series integradas regulares (anuales
o también conocidas como de frecuencia cero, s=0).
Por ejemplo, presentan memoria larga de tal manera que las

innovaciones pueden cambiar los comportamientos estacionales
permanentemente, tienen varianzas que crecen linealmente y
asintóticamente no están correlacionados con otras raíces de
otras frecuencias.

Es importante observar que dada la elección entre componente

determinístico o estocástico será correcto si se le aplica
adecuadamente a un determinado comportamiento del proceso
generador de datos (DGP).
Es decir, por ejemplo, si se emplean variables dummy para tratar

la estacionalidad cuando lo correcto era diferenciar, entonces se
enfrenta a un modelo mal especificado que podrá llevar a
conclusiones erradas.
PRUEBA HYLLEBERG, ENGLE, GRANGER, Y YOO (HEGY)

Si se asume un proceso generador de datos (DGP) de una serie
de tiempo, yt, con periodicidad trimestral y un fuerte
componente estacional es posible que la estacionalidad y la no
estacionariedad pueda ser removida en parte, o completamente,
aplicando diferenciación estacional por medio de operadores en
un polinomio de rezago, en este caso trimestral40, modelado de la
forma ∆4yt=(1-L4)yt.
El operador de rezago estacional para datos trimestrales puede

ser expresado como:
Por lo tanto, si el operador autoregresivo puede ser

descompuesto como α(L)=α*(L)(1-L4), entonces el polinomio
α(z) tiene raíces z=1,-1,i,-i que hacen parte de su componente
real (1,-1) y complejo (i,-i). De por si, todas estas raíces
estacionales están sobre el circulo complejo.
40Las pruebas de raíz unitaria estaciona en principio fueron creadas para datos timestrales, sin embargo ultimas metodologías desarroladas
permiten ser aplicables a datos mensuales (Alonso-Semaán 2008).

Si la raíz z=-1 se denomina raíces con frecuencia semestral.

Raíces complejas conjugadas z=±i son denominadas raíces de
frecuencia (ω) anual .
Cada una de ellas corresponden a la densidad espectral, f(ω), del

proceso generador de datos (DGP) el cual tiene picos en las
frecuencias semestrales (-1) y anuales (±i).
Por lo tanto, estas tres raíces (1, -1, ±i) se denominan raíces
unitarias estacionales. La raíz para z=1 se refiere a raíz unitaria
de frecuencia cero (ω=0), o de su componente regular, para
distinguirla de demás raíces.
El principal interés sobre las raíces unitarias estacionales radica

en conocer si ellas existen ya que entonces puede ser útil o
necesario aplicar un operador de diferenciación estacional a la
serie de tiempo, yt, o tomarlas en cuenta en algún otro momento
para un análisis posterior dentro de la estructura de
modelamiento.
El procedimiento para efectuar contrastes de hipotesis sobre

raíces unitarias estacionales parte de un proceso generador de
datos (DGP) definido como un AR(P) de la forma:
Con un polinomio de rezago definido para el proceso AR(P) de la

forma α(L)=1-α1L- α2L2-….-αpLp con los rezagos superiores a 4
por ser una periodicidd trimestral (p>4).

Este operador de rezago puede ser reordenado como:
Utilizando el hecho que el operador de rezago en diferencias

para serie de tiempo con componente estacional, yt, con datos
trimestrales tiene la forma ∆4=(1-L4)=(1-L)(1+L)(1-iL)(1+iL),
entonces se puede derivar que:
El operador de rezagos autoregresivo puede ser factorizado de la

siguiente manera:
Por lo tanto, α(L) tiene raíces unitarias regulares si el parámetro

π1=0, semestrales si π2 =0 y para datos anuales si π3= π4=0.
De este modo Hylleberg (1990) propuso efectuar el contraste de

hipotesis de raíz unitaria estacional sobre el modelo:
Donde los parámetros del modelo anterior son:

z1t = (1+L)(1-iL)(1+iL)yt = (1+L+L2+L3)yt

z2t = -(1-L)(1-iL)(1+iL)yt = -(1-L+L2-L3)yt
z3t = -(1-L)(1+L)yt = -(1-L2)
La hipotesis nula (H0) parte del principio de existencia de raíces

unitarias estacionales. Estos contrastes son conocidos como las
pruebas HEGY.
A partir del modelo estimado es posible comprobar las

siguientes hipótesis nulas en una matriz que resume los
prinicaples resultados.
H0: Raíz
Descripción
HA: π1=0 Regular
Presencia de una raíz unitaria no
estacional. Si no se rechaza la
hipótesis nula de π1=0 significa que
existe una raíz unitaria en los datos
estacionalmente ajustados.
HB: π2=0 Semestral Presencia de una raíz semestral. No
rechazar π2=0 implica la existencia
de una raíz unitaria en el ciclo
estacional con periodo semestral (dos
ciclos por año).
HC: π3=π4=0 Anual Presencia de una raíz unitaria anual. Si
los parametros π3 y π4 son
estadísticamente iguales a cero existe
una raíz unitaria en el ciclo estacional
anual.

Estas hipótesis pueden ser contrastadas estimando el modelo

anterior por OLS y los estadísticos de contraste son pruebas t y F.
Los resultados de estas pruebas permitirán determinar si es
necesario realizar diferenciaciones a ejecutar.
En el siguiente cuadro se presenta una visión generalizada de

como emplear los resultados de la prueba HEGY para datos
tirmestrales.
RESULTADOS DE PRUEBA HEGY TRIMESTRAL
Los contrastes de hipótesis HA y HB pueden ser probadas por

medio de pruebas tipo t de una sola cola (la hipótesis alterna
será πi<0).
De otro lado, Hylleberg (1990), también demostró que la

distribución de estos estadísticos de prueba, tanto individual
como conjunta, no sigue una distribución convencional.

Las distribuciones asintóticas de los estadísticos de contraste

bajo la hipótesis nula dependen del término determinístico en el
modelo.
Por ejemplo, si se incluye una deriva (drift) dentro del modelo se

encuentra con una distribución asintótica para el estadístico de
contraste.
Sin embargo, para el caso de un modelo que introduzca una

variables dummy estacional y una deriva se contará con una
distribución asintótica distinta para el estadístico de contraste.
Existirá otra distribución asintótica para el resultado del modelo

con deriva, dummies estacionales y tendencia lineal, por
ejemplo.
Un caso especial para la ejecución de pruebas estacionales radica

cuando existe la presencia de una raíz unitaria no estacional.
Esto implica que los t estadísticos para demostrarlo (H0: π1=0)

tiene la misma distribución asintótica de una prueba ADF.
Para probar las hipótesis conjuntas (HC) se deberá emplear una

prueba tipo F. Existen tres casos a resaltar.
El primero, efectúa un contraste de hipótesis para el caso donde

se supone la existencia de una raíz unitaria estacional anual, es
decir, comprobar como π3=π4=0. Se denota por F34.

El segundo, contrasta la hipótesis conjunta de todos los

coeficientes estacionales son cero (π2=π3=π4=0). Es decir, para
la serie, yt, no existen raíces unitarias estacionales. Se denota por
F234.
El tercero, implica que los parámetros del componente regular y

estacional son cero conjuntamente (π1=π2=π3=π4=0). Es decir,
la serie, yt, es estacionaria en su componente regular y estacional.
Se denota por F1234.
Los valores críticos de la prueba HEGY para cada uno de los

casos pueden ser encontrados en Hylleberg (1990).
En la práctica, un modelo autoregresivo de orden p, AR(P), o el

número de diferencias estacionales rezagadas ∆4yt-j puede ser
elegido antes de ejecutar el contraste HEGY. Esta elección puede
ser ejecutada utilizando criterios de selección para la parte
regular.
Como ejemplo, se utilizó el comando SROOT, una rutina de

STATA para probar la presencia de raíces unitarias estacionales
en una serie de consumo de hogares. Los datos tienen una
ventana de tiempo desde 1955 hasta 2006 con periodicidad
trimestral.
Se estimó la regresión planteado Hylleberg (1990) con deriva y

tendencia lineal para cuatro (4) rezagos en su estructura
estacional.

PRUEBAS HEGY PARA RAÍZ UNITARIA ESTACIONAL EN STATA
Los resultados de la prueba HEGY sobre el conjunto de datos

son:
1. De acuerdo con las estadísticas t de frecuencia 0, no se
rechaza que π1 es diferente de cero en el nivel de confianza.
No se puede rechazar la hipótesis que la serie de tiempo de la
presencia de una raíz unitaria no estacional.
2. Estadística de prueba y los valores críticos para el caso
anterior (frecuencia 0) se pueden obtener en mejor medida
en los datos tabulados de la prueba ADF.
3. Para la frecuencia semestrales (π/2) no se puede rechazar la
presencia de una de raíz unitaria estacional (π2=0). El
estadístico t es 2.739 contra un valor crítico de -2,910 en el
nivel de confianza del 5%.
4. De la sentencia ALL SEAS. FR. Se rechaza la hipótesis que
todos los coeficientes son iguales a cero. No se puede

rechazar la significancia conjunta de raíz unitaria estacional

(π2=π3=π4=0).
5. De la sentencia ALL FREQ. Se observa la significancia
conjunta del total de raíces unitarias regulares y estacionales
(π1=π2=π3=π4=0).
REGRESIONES ESPURIAS
El problema de la aparición de regresiones espurias en los
resultados de un buen número de análisis económicos es
siempre atribuido a Granger y Newbold (1974).
Sin embargo, a finales de la década de los años 20, Yule (1926)

ya había arrojado la primera piedra en el Journal of the Royal
Statistical Society con un artículo con el título: Why do we
sometimes get nonsense correlations between time series?
El problema de las regresiones espurias admite como buenas,

relaciones económicas que en realidad sólo se deben a aspectos
casuales.
Por regresión espuria se entiende aquellas ecuaciones de

regresión que presentan una elevada significancia conjunta,
medida en términos del coeficiente de ajuste R2 o R2 ajustado. Sin
embargo, fuertes problemas de autocorrelación positiva
reflejados en bajos valores del estadístico Durbin Watson.
La presencia de un término de error fuertemente

autocorrelacionado impide efectuar un proceso de inferencia con
mínimas garantías.

La probabilidad de un error en el cálculo y en la aplicación de los

test de significancia individual convencionales es muy
importante, sin contar los problemas de no eficiencia de los
estimadores.
Este tipo de regresiones aparecen cuando se relacionan series de

tiempo no estacionarias y se agudizan cuanto estas estén más
cercanas a la forma de un paseo aleatorio. Es decir, cuanto más
evidente sea la presencia de tendencias estocásticas en las series.
La forma más clara de ilustrar el problema es utilizar los

resultados del ejemplo expuesto por Newbold y Davies (1978) y
Granger y Newbold (1986). Suponga dos variables yt y xt
independientemente generadas por paseos aleatorios:
Donde ε1t y ε2t son procesos ruido blanco normales estándar

independientes entre sí con media cero y varianza unitaria.
Dado que yt y xt están generadas de forma independiente se debe

esperar que no existiera ninguna relación significativa entre
ambas.
Sin embargo, sobre un conjunto de 1000 muestras de yt y xt con

50 observaciones, alrededor de un 65% de las regresiones de yt
sobre xt presentan contrastes t significativos a un nivel de
significancia del 5%.

Tal y como expone Enders (1995) basta con comprender las

propiedades de la perturbación aleatoria de la regresión de yt
sobre xt para apreciar lo inconsistente de estos resultados.
Efectivamente, en la regresión:
Es claro que, prescindiendo de la constante a0:
Por lo que imponiendo las restricciones iniciales y0=x0=0 se

tiene que:
Por tanto, se está ante una sucesión εt no estacionaria en

varianza. Si esto es así, εt presenta una tendencia estocástica, lo
que quiere decir que el error cometido en t no se diluye en t+1,
t+2... t+s.
Es imposible que una regresión en la que los errores se acumulan

de forma permanente pueda tener algún interés.
Nótese que en esta situación se violan un buen número de

hipótesis básicas asumidas en los procesos de inferencia
habituales en el contexto del Modelo Básico de Regresión Lineal:
1. La varianza de εt no es constante. Como se demostró
anteriormente la varianza se incrementa hacia el infinito a
medida que el tamaño de muestra t crece.

2. Existe correlación serial. La misma expresión para εt puede

utilizarse para comprobar como la correlación entre εt y εt+1
tiende a uno a medida que t se incrementa.
3. Si la serie xt no es estacionaria, no satisface la propiedad:
Dada semejante acumulación de errores, ningún test de

significancia puede ser usado con garantías y por ello, ninguna
inferencia será fiable.
Las regresiones espurias, no obstante, no sólo se producen por la

aparición de tendencias estocásticas en las series. Las tendencias
deterministas también pueden ser un problema.
Si se construye una serie yt lineal (1,2,3,4.....,50) y se hace

depender de otra xt con tendencia cuadrática (1,4,.......502) el
resultado en términos de R2 es 0,94 cuando en realidad el patrón
de evolución de la serie cuadrática acabará por divergir de forma
definitiva cuando el número de datos tienda a infinito.
Desde el primer momento, y aún de forma intuitiva, la utilización

de tasas o primeras diferencias se utiliza en las series de cara a
mitigar los efectos negativos en este tipo de situaciones.
Este fenómeno sucede con facilidad cuando son utilizados series
en niveles, dado que los cambios sobre el nivel se producen de
forma mucho más suave generando series con patrones
tendenciales ampliamente comunes y fácilmente predecibles.

El problema, no obstante, no reside en una cuestión de niveles o

tasas, sino en el concepto de estacionariedad de la serie de
tiempo.
INTRODUCCIÓN AL ANÁLISIS DE INTERVENCIÓN

El modelamiento econométrico ARIMA de una serie temporal
rara vez concluye con la identificación de una estructura AR / MA.
La razón es que este tipo de estructuras ARMA regulares y/o

estacionales pueden servir como regla general de
comportamiento para la serie disponible, pero sólo capturarán
aquella porción de la variabilidad sistemática que se observe a lo
largo de la serie completa.
Esto significa que, aún utilizando una estructura ARMA pueden

quedar fuera de análisis:
a. Ciertos componentes de variabilidad sistemática (y por ello
previsible en gran medida) pero de carácter irregular o de
frecuencia anómala. Como componente sistemático de
carácter puntual podemos, por ejemplo, imaginar el efecto de
la semana santa sobre la serie semanal de entrada de
turistas. Dado que la Semana Santa es un fenómeno puntual
dentro del año (no ocurre todos los meses) y además no
siempre “cae” en la misma semana natural, su “efecto” sobre
la serie no se puede recoger con el componente regular
ARMA previamente identificado. Otros efectos de esta
naturaleza pueden ser el efecto”año bisiesto”, la presencia de
fiestas de distinto carácter (internacional, nacional, regional,
local,…) que afecten a la serie o a parte de ella.

b. Impactos puntuales en la serie debidos a la presencia de

observaciones atipicas, imprevisibles, no sistemáticas,
relacionadas con acontecimientos extraordinarios o errores
en la manipulación de datos (atípicos)
Ejemplos de puntos atípicos con influencia sobre cualquier

serie hay tantos como acontecimientos imprevisibles puedan
ocurrírsele a uno (un atentado, un seísmo, un cambio
legislativo, una fusión empresarial, …..)
La presencia de este tipo de componentes deficientemente

incluidos en la especificación, pueden generar problemas en los
modelos estimados.
En primer lugar, la presencia de puntos o períodos atípicos eleva

el error de estimación, lo que repercute en varios aspectos clave
en materia de evaluación general del modelo (tests de
significatividad, precisión en el contraste de hipótesis, tamaño de
los intervalos para los parámetros y la predicción, etc).
En segundo lugar, la propia presencia no atendida de tramos o

puntos anómalos puede inducir errores en la identificación de las
estructuras ARMA.
En este sentido, algunos puntos atípicos pueden tener una

elevada influencia en los resultados de las medidas y los test que
se utilizan en la tarea de especificación.
Adicionalmente, la presencia de señales atípicas en las series y su

correcta detección aporta en muchas ocasiones una fuente

auxiliar de conocimiento del fenómeno analizado que no conviene

desperdiciar.
En líneas generales, el análisis de intervención aspira a

complementar la identificación ARMA de la componente de
variabilidad sistemática regular de la serie, añadiendo al modelo
una componente (de tipo determinista) que recoja los efectos de
los anómalos.
Esa componente determinista puede ser, a futuro, previsible o

imprevisible en función, precisamente, del carácter determinista
o no sistemático del acontecimiento incluido.
La forma que adoptará la componente determinista del análisis

de intervención dependerá del tipo y duración fenómeno a
incorporar en el modelo.
En ocasiones se tratará de series completas de tiempo en otras de

meras variables dummy pensadas para capturar algún
acontecimiento puntual.
Así, por ejemplo, en el caso del modelamiento de datos atípicos
(outliers), suelen distinguirse algunos perfiles habituales (se
muestran sólo algunos ejemplos de los diversosperfiles que
podrían imaginarse):
Impulso: El acontecimiento es puramente Escalón: Se produce un cambio de nivel

puntual afectando a una única (media) en la serie a partir de un
observación. determinado acontecimiento.

20 40
35
10
30
0
25
-10 20
-20 15
10
-30
5
-40
0
-50 -5
1 14 27 40 53 66 79 92 105 118 131 144 157 170 183 196 209 222 235 248 261 274 287 300 313 326 339 352 365 378 391 404 417 430 443 456 469 482 495 1 14 27 40 53 66 79 92 105 118 131 144 157 170 183 196 209 222 235 248 261 274 287 300 313 326 339 352 365 378 391 404 417 430 443 456 469 482 495
Meseta: Una variante del atípico de Tendencia (o rampa): El acontecimiento

escalón pero de duración determinada impacta progresivamente en la serie
40 generando una tendencia determinista.
35 40
30 35
30
25
25
20
20
15
15
10 10
5 5
0
0
-5
-5
1 14 27 40 53 66 79 92 105 118 131 144 157 170 183 196 209 222 235 248 261 274 287 300 313 326 339 352 365 378 391 404 417 430 443 456 469 482 495
-10
1 14 27 40 53 66 79 92 105 118 131 144 157 170 183 196 209 222 235 248 261 274 287 300 313 326 339 352 365 378 391 404 417 430 443 456 469 482 495
Los distintos acontecimientos que requieren análisis de

intervención pueden ser conocidos previamente por el analista
por lo que su detección técnica no es necesaria.
Sin embargo, la exploración puramente técnica de la serie en

busca de datos atípicos puede ser también importante por cuanto
algunos fenómenos que impactan en la serie pueden no ser
conocidos a priori (bien por falta de atención o estudio del
analista, bien por tratarse de cuestiones particularmente raras e
inexplicables incluso a posteriori).
En este sentido, muchos programas con módulos específicos de

análisis de series temporales (TRAMO-SEATS) ofrecen

mecanismos de detección y caracterización de datos atípicos que

complementan las ideas a priori del analista.
BIBLIOGRAFÍA
1 Wooldridge, Jeffrey M. (2003).Econometric Analysis of
Cross Section and Panel Data. MIT Press.
2 Kalman, R.E., A New Approach to Linear Filtering and
Prediction Problems, Trans. ASME,J. Basic Engineering,
vol 82, March 1960, pp 94-35.
3 Hamilton, J.D. (1994) “Time Series Analysis”, Princeton
University Press.
4 Amemiya T.(1985), Advanced Econometrics. Harvard
University Press.
5 Greene W. (1997), Econometric Analysis. Prentice Hall,
tercera edición.
6 White, H. (1984), Asymptotic Theory for
Econometricians. Academic Press
7 Kydland, Finn y Prescott, Edward. (1990). "Business
Cycles: Real Facts and a Monetary Myth". En: Quarterly
Review. Federal Reserve Bank of Minneapolis.
Primavera. P.3-18.

ANALISIS DE SERIES DE TIEMPO

MULTIVARIADA
VECTORES AUTOREGRESIVOS (VAR)

La aplicación de vectores autoregresivos (VAR) modela las
interacciones simultáneas entre un grupo de variables. Un VAR
es un modelo de ecuaciones simultáneas formado por un sistema
de ecuaciones de forma reducida sin restringir41. En un modelo
vectorial autoregresivo de primer orden, VAR(1), las variables
explicativas de cada ecuación son una constante, más un rezago
de cada una de las variables del modelo. Si el modelo pretende
explicar el comportamiento temporal de 3 variables, por
41Ecuaciones de forma reducida indica que los valores contemporáneos de las variables del modelo no aparecen como variables explicativas en
ninguna de las ecuaciones. El conjunto de variables explicativas de cada ecuación está constituido por un bloque de rezagos de cada una de las
variables del modelo. Las ecuaciones no restringidas implica que en cada una de ellas exsite el mismo grupo de variables explicativas.

ejemplo, habría 3 variables explicativas, más una constante en

cada ecuación, para un total de 12 coeficientes a estimar,
siguiendo la formula n+np. Como puede verse, todas las
variables son tratadas simétricamente, siendo explicadas por su
pasado. Pueden incluirse también, como variables explicativas,
algunas de naturaleza determinista, como tendencias
temporales, variables dummy estacionales, que sirve para llevar
a cabo una análisis de intervención en el sistema. Por último,
podría incluirse como explicativa una variable, incluso en valor
contemporáneo, que pueda considerarse exógena respecto a las
variables que integran el modelo VAR.
El modelo VAR es útil cuando existe evidencia de simultaneidad

entre un grupo de variables y la posibilidad de que sus
relaciones se transmitan a lo largo de un determinado número
de períodos. Al no imponer ninguna restricción sobre la versión
estructural del modelo este incurre en errores de especificación
que son solucionados imponiendo restricciones. De hecho, la
principal motivación detrás de los modelos VAR es la dificultad
en identificar variables como exógenas42 como se hace necesario
en el proceso de identificacion y estimación en un modelo de
ecuaciones simultáneas. En un modelo VAR todas las variables se
tratan de igual modo, el modelo tienen tantas ecuaciones como
variables, y los valores rezagados de todas las ecuaciones son
variables explicativas en todas las ecuaciones.
Una vez estimado el modelo, puede procederse a excluir algunas

variables explicativas, en función de su significancia estadística.
42 La defincion de exogeneidad estadística se expondrá con mas detalle en el documento siguiendo a Sims (1980)

Si se mantiene el mismo conjunto de variables explicativas en

todas las ecuaciones, la estimación por mínimos cuadrados
ordinarios (OLS) ecuación por ecuación es eficiente. Sin
embargo, la presencia de bloques de rezagos como variables
explicativas hace que la colinealidad entre variables explicativas
sea relevante, lo que hace perder precisión en la estimación del
modelo y reduce los valores numéricos de los estadísticos tipo t
de Student. En un modelo VAR estimado no tiene sentido tratar
de interpretar los signos y las magnitudes de los coeficientes
individuales. Por el contrario, hay que utlizar estadísticos
globales, que traten de resumir con carácter agregado la
influencia de unas variables sobre otras que incluye estadísticos
tipo F para el contraste de significancia de un bloque de rezagos
de una determinada variable, contrastes de causalidad, funciones
de impulso respuesta y descomposiciones de la varianza del
error.
EL MODELO VAR
En el caso más simple, con sólo dos variables y un rezago, el
modelo VAR(1) puede ser expresado como:
o, en forma matricial,
Donde los términos de error satisfacen las siguientes

propiedades:

En el modelo VAR anterior, valores negativos de β12 y β21 tienden

a inducir correlación negativa entre y1t e y2t si bien no la
garantizan. Una innovacion inesperada en y2t, en la forma de un
valor no nulo de la innovación u2t, además de afectar a y2t, influye
sobre y1t, a través de de la correlación entre las innovaciones de
ambas variables. En general, una sorpresa en y2t vendrá
acompañada de un valor no nulo de la innovación u1t, salvo en el
caso excepcional en que ςu1u2=0. Estos efectos se propagan en el
tiempo debido a la presencia de los valores rezagados como
variables explicativas. En general, un modelo VAR en términos
de sus rezagos anteriores puede ser expresado como:
Donde Yt es un vector columna nx1, K es el orden del modelo

VAR, o número de rezagos en cada ecuación, y ut es un vector
nx1 de innovaciones sin autocorrelación, con la propiedad que
var(ut)=Σ constante. El elemento (i,j) en la matriz As, 1≤s≤K
mide el efecto directo de un cambio en Yi en el instante t sobre
las variables explicativas al cabo de s períodos, Yj,t+s. El elemento
i-ésimo en ut es el componente de Yit que no puede ser previsto
utilizando el pasado de las variables que integran el vector Yt.
UN MODELO ESTRUCTURAL
Es útil interpretar el modelo VAR como una forma reducida de
un modelo estructural,

Donde y1t, y2t son variables estacionarias, y ε1t, ε2t son

innovaciones, procesos ruido blanco con valor esperado cero y
varianzas ς2ε1, ς2ε2. Este es un modelo de ecuaciones simultáneas
con sus dos variables endógenas. Una innovación en y2t, en la
forma de un valor no nulo de la innovación estructural ε2t, afecta
directamente a y2t, pero también influye sobre y1t a través de la
presencia de y2t como variable explicativa en la primera
ecuación. Este efecto se propaga en el tiempo debido a la
presencia de los valores rezagados. Es natural pensar que los
términos de error del modelo estructural estan no
correlacionados, puesto que la correlación contemporánea entre
y1t e y2t ya está capturada por la presencia de sus valores
contemporáneos como variables explicativas en ambas
ecuaciones. Por tanto, suponemos que Cov(ε1t,ε2t)=ςε1,ε2=0. De
forma resumida, la representación matricial del modelo
estructural puede escribirse,
Con
Y si suponemos que la matriz B tiene inversa, lo cual requiere

que α11α21≠ 1, tenemos,
Donde

Con lo que supone la forma reducida del modelo VAR. Si los

términos de error del modelo estructural eran ruido blanco,
también los términos de error del modelo VAR tendrán
estructura ruido blanco. Sin embargo, las innovaciones del VAR
estarán correlacionadas entre sí, puesto que,
De modo que, si los términos de error del modelo estructural

están no correlacionados, ςε1ε2=0, las perturbaciones del modelo
VAR tendrán correlación no nula. Es importante examinar las
relaciones entre los parámetros de ambos modelos, que son, en
el caso del modelo VAR(1), las 6 relaciones entre los parámetros
β y los parámetros α que aparecen en (3.3), más las 3 relaciones
entre los elementos de las respectivas matrices de covarianzas,
IDENTIFICACIÓN EN UN MODELO VAR

La estimación de un modelo VAR(1) en forma reducida
proporciona valores numéricos para 10 parámetros, las dos
constantes más los cuatro coeficientes en las variables rezagadas
y las varianzas y covarianza del vector ut. El modelo estructural
consta de 11 parámetros, las dos constantes, los 6 coeficientes, y
los 3 parámetros de la matriz de covarianzas del vector εt, por lo
que no es posible recuperar los parámetros del modelo
estructural. En modelo 1 se prueba que el modelo estructural
recursivo bivariante de orden 1, de la forma:

Modelo 1. Suponga un modelo VAR con las siguientes

caracterisiticas:
El modelo anterior está exactamente identificado, es decir, sus

parámetros pueden recuperarse de forma única a partir de las
estimaciones del modelo VAR en forma reducida. Este es un
modelo que identifica todos los parámetros del modelo
estructural a partir de las estimaciones de la forma reducida,
introduciendo la hipótesis de que la variable y1t afecta a la
variable y2t únicamente con un rezago, mientras que la dirección
de influencia de y2t hacia y1t se presenta dentro del mismo
período. No sólo se pueden recuperar estimaciones de todos los
parámetros que aparecen en el modelo estructural, también las
series de tiempo de los residuos del modelo estructural pueden
recuperarse a partir de los residuos obtenidos en la estimación
del modelo VAR, mediante, el hecho que:
Modelo 2. Supongamos un modelo con dos restricciones con un

modelo VAR(1) de la forma:
Implicaría que la variable y1t no afecta ni de forma

contemporánea, ni rezagada a la variable y2t, por lo que ésta
puede considerarse exógena respecto de y1t. Examinando los
modelos anteriores, se puede observar que las dos restricciones
impuestas, α21=α22=0 implica que en el modelo VAR, β21=0,

restricción que puede contrastarse utilizando el estadístico t-

student sobre dicho coeficiente. Al incluirse una restricción más,
el modelo estructural está ahora sobreidentificado, es decir, hay
más de una manera de recuperar valores numéricos para los
parámetros de dicho modelo, a partir de las estimaciones
numéricas del modelo VAR.
Modelo 3. Ahora se analizara el caso con en modelo 3, Más

dificultades plantean el modelo,
Este modelo también se encuentra sobreidentificado, con varias

maneras de recuperar las estimaciones de los parámetros del
modelo estructural. Sin embargo, en este caso no hay ninguna
restricción sencilla contrastable que permita evaluar esta
representación ya que las que pertenecen al modelo estructural
introducen tipos no lineales para verificar los parámetros del
modelo VAR en forma reducida. Una posible estrategia consiste
en estimar el modelo VAR sujeto a restricciones no lineales
generadas por las condiciones de sobreidentificación. Al obtener
innovaciones estructurales a partir de las del modelo VAR en
forma reducida equivale a la posibilidad de disponer de valores
numéricos para los elementos de la matriz B, puesto que εt=But.
Esta matriz tiene unos en la diagonal principal, pero no es
simétrica, por lo que tiene k(k 1) parámetros por determinar.
Además, se debe contar con las k varianzas de las innovaciones

estructurales que sus covarianzas son nulas. Así, tenemos k2
parámetros del modelo estructural, que se necesitan recuperar a

partir de los (k2+k)/2 elementos de Var(ut). es necesario por

tanto, (k2 k)/2 restricciones adicionales, si se desea tener
alguna posibilidad de identificar el modelo. En el caso de un
modelo VAR(1) con 2 variables, se debe imponer (22 2)/2=1
restricción para identificar el sistema exactamente. En un
modelo con 3 variables se necesita imponer (32 3)/2=3
restricciones. El número de restricciones necesarias para
identificar el modelo es independiente del orden del modelo
VAR. Si se imponen condiciones de recursividad en un modelo
con 3 variables, tenemos,
Que implica imponer 3 restricciones sobre los elementos de la

matriz B 1, por lo que el modelo estaría, en principio,
exactamente identificado. La recursividad del sistema equivale a
suponer que la matriz B es triangular inferior o superior, lo que
genera exactamente k2 k restricciones, precisamente el número
que se precisa para lograr la identificación exacta del modelo.
Hay conjuntos alternativos de restricciones, como,
Que también lograría la identificación exacta del modelo. La

representación inversa es,
Otro tipo de restricciones consistiría en imponer un

determinado valor numérico para una respuesta. Por ejemplo,

podemos pensar que la innovación ε2t tiene un efecto unitario

sobre y1t, es decir, como
Esto equivale a suponer que α11= 1. Una posibilidad diferente

consistiría en identificar el modelo estructural imponiendo
restricciones sobre la matriz de covarianzas, ya sea imputando
un valor numérico para la varianza de ε1t, la varianza de ε2t, o la
covarianza entre ambos. Este tipo de restricciones conduce a
soluciones múltiples, por lo que el modelo estructural está en tal
caso, sobreidentificado. Por último, puede conseguirse la
identificación imponiendo restricciones razonables entre los
valores numéricos de los parámetros estructurales. Por ejemplo,
puede imponerse una condición de simetría, α11=α21, o cualquier
otra que resulte adecuada en la aplicación que se analiza. En el
caso del modelo de 2 variables está condición de simetría de
efectos conduce asimismo a una condición de igualdad de
varianzas para las innovaciones estructurales, lo que no ocurre
en modelos con más de 2 variables.
IDENTIFICACIÓN Y RESPUESTAS DEL SISTEMA

Otra manera de entender los problemas de identificación es la
siguiente suponga que, sin considerar el posible modelo
estructural, hemos estimado un modelo VAR(1) , en el que es
necesario calcular cómo reacciona cada variable ante una
innovación en una de ellas, lo que luego denominaremos como
funciones impulso respuesta. Sería poco adecuado, sin embargo,
calcular las respuestas a un impulso en una de las innovaciones,
u1, por ejemplo, sin que u2 experimente ningún impulso, pues
ambas innovaciones están correlacionadas entre sí. Por tanto,

hemos de transformar primero el modelo estimado en otro

modelo en que los términos de error, siendo innovaciones, estén
no correlacionados entre sí. Para ello, podríamos seguir una
estrategia similar a la discutida más arriba, proyectando por
mínimos cuadrados una de las dos innovaciones, u1t, por
ejemplo, sobre u2t,
Cuyo residuo ât, definido por ât=u1t ρ̂tu2t, estaría no

correlacionado, por construcción, con u2t. Premultiplicando el
modelo (2.1) por la matriz
Tendríamos,
Un modelo en el que la variable y2 tiene efectos contemporáneos

sobre y1. En este modelo, tiene sentido preguntarse por las
respuestas de ambas variables a una perturbación en ât o en u2t,
puesto que ambos están no correlacionados, por construcción.
En respuesta a un impulso en u2t, ambas variables reaccionarán
en el mismo instante, y también en períodos siguientes, hasta
que dichas respuestas decaigan a cero. En cambio, en respuesta a
una perturbación en ât, y1 responderá en el mismo período y
períodos siguientes, mientras que y2 sólo responderá en
períodos siguientes al de la perturbación. Este es el modelo
estructural exactamente identificado (4.1) que antes
consideramos. Una extensión a este procedimiento se basa en el
hecho conocido de que dada una matriz simétrica, definida
positiva, como es la matriz de covarianzas Σ, existe una única

matriz triangular inferior A, con unos en su diagonal principal, y

una única matriz diagonal D, con elementos positivos a lo largo
de su diagonal principal, tal que Σ admite una descomposición,
Si consideramos la transformación lineal del vector de error

precisamente con esta matriz, εt=A-1ut, tenemos,
Por lo que, a diferencia de los componentes del vector u, los

elementos del vector ε están no correlacionados entre sí.
Deshaciendo la transformación, tenemos,
Por lo que,
Si los coeficientes a1k, a2k, ..., ak 1,k se obtienen mediante una

estimación de mínimos cuadrados ordinarios de la ecuación
(4.2), que tiene a ukt como variable dependiente, y a ε1t, ε2t, ...,
εk 1,t como variables explicativas,
Entonces tendremos, por construcción,

E(εkt.ε1t)=E(εkt.ε2t)=...=E(εkt.εk 1,t)=0. Dicho de otra manera, si
estimamos regresiones de cada innovación uit sobre todas las
que le preceden dentro del vector u y nos quedamos con el
residuo de dicha regresión, llamémosle εit, tendremos un
componente de uit que, por construcción, estará no

correlacionado con u1t,u2t,...,ui 1,t. Nótese que los espacios

generados por las variables u1t, u2t, ..., ui 1,t y por las variables ε1t,
ε2t, ..., εi 1,t son los mismos, es decir, que ambos conjuntos de
variables contienen la misma información. La única diferencia
entre ambos es que las variables u1t, u2t,...,ui 1,t tiene
correlaciones no nulas, mientras que las variables ε1t, ε2t,...,εi 1,t
están no correlacionadas entre sí.
CONDICIONES DE ESTABILIDAD
Si resolvemos recursivamente el modelo VAR(1) tenemos,
Como puede verse, para la estabilidad del sistema es preciso que

las sucesivas potencias de la matriz A1 decaigan hacia cero, pues
de lo contrario, el futuro lejano tendría efectos sobre el presente,
en contra de la convergencia temporal de efectos inherente a
todo proceso estacionario. Esto requiere que las raíces del
polinomio característico de dicha matriz | Ik A1λ |=0, decrezcan
fuera del círculo unitario, condición análoga a la que se tiene
para un proceso autoregresivo univariante. Cuando se cumplen
las condiciones de estabilidad, tomando límites, tenemos,
Donde µ=E(Y) es el vector de valores esperados, que viene dado

por,
Además,

En el caso bivariante, µ1=E(u1t), µ2=E(u2t), con
Siendo Δ=(1 β11)(1 β22) β12β21, y
VAR Y MODELOS UNIVARIANTES

Si se parte de un VAR(1), como (2.1), escrito en función del
operador de rezagos de la forma:
Se tiene que
Reemplazandolo en la ecuación anterior se tiene que:
Finalmente,
Que es un proceso ARMA(2,1).
ESTIMACIÓN DE UN MODELO VAR

En ausencia de restricciones, la estimación por mínimos
cuadrados, ecuación por ecuación, de un modelo VAR produce
estimadores eficientes a pesar de que ignora la información
contenida en la matriz de covarianzas de las innovaciones. Junto
con el hecho de que colinealidad entre las variables explicativas
no permite ser estricto en la interpretación de los estadísticos t,

sugiere que es preferible mantener todas las variables

explicativas iniciales en el modelo.
El estimador es consistente siempre que los términos de error

sean innovaciones, es decir, procesos ruido blanco, pues en tal
caso, estarán no correlacionados con las variables explicativas.
Por tanto, la ausencia de autocorrelación en los términos de
error de todas las ecuaciones es muy importante. Tomando
ambos hechos conjuntamente, es fácil concluir que debe
incluirse en cada ecuación como variable explicativa, el menor
número de rezagos que permita eliminar la autocorrelación
residual en todas las ecuaciones. Existen contrastes del tipo de
razón de verosimilitud sobre el número de rezagos a incluir en el
modelo.
Un modelo VAR no se estima para hacer inferencia acerca de

coeficientes de variables individuales. Precisamente la baja
precisión en su estimación no aconseja cualquier análisis de
coeficientes individuales. Tiene mucho sentido, por el contrario,
el análisis conjunto de los coeficientes asociados a un bloque de
rezagos en una determinada ecuación. Bajo hipótesis de
normalidad del vector de innovaciones, el logaritmo de la
función de verosimilitud es,
Siendo ̂ la matriz de covarianzas estimada del vector de

innovaciones u,
Una matriz simétrica, definida positiva, por construcción.

CONTRASTACIÓN DE HIPÓTESIS Y CONTRASTES DE

ESPECIFICACIÓN
Uno de los contrates más habituales en un modelo VAR es el
relativo al número de rezagos que deben incluirse como
variables explicativas. Es importante dentro de este análisis
tener en cuenta que en cada ecuación entra un bloque de rezagos
de todas las variables del vector y. Si, por ejemplo, trabajamos
con 4 variables y establecemos un orden 3 para el VAR,
tendremos 12 variables explicativas, más el término constante,
en cada ecuación, con un total de 52 coeficientes en el sistema de
ecuaciones, más parámetros en la matriz de varianzas-
covarianzas de las innovaciones. El número de parámetros a
estimar crece rápidamente con el número de rezagos. Si pasamos
de 3 a 4 rezagos, tendríamos 68 coeficientes más los 10
parámetros de la matriz de covarianzas. Por eso ya comentamos
con anterioridad que debe incluirse en cada ecuación el menor
número de rezagos que permita eliminar la autocorrelación del
término de error de todas ellas. Existe un contraste formal de
significancia de un conjunto de rezagos, que utiliza un estadístico
de razón de verosimilitudes,
Donde |ΣR|,|ΣSR| denotan los determinantes de las matrices de

covarianzas de los modelos restringido y sin restringir,
respectivamente. Si queremos contrastar si un cuarto retardo es
significativo, deberíamos estimar el modelo con 3 y con 4
rezagos, y construir el estadístico anterior, que tiene una
distribución chi-cuadrado con un número de grados de libertad

igual al número de restricciones que se contrastan. Al pasar del

modelo con 3 rezagos al modelo con 4 rezagos, hay que añadir
un rezago más de cada variable en cada ecuación, por lo que el
número de restricciones es igual al incremento en el número de
rezagos, por el número de variables al cuadrado.
Sin embargo, no puede olvidarse que la elección del número de

rezagos debe tener en cuenta la eliminación de autocorrelación
residual. Los estadísticos anteriores no examinan este
importante aspecto y, por tanto, no deben utilizarse por sí sólos.
En consecuencia, una buena estrategia es comenzar de un
número reducido de rezagos, y examinar las funciones de
autocorrelación de los residuos, junto con estadísticos del tipo
Ljung-Box o Box-Pierce para contrastar la posible existencia de
autocorrelación, lo que requeriría aumentar el número de
rezagos y con ello, el número de parámetros a estimar.
Lamentablemente, sin embargo, es muy poco probable que

pueda eliminarse la autocorrelación residual con menos de 4
rezagos cuando se trabaja con datos trimestrales, o con menos
de 12 rezagos, cuando se trabaja con datos mensuales. Una
estrategia distinta para encontrar el orden del modelo VAR
consiste en examinar los denominados criterios de Información,
que son determinadas correcciones sobre el valor muestral de la
función logaritmo de Verosimilitud. Los más conocidos son los
de Akaike y Schwartz,

Siendo n= k(d+pk) el número de parámetros estimados en el

modelo VAR. El parametro d es el número de variables exógenas,
p el orden del VAR, y k el número de variables. En ocasiones, se
ignora el término constante, y los criterios anteriores se
aproximan por,
Siendo N el número de parámetros que se estima, y Σ la matriz

de covarianzas de los residuos. Estos estadísticos se calculan
para una sucesión de modelos con distinto número de rezagos y
se comparan, seleccionando aquél modelo que produce un
menor valor del estadístico. Un estadístico de razón de
verosimilitudes como el antes descrito puede utilizarse para
contrastar cualquier tipo de hipótesis, y no sólo la significancia
de grupos de variables, siempre que el modelo restringido esté
anidado dentro del modelo sin restringir.
CONTRASTES DE CAUSALIDAD
Un contraste especialmente interesante se conoce como de
causalidad en el sentido de Granger. Supongamos que estamos
explicando el comportamiento de una variable y utilizando su
propio pasado. Se dice que una variable z no causa a la variable y
si al añadir el pasado de z a la ecuación anterior no añade
capacidad explicativa. El contraste consiste en analizar la
significancia estadística del bloque de rezagos de z en la ecuación
mencionada, y la hipótesis nula es que la variable z no causa, en
el sentido de Granger, a la variable y.
La propuesta inicial de Granger hacía referencia a que la

predicción de y basada en el pasado de las dos variables y y z, sea

estrictamente mejor (es decir, con menos error) que la

predicción de y basada exclusivamente en su propio pasado. Así,
se diría que la variable z no causa a la variable y si se tiene,
Sin embargo, esta propiedad no suele analizarse; se contrasta

exclusivamente la significancia del bloque de rezagos de z en la
ecuación de y, si dicho bloque de variables es significativo,
contribuirá a mejorar la predicción de la variable y. Esta manera
de proceder se basa en que, analíticamente, es evidente que la
presencia del bloque de rezagos de z en la ecuación de y hace
que el valor esperado condicionado de y en el pasado de las dos
variables, y y z, sea distinta del valor esperado condicionado de y
en su propio pasado exclusivamente. Si bien esta propiedad
teórica no siempre se manifiesta en resultados prácticos, y es
bien sabido que un buen ajuste no necesariamente conduce a
una buena predicción.
El contraste puede llevarse a cabo utilizando el estadístico F

habitual en el contraste de significancia de un bloque de
variables, o mediante el estadístico de razón de verosimilitudes.
Con más de dos variables, existen posibles contrastes de
causalidad y en algunos casos, el estadístico de razón de
verosimilitudes puede resultar más útil que el estadístico F, al
permitir contrastar la exclusión de algún bloque de rezagos en
varias ecuaciones simultáneamente. Asimismo, el contraste de
causalidad o, lo que es lo mismo, el contraste de significancia de
un bloque de rezagos puede llevarse a cabo mediante un
estadístico de razón de verosimilitudes, en el que el modelo
restringido excluye un grupo de rezagos de una ecuación.

REPRESENTACIÓN MA DE UN MODELO VAR

Todo modelo VAR admite una representación de medias móviles
(VMA),
La recursividad de Yt s en (2.2). La representación VMA puede

obtenerse asimismo en función de las innovaciones
estructurales. Esta representación permite resumir las
propiedades de las relaciones cruzadas entre las variables que
componen el vector yt, que queda representado como una
combinación lineal de valores actuales y pasados del vector de
innovaciones. La simultaneidad vuelve a quedar palpable en
sentido que cualquier innovación uit afecta a todas las variables
Yj,t+s. Si volvemos al modelo de dos variables de orden 1,
tenemos,
Que, como vimos, puede escribirse,
y, en términos de las innovaciones del modelo estructural,
Donde,

Existe un procedimiento recursivo para obtener las matrices de

coeficientes de la representación de medias móviles,que utiliza
la relación,
De modo que tenemos,
Que conduce a,
Que pueden utilizarse para calcular recursivamente las matrices

de coeficientes de la representación de medias móviles.
FUNCIONES DE IMPULSO RESPUESTA

La ecuación (9.1) es la representación de medias móviles del
modelo VAR(1) bivariante. Los coeficientes de la sucesión de
matrices Φ(s) representan el impacto que, a lo largo del tiempo,
tienen sobre las dos variables del modelo y1t e y2t una
perturbación en las innovaciones ε1t, ε2t. Por ejemplo, los
coeficientes φ12(s) reflejan el impacto que en los distintos
períodos s, s≥1, tiene sobre y1 una perturbación del tipo impulso
en ε2. Es decir, consideramos que ε2 está en su valor de
equilibrio, cero, excepto en un período, en que toma un valor
igual a 1; como reaccionan, y dicha respuesta se extiende a
varios períodos, hasta que las sucesión φ12(s) se hace cero. La
sucesión de valores numéricos {φ12(s)} se conoce como la
respuesta de y1 a un impulso en ε2. El efecto, multiplicador o
respuesta a largo plazo es la suma ∑ ( ). Esta suma existe

si las variables son estacionarias, pues en tal caso ha de

cumplirse |∑ ( )|<∞. El problema al que nos enfrentamos
al tratar de calcular las funciones de impulso respuesta es que, si
bien contamos con estimaciones numéricas de los parámetros βij
con i,j=1,2, desconocemos los parámetros α11 y α21 que aparecen
en (9.2). En el modelo recursivo que antes vimos, se tiene α21=0.
Además, se prueba en el ejercicio 1 que en este modelo el
parámetro α11 puede recuperarse mediante ̂ 1=ςu1u2/ς2u2. En
ese caso, u2t=ε2t y u1t = ε1t+α11ε2t=ε1t+α11u2t.
Las funciones de impulso respuesta sólo puden obtenerse bajo

restricciones de este tipo. La que hemos descrito es la más
habitual, y equivale a admitir que una de las dos variables afecta
a la otra sólo con rezago, si bien permitimos que en la otra
dirección haya respuesta contemporánea. Estaremos
caracterizando las respuestas del sistema a un impulso en cada
una de las innovaciones del modelo estructural o, lo que es lo
mismo, en la innovación u2t y en u1t α11u2t. Esta última es la
componente de u1t que no está explicada por u2t o, si se prefiere,
la componente de u1t que no está correlacionada con u2t. En
efecto, consecuencia, tanto y1 como y2
Que está incorrelacionado con ε2t. De hecho, si α21=0, entonces

u1t α11u2t es, precisamente, igual a la perturbación estructural
ε1t. Como hemos visto, las funciones de impulso respuesta sólo
pueden obtenerse después de haber incluido restricciones
acerca del rezago con que unas variables inciden sobre otras.
Esta elección condiciona bastante, en general, el aspecto de las
funciones de respuesta, excepto si las innovaciones del modelo

VAR, u1t y u2t están no correlacionadas, en cuyo caso, coinciden

con las innovaciones del modelo estructural.
Las funciones impulso respuesta calcula el impacto que, en cada

instante futuro tendría, sobre cada variable del modelo, un
impulso en una determinada innovación, y ello puede repetirse
para las innovaciones en cada una de las ecuaciones. Por eso,
suele representarse en varios gráficos, cada uno de los cuales
incluye las respuestas a través del tiempo, de una determinada
variable a un impulso en cada una de las innovaciones. De este
modo, se tiene tantos gráficos como variables en el modelo, cada
uno de ellos conteniendo tantas curvas como variables.
Alternativamente, pueden construirse gráficos, cada uno de los
cuales representa la respuesta temporal de todas las variables
del modelo a un impulso en una de las innovaciones.
Nuevamente hay tantos gráficos como variables, cada uno de
ellos conteniendo tantas curvas como variables. El inconveniente
del segundo tipo de representación es que las respuestas de las
distintas variables dependen de sus respectivas volatilidades,
por lo que la comparación de las respuestas de dos variables
diferentes a un determinado impulso no permite decir cuál de
las variables responde más.
Recordando que la desviación típica es una medida adecuada del

tamaño de toda variable aleatoria de esperanza nula, debemos
dividir las respuestas de cada variable por su desviación típica
antes de representarlas en un mismo gráfico. Tampoco un
impulso de tamaño unidad tiene el mismo significado en cada
variable, por lo que conviene calcular las respuestas
normalizadas a un impulso de tamaño igual a una desviación

típica en cada innovación. Consideremos un VAR(1) sin

constante (es decir, las variables tiene esperanza igual a cero),
Supongamos que antes del instante t0 las innovaciones toman un

valor cero en todos los períodos, las variables están en sus
niveles de equilibrio, y=y =0. En dicho instante, la innovación
u1t0 toma un valor unitario, u1t0=1, y vuelve a ser cero en los
períodos siguientes. ¿Cuál es la respuesta del sistema? En el
instante t0,
Por lo que y2t0 e y3t0 estarán en sus niveles de equilibrio,

y2=y 2=0, y3=y 3=0, mientras que y1t0=y 1+1= 1.
Posteriormente,
Que van proporcionando la primera columna de las matrices que

obtenemos calculando las sucesivas potencias de la matriz de
coeficientes A1. De este modo, tendríamos las respuestas del
sistema a sorpresas en las innovaciones del modelo VAR. Si

queremos calcular las respuestas a innovaciones estructurales,

debemos utilizar la representación,
y examinar la sucesión definida en (9.2).
DESCOMPOSICIÓN DE LA VARIANZA
Si utilizamos la representación MA para obtener predicciones de
las variables y1, y2, tenemos,
Por lo que el error de predicción es,
Cuya varianza es,
Que, inevitablemente, aumentan con el horizonte de predicción.

La expresión anterior nos permite descomponer la varianza del
error de predicción en dos fuentes, según tenga a ε1 o a ε2 como
causa. Con ello, estamos examinando el inevitable error de
predicción en cada variable a un determinado horizonte, y
atribuyéndolo a la incertidumbre acerca de la evolución futura
en cada una de las variables. Es, por tanto, una manera de hacer
inferencia acerca de las relaciones intertemporales entre la
variables que componen el vector y. Para ello, se expresan los
componentes de cada varianza en términos porcentuales,
Si una variable es prácticamente exógena respecto a las demás,

entonces explicará casi el 100% de la varianza de su error de

predicción a todos los horizontes posibles. Esto es lo más

habitual a horizontes cortos, mientras que a horizontes largos,
otras variables pueden ir explicando un cierto porcentaje de la
varianza del error de predicción. La descomposición de la
varianza está sujeta al mismo problema de identificación que
vimos antes para las funciones de impulso respuesta, siendo
necesario introducir alguna restricción como las consideradas en
la sección anterior.
Si la correlación entre las innovaciones del VAR es muy pequeña,

el ordenamiento que se haga de las variables del vector y o, lo
que es lo mismo, las restricciones de exclusión de valores
contemporáneos que se introduzcan serán irrelevantes. Sin
embargo, tales restricciones condicionan de manera significativa
la descomposición de la varianza resultante. De hecho, con las
restricciones de la sección anterior, ε2 explica el 100% de la
varianza del error de predicción un período hacia adelante en la
variable y2. Si, en vez de dicha restricción, excluyéramos y2t de la
primera ecuación, entonces ε1 explicaría el 100% de la varianza
del error de predicción un período hacia adelante en la variable
y1.
IDENTIFICACIÓN RECURSIVA: LA DESCOMPOSICIÓN DE

CHOLESKY
Para eliminar la correlación contemporánea existente entre las
innovaciones ut de distintas ecuaciones, podemos transformar el
vector ut en un vector et mediante la descomposición de
Cholesky de la matriz de covarianzas Σ, Σ=Var(ut). Esta
descomposición nos proporciona una matriz triangular inferior

G tal que GGt=Σ. Como consecuencia, G 1ΣG 1t = I, y el sistema

VAR puede escribirse,
Entonces
El efecto de eit sobre Yj,t+s viene medido por el elemento (j,i) de la

matriz ̃ s. La sucesión de dichos elementos, para 1≤s≤∞
proporciona la respuesta dinámica de la variable Yj a una
innovación en la variable Yi. Esto se conoce como función de
respuesta de Yj a un impulso no esperado en Yi. Como eit es el
error de pronostico un período hacia adelante en Yit, la
representación VMA ortogonalizada, por la descomposición de
cholesky, nos permite calcular el error de proostico de Yit, m-
períodos hacia adelante, en el instante t m+1, a través del
elemento i-ésimo en le vector Pm 1 s=0 Aeset s. Su varianza, el
elemento i-ésimo en la diagonal de ∑ ̃ ̃ , puede escribirse,
∑ ∑ ̃ ( , ) ̃ ( , ), siendo ̃ ( , ) ̃ el elemento (i,j) de la
matriz element ̃ . Al aumentar m, a partir de m=1, esta
descomposición de la varianza del error de predicción de Yit+m
entre las k variables del vector Yt se conoce como
descomposición de la varianza de Yit. Proporciona una
estimación de la relevancia de cada variable del sistema para
explicar los errores de predicción de las fluctuaciones futuras en
Yit.
BIBLIOGRAFÍA
1 Wooldridge, Jeffrey M. (2003).Econometric Analysis of
Cross Section and Panel Data. MIT Press.

2 Kalman, R.E., A New Approach to Linear Filtering and

Prediction Problems, Trans. ASME,J. Basic Engineering,
vol 82, March 1960, pp 94-35.
3 Hamilton, J.D. (1994) “Time Series Analysis”, Princeton
University Press.
4 Amemiya T.(1985), Advanced Econometrics. Harvard
University Press.
5 Greene W. (1997), Econometric Analysis. Prentice Hall,
tercera edición.
6 White, H. (1984), Asymptotic Theory for
Econometricians. Academic Press
7 Kydland, Finn y Prescott, Edward. (1990). "Business
Cycles: Real Facts and a Monetary Myth". En: Quarterly
Review. Federal Reserve Bank of Minneapolis.
Primavera. P.3-18.

0 Notas de Clase PDF

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

0 Notas de Clase PDF

Transféré par

Droits d'auteur :

Formats disponibles

NOTAS DE CLASE:

Universidad Nacional de Colombia

Este documento es un borrador

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

PRUEBAS DE AUTOCORRELACION: LJUNG-BOX......................................................................................................... 271

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

PARTE I. CONCEPTOS BÁSICOS

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

Se comienza con algunas de las definiciones respecto a

Definición 1. Una sucesión de números no aleatorios

Definición 2. Una sucesión {an|n=1,2,3,….,n+ es acotada, si y solo,

Ejercicio. Suponga las siguientes series:

2. an=(-1)n entonces no es convergente pero es acotada.

3. an=n1/4 entonces an no es convergente ni es acotada.

Serie 1 Serie 2 Serie 3

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

La definición anterior indica que se hace cada vez más

Ejemplo. Supongamos que tenemos una variable aleatoria xn

Es decir, xn converge en probabilidad a cero. A medida que n

Definición 4. Convergencia “casi segura” (almost surely o “a.s”) o

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

Prob{ limn xn( )=x( )} = 1

Esto es, la sucesión {xn} converge a x con probabilidad 1. Esto se

Ejemplo 2. La convergencia fuerte, se observa en los siguientes

Por la ley fuerte de los grandes números.

Es común encontrar notaciones O(1/n) y o(1/n). Se dice

Entonces se dice que xn converge en media cuadrática (quadratic

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

Además, se tiene que plim xn=μ. Este último resultado se basa en

ambos lados de la desigualdad cuando n tenemos:

Lo cual implica que plim xn= , dado que limn n= y lim n  2

=0. La Convergencia en media cuadrática implica convergencia

La media muestral x de cualquier población con media finita y

una población cuya distribución tiene media y varianza finitas

Asumiendo que las variables aleatorias x son independientes e

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

limn Var(x)=0. Por lo tanto, x converge en media cuadrática a

Teorema 1. Con muestreo aleatorio, para cualquier función g(x),

Reglas de la Probabilidad Límite

Ejemplo. Supongamos que la media y varianza muestral del

Matrices. Sea Wn una matriz cuyos elementos son variables

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

Si Xn e Yn son matrices de variables aleatorias, tal que plim Xn=A

plim(XnYn)=AB (regla de la matriz producto)

Reglas para la Distribución Límite. Si y plim yn=c, entonces:

3. Si x  x y g(xn) es una función continua, entonces g ( x )  g ( x)

4. Si plim(xn-yn)=0, entonces xn e yn tienen la misma

Ejemplo. Supongamos una muestra de n observaciones i.i.d.

Bajo ciertas condiciones de regularidad, se tiene que plim s2=ς2

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

Por otra parte, convergencia en distribución no implica

Se tiene que , donde

Es decir, xn converge a una variable aleatoria pero no a una

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

Distribución Asintótica de una Función de una Variable Aleatoria

continua que no depende de n, se tiene que:

Para analizar el caso multivariado, consideremos un vector zn de

que no dependen de n, entonces:

Donde C es una matriz jx k cuya j-ésima fila es el vector de

Consistencia y Normalidad Asintótica de Mínimos Cuadrados

Asumamos que = limn (1/n)XTX=Q, matriz positiva definida e

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

Donde xi es el vector 1xk correspondiente a la i-esima fila de la