Vous êtes sur la page 1sur 72

1

ECONOMETRA APLICADA: STATA 12.0


Guillermo Jopen Snchez
gjopen@pucp.pe
Hiroshi Toma Uza Christian Colonio Cossio Roysenberg Snchez Ballesteros
jtoma@pucp.edu.pe ccolonio@pucp.pe roysenberg.sanchez@pucp.pe
Departamento de Economa
Pontificia Universidad Catlica del Per
Agosto, 2012


RESUMEN
El presente documento tiene como objetivo principal introducir a los estudiantes de la especialidad de
Economa, de Ciencias Sociales, y del lector interesado, al manejo y aplicacin del software estadstico
economtrico Stata 12. Ello, mediante el repaso general y aplicacin de los tpicos principales de estadstica y
econometra bsicos.
Cabe mencionar que el presente documento no pretende sustituir a los cursos de nivel universitario de
Estadstica y Econometra (con nfasis en la especialidad de Economa y Ciencias Sociales en general). Sino
que por el contrario buscar afianzar estos conocimientos, permitiendo un mejor desenvolvimiento en cuanto
al dominio de softwares estadsticoeconomtricos como este. Siendo as que se recomienda la revisin en
paralelo de la bibliografa recomendada; as como de los textos a los que el mismo lector tenga acceso.
ABSTRACT
FALTA ABSTRACT

Clasificacin JEL: A33, C01
Palabras Claves: Manual, Econometra

La realizacin y culminacin del presente documento fue lograda gracias a los invalorables comentarios recibidos de parte de
XXXX y de XXXX, profesores del Departamento de Economa (PUCP). Todos los errores u omisiones son de la entera
responsabilidad de los autores.

Guillermo Jopen Snchez: Asistente de Docencia del Departamento de Economa, y Licenciado de Economa por la Pontificia
Universidad Catlica del Per (Av. Universitaria 1801, San Miguel, Lima 32, Per. Telf. (511) 626-2000, Anexo 4979). Christian
Colonio Cossio, Roysenberg Snchez Ballesteros e Hiroshi Toma Uza: Asistentes de investigacin y estudiantes de la
especialidad de Economa, Facultad de Ciencias Sociales de la Pontificia Universidad Catlica del Per.
2

NDICE DETALLADO
I. Entorno del software Stata 12 ........................................................................................................... 4
1. Aspectos generales ....................................................................................................................... 4
2. Ventanas de trabajo ...................................................................................................................... 5
3. Manejo de Bases de Datos (Data Management) ........................................................................... 6
4. Archivos de instrucciones (DO-files) ......................................................................................... 12
5. Bitcoras de trabajo (Log-files) .................................................................................................. 12
II. Estadstica ....................................................................................................................................... 13
1. Vector aleatorio .......................................................................................................................... 13
2. Distribuciones importantes ......................................................................................................... 14
III. Modelo de Regresin Lineal Clsico Multivariado ........................................................................ 17
1. El Modelo Clsico de Regresin Lineal Multivariado (MRLCK) .............................................. 17
2. Metodologa de MCO y sus propiedades .................................................................................... 17
3. Omisin de variables relevantes ................................................................................................. 19
4. Inclusin de variables irrelevantes .............................................................................................. 20
5. Anlisis de descomposicin de varianza (ANOVA)................................................................... 20
6. Criterios de seleccin entre modelos anidados ........................................................................... 21
7. Inferencia del modelo lineal mltiple ......................................................................................... 22
IV. Levantamiento de Supuestos I ........................................................................................................ 25
1. Multicolinealidad ........................................................................................................................ 25
2. Las variables ficticias o dummy y su interpretacin ................................................................... 25
3. Modelos lineales y no lineales .................................................................................................... 27
V. Levantamiento de Supuestos II ....................................................................................................... 29
1. Perturbaciones no esfricas......................................................................................................... 29
2. Heterocedasticidad...................................................................................................................... 30
3

3. Autocorrelacin .......................................................................................................................... 32
VI. Levantamiento de Supuestos III ...................................................................................................... 36
FALTAN BASE Y EJEMPLOS ............................................................................................................... 36
1. Modelos con Problemas de Endogeneidad ................................................................................. 36
2. Anlisis del problema: causas, deteccin y soluciones ............................................................... 36
3. Estimador de Variables Instrumentales (VI) y Mnimos Cuadrados Dos Etapas (MC2E). Mtodo
de Momentos Generalizados (MGM) .......................................................................................................... 37
VII. Levantamiento de Supuestos IV ..................................................................................................... 40
1. Modelos con Variables Dependientes Limitadas ........................................................................ 40
2. Modelos de Eleccin Binaria y Mltiple: Logit, Probit y extensiones. ...................................... 40
3. Modelos con Datos Censurados y Truncados ............................................................................. 42
4. Modelos de Seleccin. ................................................................................................................ 43
VIII. Series de tiempo .............................................................................................................................. 44
1. Procesos Estocsticos y Estacionariedad .................................................................................... 44
2. Metodologa Box-Jenkins ........................................................................................................... 46
3. Series de Tiempo no Estacionarias ............................................................................................. 49
4. Vectores Autoregresivos (VAR) ................................................................................................. 51
5. Cointegracin y Modelo de Correccin de Errores (VECM) ..................................................... 57
6. Descomposicin de una serie ...................................................................................................... 61
IX. Modelos de Datos de Panel ............................................................................................................. 63
1. Estimacin Agrupada (Pooled Regression) ................................................................................ 64
2. Datos de Panel: Efectos Aleatorios (RE) .................................................................................... 65
3. Datos de Panel: Efectos Fijos (FE) ............................................................................................. 66
4. Datos de Panel Esttico y Extensiones ....................................................................................... 68
5. Modelo Lineal Dinmico de Datos de Panel: Mtodo Generalizado de Momentos ................... 70
4

I. Entorno del softwareStata 12
1. Aspectos generales
El software Stata 12.0
1
es un paquete estadstico y economtrico cuyo formato de trabajo se basa en el uso de
programacin y de ejecucin de comandos. Todos los comandos de Stata (excepto los de programacin) se
encuentran implementados en cuadros de dilogo, a los que se puede acceder mediante el men principal, el
cual est organizado por tpicos de la siguiente manera:

La interfaz tambin se muestran conos de acceso rpido, desde donde se puede: abrir bases de datos de
extensin .dta; guardar bases de datos recientemente editadas; imprimir los contenidos de la pantalla y
grficos recientes; inicio de bitcoras, mostrar ventanas de ayuda inactivas; edicin de grficos; inicio de
archivos tipo DO; mostrar ventana de edicin de datos; mostrar navegador de los datos; cono de estado; y
mostrar el estado de la ejecucin de comandos y programacin; funciones ordenadas en conos de la siguiente
manera:

Si bien Stata (en sus versiones a partir de la versin 8) permite trabajar a travs de botones, sigue siendo un
programa manejado por comandos (al igual que RATS 6, y versiones posteriores, entre otros programas),
debido a que cada ventana se encuentra asociada a un comando (a diferencia de Eviews, en donde las
ventanas desplegables estn orientadas a objetos), por lo que aprender a manejar Stata 12 mediante comandos
ser de mucha utilidad, sobre todo si lo que se desea es programar en este lenguaje.
En tal sentido, es necesario detallar previamente la sintaxis que usa Stata. El manejo de rdenes o comandos
siguen el siguiente esquema:

Los comandos muchas veces pueden ser reducidos a sus tres (03) primeros caracteres, seguidos de la lista de
variables a utilizar como insumo para cada comando. Las extensiones de comandos entre corchetes son
opcionales (las expresiones if o in, se detallarn ms adelante).



1
Para beneficio del lector, varios de los comandos y usos mostrados en el presente documento son herencia de las versiones
anteriores del software. No obstante, hay que hacer la acotacin de que tambin son varios los comandos y usos que son propios
de esta versin de Stata (que se detallarn en su respectivo momento), por lo que se recomienda para estos efectos la revisin de
la opcin de ayuda o help del mismo software.
comando lista de variables [if expresin] [in expresin], [opciones]
Conectores relacionales
< menor que
<= menor o igual que
== igual a
> mayor que
>= mayor o igual que
!= diferente a (puede usarse ~=)
Conectores lgicos
& y (& se evala antes que el | )
| o
! no es el caso (puede usarse ~ )
Operadores aritmticos
+ suma
- resta
* multiplicacin
/ divisin
^ potencia
+ concatenacin de cadenas alfanumricas
5

En este punto, el uso de operadores lgicos es relevante y necesario en ciertos casos. Por tal motivo se
detallan en el recuadro anterior los ms importantes.
2. Ventanas de trabajo
Como se mencion lneas arriba, Stata permite trabajar haciendo uso de ventanas, cada una de las cuales
presenta un tipo diferente de informacin.
Se detallan hasta cinco ventanas de trabajo: La ventana de resultados (results) donde se presenta los
comandos, resultados y mensajes de error; la ventana de historial (review) donde aparecen los comandos,
usualmente segn el orden de ejecucin; la ventana de variables (variables) que muestra la lista de variables
cargada en la memoria; la ventana de comandos (command) que es la ventana en la que se ingresan los
comandos; y finalmente la ventana de propiedades (properties) donde se detallan las propiedades de las
variables cargadas en la memoria del software
2
.
De esta manera, al iniciar el software, Stata muestra lo siguiente:

Adicional a ello, es posible contar con ventanas de trabajo como el editor de Stata (Stata Editor) y el
navegador (Stata Browser) que permiten navegar y modificar los datos de la base como si fuese una hoja de
clculo respectivamente; la ventana de ayuda (Stata Viewer) que permite acceder a informacin en lnea y
tambin a la ayuda del programa; la ventana de grficos (Stata Graphs) que presenta el ltimo grfico
realizado; y el editor de archivos tipo DO (Stata Do-file Editor) que es una ventana separada y que funciona
como un editor de textos que permite ejecutar una lista de comandos
3
.


2
Esta ventana es una innovacin de la versin 12. Facilita en buena cuenta la edicin de ciertas caractersticas de las variables
cargadas en la memoria, como cuestiones asociadas a nombres, formatos, etiquetas de las variables y de las observaciones, etc.
3
La personalizacin de las opciones, disposicin de ventanas, etc. se realiza a travs de la ruta: Pref/save windowing preferences.
Mientras que si alguna ventana est cerrada podemos abrirla desde el men Window.
6

3. Manejo de Bases de Datos (Data Management)
Stata permite trabajar con bases de datos de todo tipo, incluyendo hasta bases de datos del tipo censal (que
son de mayor tamao); claro est, en funcin a la capacidad del ordenador en el que se utilice el software
4
.
Asimismo, hasta versiones anteriores al Stata 12, era necesario habilitar la disposicin de trabajo del software
para trabajar con bases de datos de un tamao mayor a 1024 Kb, por lo que si se requera la ampliacin de la
capacidad antes mencionada mediante el comando: set memory o simplemente set mem, de la siguiente
manera:
set memory 200m
Que, por ejemplo, permitira ampliar la capacidad de la memoria a bases de datos con tamao hasta de 200
Mb. A partir de la ltima versin (Stata 12) ya no es necesaria dicha especificacin.
Abrir bases de datos
Antes de abrir una base de datos e iniciar una sesin de trabajo, es recomendable mantener una carpeta de
registro en la que se pueda almacenar todos los archivos que en la sesin pudieren crearse (estimaciones,
bases de datos, grficos, etc.). Para tal sentido, el comando cd (change directory) permite hacer eso.
cd "C:\Documents and Settings\Escritorio\Nueva carpeta"
Para abrir una base de datos desde el men principal seguimos la siguiente ruta: File/Open. En el cuadro de
dilogo que aparece a continuacin se elige el archivo deseado, que en este caso tiene la extensin de los
archivos de datos naturales de Stata, dta. Tambin es posible utilizar el atajo ctrl + o.

As, a manera de sesin modelo, se har uso de la base de datos mcdogasolita_iv.dta
5
.

4
Al respecto cabe mencionar que son varios los tipos de Stata existentes en el mercado. Se cuenta con la versin Stata/MP, que
es la versin ms rpida de Stata (en funcin a los procesadores utilizados); la versin Stata/SE, que es la versin ms comn y
permite trabajar con grandes conjuntos de datos; la versin Stata/IC, que se limita a bases de datos de tamao moderado; la
versin Small Stata, que se encarga de pequeos conjuntos de datos; y finamente el Stata Numrico que solo permite operar con
informacin integrada o va Stata WEB.
7

Ntese que una vez cargada la base de datos, se actualiza la ventana de variables, mostrndose en esta la
informacin correspondiente a las mismas. Asimismo, ntese tambin que al ejecutar los comandos mediante
estos mens se registran automticamente estos en la ventana Review el(los) comando(s) equivalente(s) para
la ventana Command. Caracterstica muy til cuando se aprende Stata porque es posible ejecutar un comando
mediante la GUI y luego repetirlo empleando comandos.
Inspeccin de los datos
Para inspeccionar la informacin contenida en la base de datos cargada, es posible realizar una descripcin
rpida de los datos mediante el comando describe. Para copiar a un procesador de textos lo que acaba de
aparecer en la ventana de resultados seleccionamos dicho resultado y lo copiamos como texto o como tabla, o
como imagen, como se ve a continuacin.

describe


Es posible tambin el uso de la versin resumida del comando describe, sera ds, que permite obtener
nicamente una lista compacta de las variables con las que cuenta la base de datos.
ds

Cabe mencionar que si se desea editar la informacin correspondiente a nombres de variables, etiquetas, notas
de autor, tipos de variables, etc. Es posible acceder a la ventana de propiedades, liberar el seguro de edicin
(con forma de candado en la esquina superior izquierda de la ventana) y proceder con la misma, tal como se
sigue a continuacin:

5 Para los ejemplos de este documento se hace uso de la Base de Datos mcdogasolita_iv.dta utilizada en el texto de Greene
(2006), excepto cuando se indique lo contrario. La Base de Datos se puede descargar desde el siguiente link:
http://people.stern.nyu.edu/wgreene/Text/Edition6/
Sorted by:

ps float %9.0g
pn float %9.0g
pd float %9.0g
ppt float %9.0g
puc float %9.0g
pnc float %9.0g
income int %8.0g
gasp float %9.0g
pop long %12.0g
gasexp float %9.0g
year int %8.0g

variable name type format label variable label
storage display value

size: 2,080
vars: 11
obs: 52
Contains data from C:\Documents and Settings\mcdogasolita_iv.dta
. describe
year gasexp pop gasp income pnc puc ppt pd pn ps
. ds
8


En versiones anteriores al Stata 12, era necesario hacer uso directo del comando label variable.
Actualmente an es posible realizar este tipo de procedimientos por comandos.

De esta forma que el comando describe permitir revisa la meta informacin relacionada las variables de la
base de datos. Mientras que por otro lado, el comando codebook permitir inspeccionar informacin
adicional.
codebook gasexp

Por otro lado, si se desea explorar la informacin en un formato tipo hoja de clculo, el comando browse
permite abrir la ventana de navegacin de datos (Stata Browser), que en esta versin ya permite hacer uso de
174141 195473 223868 255226 279328
percentiles: 10% 25% 50% 75% 90%
std. dev: 38077.4
mean: 225374
unique values: 52 missing .: 0/52
range: [159565,293951] units: 1
type: numeric (long)

pop (unlabeled)

10.6 15.4 58.15 111.8 137.9
percentiles: 10% 25% 50% 75% 90%
std. dev: 57.5147
mean: 70.1019
unique values: 51 missing .: 0/52
range: [7.4,224.5] units: .1
type: numeric (float)

gasexp (unlabeled)

. codebook gasexp pop
Tipos de Variables: Stata puede manejar distintos tipos de variables separadas en: string o variables de texto.
Variables que Stata por defecto le asigna formato float, al generar una variable nueva. Asimismo, Intercooled
Stata8.0 en adelante soporta cadenas de hasta 80 caracteres de largo. Estas son:
str1 cadenas de 1 carcter
str240 cadenas de 240 caracteres
Asimismo, las variables numricas, que se organizan en los siguientes sub-tipos
float nmeros reales en formato 8,5 (8 cifras enteras, cinco decimales)
double nmeros reales en formato 16,5
byte enteros entre 127 y 100
int enteros entre 32767 y 32740
long enteros entre 3147483647 y 2147483620
9

filtros de anlisis y muestra de datos. Mientras que para editar esta informacin, el comando edit, abrir en
su defecto la ventana de edicin de datos (Stata Editor).
Cabe mencionar que en versiones anteriores no era posible seguir trabajando con los datos (generar o editar
variables, etc.) mientras alguna de estas ventanas estaba abierta. A partir del Stata 12 ya es posible mantener
estas ventanas abiertas y seguir con la sesin de trabajo.

Generacin bsica de variables
El software no solamente permite trabajar con la informacin de las bases de datos en bruto, sino tambin
generar variables en funcin a los requerimientos del usuario. As, en principio, para las varias aplicaciones
economtricas y dems se requerir de la generacin de ciertos tipos de variables.
Para ello, desde el men principal, utilizamos la siguiente ruta: Data/Create or change variables/Create new
variable, luego de lo cual aparecer un cuadro de dilogo en el cual debemos ingresar el nombre de la
variable y su regla de creacin.

As, si, por ejemplo, se necesita crear el logaritmo natural de la variable income, en la casilla Generate
variable se escribe el nombre de la variable (en este caso lnincome, por ejemplo), luego se pulsa el botn
Create, y elige la opcin Functions/mathematical, en la que se elige la opcin logaritmo natural con doble
click. Luego, en lugar de x se escribe el nombre de la variable insumo (en este caso income). Finalmente se
pulsa el botn OK en los dos cuadros de dilogo.
10

Al final de este proceso se observa que ha aparecido una nueva variable (lnincome) y que el comando
empleado en su creacin ha aparecido en la ventana de Results y en la ventana Review. Asimismo, ntese que
es posible utilizar cualquiera de las siguientes formas
6
:
generate float lnincome = ln(income)
generate lnincome = ln(income)
gen lnincome = ln(income)
De forma similar, algunas otras opciones importantes sobre generacin de variables se asocian a:
Reemplazos de variables, debido a que el programa no puede sobreescribir variables, la opcin sera
generar reemplazos sobre variables ya existentes (replace var_antigua =
nuevo_contenido).
Borrar una o ms variables antiguas, mediante el comando drop. Se enumeran las variables que se
desea borrar.
Borrar una o ms variables antiguas, mediante el comando keep. Se enumeran las variables que se
desea mantener.

Generacin bsica de grficos
Para crear grficos se requiere un procedimiento similar. Desde el men principal: Graphics/Twoway graphs
aparece un cuadro de dilogo, donde se elige la opcin crear, y finalmente la opcin de tipo de grafico (en
este caso se elige la opcin scatter, y la variable y la variable ). Luego se presiona el botn OK.

6
En Stata 12.0 los comandos deben ir siempre en minsculas. Adems, para los nombres de las variables Stata tomar en cuenta
si empleamos minsculas o maysculas, no son la misma variable Modelo, modelo, MODELO ni moDelO.
Otros comandos asociados a manipulacin de datos: Algunos comandos relevantes que se suelen utilizar antes de
realizar anlisis estadstico y/o economtrico son los siguientes:
sort: ordena las observaciones de una base de datos de manera ascendente a partir de los valores de una(s)
determinada(s) variable(s):
sort varlist [in] [, stable]
gsort: ordena las observaciones de una base de datos de manera ascendente o descendente a partir de los
valores de una(s) determinada(s) variable(s):
gsort [+|-] varname [[+|-] varname ...] [, generate(newvar) mfirst]
rename: cambia el nombre de una variable existente:
rename old_varname new_varname
generate: crea una nueva variable:
generate [type] newvar[:lblname] =exp [if] [in]
egen: extension de generate
egen [type] newvar = fcn(arguments) [if] [in] [, options]
replace: cambia el contenido de una variable existente:
replace oldvar =exp [if] [in] [, nopromote]
recode: permite recodificar los valores de una variable:
recode varlist (rule) [(rule) ...] [, generate(newvar)]
11


Asimismo, ntese que es posible utilizar cualquiera de las siguientes formas:
twoway (scatter gasexp income)
scatter gasexp income

Guardar una base de datos.
Como se mencion anteriormente, Stata emplea la extensin .dta para los archivos de bases de datos. Para
grabar se pulsa el botn que tiene el icono de un disco o desde el men principal: File/ Save o File /Save
as
En este caso, grabaremos la base de datos con el nuevo nombre: trabajo1.dta
7

Extensiones de comandos: Conectores relacionales y lgicos
Es posible agregar a la gran mayora de comandos extensiones o especificaciones de acuerdo a los
requerimientos de trabajo. Estas especificaciones pueden ser principalmente condicionales: if o in,

7
Cabe mencionar, que en el caso de Stata 12 es necesario guardar las bases de datos en formato compatible si es que se desea
abrir la misma en versiones anteriores. Ello se logra mediante el comando saveold.
0
5
0
1
0
0
1
5
0
2
0
0
2
5
0
G
a
s
t
o

t
o
t
a
l

e
n

g
a
s
o
l
i
n
a
10000 15000 20000 25000 30000
ingreso per cpita disponible
12

con respecto a rangos o pertenencia a conjuntos. Con la peculiaridad que estos conectores
relacionales no deben de ser confundidos con operadores matemticos, siendo que =, no ser lo
mismo que ==, como se puede ver en el siguiente ejemplo, en el que se crea la variable logaritmo
natural del ingreso (lnincome) solamente para ciertos casos en funcin a los aos:
gen lnincome = ln(income) if year >= 2004
gen lnincome = ln(income) if year == 2004
gen lnincome = ln(income) if year <= 2004
gen lnincome = ln(income) in 1/26
gen lnincome = ln(income) in 26/52
4. Archivos de instrucciones (DO-files)
Asimismo, es posible (en lugar de escribir los comandos en la ventana correspondiente) trabajar de una
manera ms prctica. Esta forma consiste en crear un archivo con una lista de instrucciones que se ejecutarn
en conjunto desde all. Puede crearse mediante la ventana Do-file Editor o desde cualquier editor de textos,
siempre y cuando le asignemos la extensin .do.
La ventaja de emplear la ventana Do-file Editor es que podemos ejecutar en forma parcial el archivo mediante
las teclas ctrl+d. Adems, el software permite reconocer con colores los comandos (en azul), los insumos o
variables de insumo (en negro), las anotaciones (precedidas por un asterisco * y en verde), y las ubicaciones
en la PC (en rojo y entre comillas). Adems es posible abrir la ventana del Do-file Editor pulsando el botn
correspondiente o las teclas ctrl+8 o desde el men principal: Windows/Do-file Editor.

5. Bitcoras de trabajo (Log-files)
Stata tambin permite guardar un registro de los comandos y resultados utilizados en una sesin. Para ello, la
creacin y trabajo con archivos de bitcora o log-file se realiza de la siguiente forma:

log using nombre_bitacora: Luego del cual se crear el archivo y almacenara en el
formato .smcl. Pudindose realizar tambin las siguientes acciones:
Log off: Detiene la grabacin o registro.
Log on: Reanuda la grabacin o registro
Los close: Finaliza la grabacin o registro
Log using nombre_bitacora, append: Contina la grabacin o registro en un log
previamente guardado.
Log using nombre_bitacora, replace: Sobreescribe la grabacin o registro en un log
previamente guardado.
Type nombre_bitacora.smcl: Permite revisar una bitcora previamente guardada.
13

II. Estadstica
En las Ciencias Sociales y, en especial, en la Economa es de uso recurrente la aplicacin de la Estadstica. En
tal sentido, en el presente capitulo se exponen los principales conceptos de Estadstica, necesarios para el
anlisis de datos.
1. Vector aleatorio
Regularmente en el anlisis cuantitativo se recurre al anlisis del comportamiento y relaciones entre variables.
Por ejemplo, la determinacin del crecimiento econmico, la evaluacin del impacto de las crisis financieras
internacionales, el mejoramiento de la calidad de servicios de salud en determinado pas, anlisis del impacto
de la contaminacin ambiental de cierta explotacin minera en cierta localidad, el impacto de cierto programa
social sobre la reduccin de la pobreza, entre otros tipos de anlisis involucran la aplicacin de una o ms
variables aleatorias.
As, el concepto ms bsico es el de variable aleatoria, que al agruparse con otras similares se puede
contemplar como un vector aleatorio. Es entonces que un vector aleatorio ( ) puede ser entendido como un
conjunto de datos cuyos componentes son las variables aleatorias e , definidas ambas sobre el mismo
espacio muestral .
Evento, Frecuencia y Funcin de Probabilidad y Densidad
De esta manera, es posible tomar, por ejemplo, la variable ingreso per cpita (income) como una variable
aleatoria, pues esta puede tomar cualquier valor de forma aleatoria dentro de un rango de posibles eventos o
espacio muestral. As, mediante el comando summarize, es posible obtener informacin estadstica bsica
sobre la informacin contenida por la variable aleatoria:
summarize income

Mientras que la opcin , detail o , d permite ampliar la informacin estadstica acerca de la variable
aleatoria deseada:
sum income, d

Asimismo, esta informacin se puede organizar en funcin a sus ocurrencias o frecuencias (y en forma
agrupada) mediante tablas de tabulacin con el comando tabulate mostrndose los eventos ocurridos, el
nmero de veces en las que ocurri o frecuencia, la frecuencia en porcentajes y a nivel acumulado. Mientras
que la forma grfica usual para mostrar las frecuencias es mediante un histograma, de la siguiente forma:
income 52 16805.06 5552.026 8685 27113

Variable Obs Mean Std. Dev. Min Max
. summarize income
99% 27113 27113 Kurtosis 1.826983
95% 26352 26437 Skewness .1459415
90% 24464 26352 Variance 3.08e+07
75% 21442 25449
Largest Std. Dev. 5552.026
50% 16692.5 Mean 16805.06
25% 11705.5 9343 Sum of Wgt. 52
10% 9534 9137 Obs 52
5% 9137 8883
1% 8685 8685
Percentiles Smallest

ingreso per cpita disponible
. sum income, d
14

histogram income, title (Solo barras) frequency
histogram income, title (Con Funcin de Densidad) kdensity

Generalizando, en trminos estadsticos un vector aleatorio de dos variables como (
), es posible definir que la probabilidad con la que ocurre un valor o evento cualquiera como (
6668 888) se encuentra en funcin de la frecuencia con la que se da el mismo evento en el espacio
muestral. As, la probabilidad conjunta, entendida como:

( ) [( ) ( )], proporciona la
probabilidad de que ocurra un evento en pareja ( ); es decir, que simultneamente la variable aleatoria
tome el valor particular y la variable aleatoria tome el valor particular .
De forma similar, es posible definir las distribuciones marginales, que proporcionan las distribuciones
individuales de e , que son las mismas que se obtendran en procesos individuales:

()

( )

()

( )


Por otro lado, la funcin de probabilidad condicional, permite realizar pronsticos acerca de alguno de los
componentes del vector aleatorio ( ), al fijar valores para el otro componente.

( )

( )

()
Mientras que en lo que respecta a la funcin de densidad se define como

( ); de manera anloga a la
funcin de probabilidad marginal (discreta), esta es una funcin continua tal que:

()

( )

()

( )


La funcin de densidad condicional de dado que es denotada

( ), mediante:

( )

( )

() . Y anlogamente se define la funcin de densidad condicional de dado que ,


denotada

( ), mediante:

( )

( )

()
2. Distribuciones importantes
0
5
1
0
1
5
F
r
e
q
u
e
n
c
y
10000 15000 20000 25000
income
Solo barras
0
2
.
0
e
-
0
5
4
.
0
e
-
0
5
6
.
0
e
-
0
5
8
.
0
e
-
0
5
D
e
n
s
i
t
y
10000 15000 20000 25000 30000
income
Con Funcin de Densidad
15

Es usual hacer uso de algunas formas de distribuciones estandarizadas. A continuacin se muestran las
distribuciones discretas ms comunes:
Distribucin Binomial ( )
Es una de las distribuciones discretas de probabilidad ms tiles. Su aplicacin se da en el caso donde el
resultado es la ocurrencia la no ocurrencia del evento, por ejemplo en la investigacin de opiniones,
inspeccin de calidad, etc. donde cada experimento es independiente del siguiente, siendo el nmero de
experimentos. Adems, llmese a la probabilidad de ocurrencia y a la probabilidad de no
ocurrencia.

( )

( )

, donde es la cantidad de xitos en los n ensayos.


[] [] ( )
Distribucin Geomtrica ( )
Como en el caso de la distribucin binomial, consideramos un experimento con solo dos resultados posibles:
V (xito) y F (fracaso). Repetimos el experimento hasta obtener el V, por ejemplo el nmero de excavaciones
petroleras necesarias hasta hallar un pozo petrolero y su distribucin es:

( ) ( )

donde la x indica las pruebas necesarias hasta obtener el xito.


[]

[] ( )


Distribucin Pascal o Binomial Negativa ( )
Al igual que la distribucin binomial se observa una secuencia de ensayos independientes; en lugar de fijar el
nmero de ensayos en y observar el nmero de xitos, se siguen los ensayos hasta haber ocurrido
xitos.

( )

( )


[] [] ( )


Distribucin de Poisson ( )
En esta distribucin la variable aleatoria representa el nmero de eventos independiente que ocurren a una
velocidad constante, por ejemplo, el nmero de automviles que pasa por un peaje en un tiempo determinado.
Sea x el nmero de eventos aleatorios independientes sobre un determinado tiempo o espacio.

( )

donde siendo el nmero de ocurrencia y el intervalo de tiempo.


[] []
Asimismo, a continuacin se presentan algunas distribuciones continuas regulares. Pues en la realidad el
comportamiento aleatorio de una determinada variable, ya sea econmica, o de cualquier otro tipo, puede ser
diverso.
Distribucin Normal (

)
16

Esta distribucin se presenta constantemente e indudablemente es la ms importante y la de mayor uso de
todas las distribuciones continuas, cuando sea cual fuese la distribucin inicial de la variable aleatoria, en
grandes muestras tienden a tomar la forma de una distribucin normal.

) (
()

)
Donde los parmetros y

son caractersticos de la funcin. Es decir (

)
[]

[]


La grfica tiene una distribucin simtrica con media y con puntos de inflexin

, si se mantiene fija y

aumenta (disminuye), entonces la distribucin se aplana (angosta).


Si ahora definimos a ( ) , entonces se cumple que (), esto permite reducir el clculo de
una probabilidad en una distribucin general, al clculo equivalente en una distribucin () . La
distribucin acumulativa ha sido tabulada y permite calcular probabilidades.
Distribucin Gamma ( )
La funcin de densidad Gamma se presenta de modo natural en un proceso de Poisson, cuando medimos el
tiempo entre varias ocurrencias del evento E. La grfica es asimtrica a la derecha, pero conforme crece , la
asimetra se atena y est definida por la funcin de densidad:

()

()

[] []


Distribucin Exponencial ( )
La variable aleatoria es el tiempo que transcurre hasta que se da el primer evento de Poisson. Es decir, la
distribucin exponencial puede modelar el lapso entre dos eventos consecutivos de Poisson que ocurren de
manera independiente y a una frecuencia constante.

()


[] []



17

III. Modelo de Regresin Lineal Clsico Multivariado

Quiz los objetivos ms importantes de la Econometra son el poder predecir y explicar los fenmenos
sociaoeconmicos. La herramienta ms simple para cumplir con estas tareas es el Modelo de Regresin
Lineal Clsico Multivariado.
1. El Modelo Clsico de Regresin Lineal Multivariado (MRLCK)
Se tiene una variable endgena que es funcin lineal de variables exgenas (

) y de un
trmino estocstico

. Si se cuenta con observaciones, entonces el modelo tendr la siguiente forma:


En la ecuacin anterior cada

puede ser expresado mediante una matriz compuesta por vectores aleatorios
independientes entre s; tal que [

]. Por otro lado

es el coeficiente correspondiente a cada


variable

. Adems se suele incluir en esta ecuacin un componente que identifique al intercepto de la misma
(

); con . As, el modelo anterior puede ser expresado de forma matricial de la siguiente manera:


2. Metodologa de MCO y sus propiedades
La metodologa comnmente utilizada para hallar estimaciones de los parmetros es la de los Mnimos
Cuadrados Ordinarios (MCO). Esta consiste en el proceso de minimizacin del margen de error existente
entre las observaciones reales (muestrales) y los valores predichos para estos mediante el modelo de regresin
lineal clsico multivariado. Tal que:
( )( )
Donde es posible hallar como resultado:

()

)
Vector que contiene la informacin estimada para cada uno de los parmetros del modelo. Y que cumple con
tener las propiedades de ser lineal, insesgado y tener varianza mnima. Caractersticas que componen la
definicin del Mejor(es) Estimador(es) Lineal(es) Insesgado(s) o simplemente MELI.
Este modelo (denominado como modelo poblacional) cumple con los siguientes supuestos (conocidos como
supuestos clsicos):
Los parmetros son lineales.
El rango de es completo, no hay dependencia lineal en la matriz .
(|)
( )
(

)=0,
()


|(

)
|(

)
18

De forma similar, esta metodologa permite obtener un estimador que aproxima la varianza para cada
estimador de

denotada por:
(


Tomando en cuenta que no se conoce directamente

, se necesita hallar su estimador, de la siguiente forma:

( )
Donde es el nmero de observaciones y es el nmero de regresores excluyendo el trmino constante.
Siendo

un estimador insesgado para

.
As, para el mejor entendimiento de esta metodologa, se procede a generar la variable endgena logaritmo
natural del gasto per cpita en gasolina (lngasexppc) mediante el siguiente comando:
gen lngasexppc= ln(gasexp/pop)
Para posteriormente estimar el siguiente modelo terico:


regress lngasexppc income pnc puc

Ntese que luego de la aplicacin del comando regress (o simplemente reg) se realiza una estimacin
mediante la metodologa de MCO, obtenindose el output o tabla de resultados de la misma.

_cons -11.69836 .2800051 -41.78 0.000 -12.26135 -11.13537
puc -.0154985 .0058335 -2.66 0.011 -.0272275 -.0037695
pnc .0245954 .0082855 2.97 0.005 .0079362 .0412545
income .000133 .0000201 6.61 0.000 .0000925 .0001734

lngasexppc Coef. Std. Err. t P>|t| [95% Conf. Interval]

Total 40.4833487 51 .79379115 Root MSE = .23417
Adj R-squared = 0.9309
Residual 2.63212375 48 .054835912 R-squared = 0.9350
Model 37.8512249 3 12.617075 Prob > F = 0.0000
F( 3, 48) = 230.09
Source SS df MS Number of obs = 52
. regress lngasexppc income pnc puc
19


3. Omisin de variables relevantes
Sea el siguiente modelo particionado:


Realizamos la estimacin en un modelo en el cual se elimina la variable

.
(1) Source | (2) SS (6) df MS (10) Number of obs = 51 (14)
-------------+------------------------------ F( 1, 49) = 0.07 (15)
Model |(3).51166559 (7) 1 .511665591 (11) Prob > F = 0.7966 (16)
Residual |(4)373.40990 (8)49 7.62061027 (12) R-squared = 0.0014 (17)
-------------+------------------------------ Adj R-squared = -0.0190 (18)
Total |(5)373.92156 (9)50 7.47843137 (13) Root MSE = 2.7605 (19)

------------------------------------------------------------------------------
(20) y |(23) Coef.(24)Std. Err. (25)t(26)P>|t|(27) [95% Conf. Interval]
-------------+----------------------------------------------------------------
(21) x | -.0034628 .0133639 -0.26 0.797 -.0303185 .0233929
(22)_cons | 12.53665 .7419461 16.90 0.000 11.04565 14.02764
------------------------------------------------------------------------------
(1) Fuentes de Varianza: En esta parte se muestral la descomposicin de la varianza. La varianza total (Total) se
descompone en la varianza explicada por el modelo (i. e. por las variables independientes) (Model) y en la varianza no
explicada por el modelo (Residual). Ntese que
(2) Suma de cuadrados (Sum of Squares) asociadas a las tres fuentes de varianza. Estas son las medidas de variabilidad
respecto a la media.
(3) Suma de cuadrados explicada (ESS):


(4) Suma de cuadrados residual (RSS):


(5) Suma de cuadrados total (TSS):


(6) Grados de libertad (Degrees of Freedom): estos son los grados de libertad asociados a las fuentes de la varianza.
(7) Los grados de libertad del modelo son , donde es el nmero de variables explicativas (incluyendo la constante)
(8) Los grados de libertad del residuo son los grados de libertad totales menos los grados de libertad del modelo:
(8) (9) (7)
(9) La varianza total tiene grados de libertad donde es el nmero de observaciones.
(10) Mean Squares: , es decir, el Mean Square es igual a la suma de cuadrados dividida por los grados de libertad
respectivos. Con estos datos uno puede construir el estadstico F [desarrollado en 15]
(11) () ()(7)
(12) () (4)(8)
(13) () (5)(9)
(14) Nmero de observaciones
(15) Estadstico F de significancia global:
()
()

()(7)
()(8)

()
()

(16) Valor p del test de significancia global
(17)

()
(5)

()
(5)

(18)

)
()
()
(7)
(())
(())

(19) Root Mean Squared Error (o Residual): es el desvo estndar del trmino de error.
(20) Variable explicada
(21) Variables explicativas: en este caso solo se tiene una variable explicativa, pero si tuviera ms cada una se presenta en una
fila.
(22) Constante
(23) Vector de los coeficientes estimados:


(24) Desvo estndar de los coeficientes estimados:

)
(25) Estadstico t:

)
(26) Valor del test de significancia individual (con dos colas)
(27) Intervalo de confianza del coeficiente estimado:


005
, donde .
20


Al realizar la estimacin del parmetro obtenemos la siguiente media y varianza:
[

[(

]
[

[(


Se observa que la eliminacin de variables relevantes crea sesgo en los estimadores, el cual depende de la
relacin entre las variables omitidas. Adems, se genera un aumento de la varianza de los estimadores.
4. I nclusin de variables irrelevantes
Se propone el siguiente modelo particionado:


Incluyendo una variable irrelevante obtenemos el siguiente modelo:


Se obtienen la siguiente media y varianza de los estimadores
[


La inclusin de variables irrelevantes lleva a un incremento de la varianza de los estimadores y con ello a una
proporcin menos explicada de la regresin.
5. Anlisis de descomposicin de varianza (ANOVA)
El anlisis de descomposicin de varianza permite observar las relaciones entre las variaciones de las
variables explicativas y el cambio en la variable endgena, dejando de forma residual el cambio en el trmino
de perturbacin.
Fuente de variacin Suma de cuadrados Grados de libertad Media de cuadrados
Regresin (

( )
Residuos (

( )
Total (

ajustado
El coeficiente de bondad de ajuste o

es la correlacin al cuadrado entre los valores de la regresin


estimada y los valores de . Este estadstico muestra qu tan bien explica la regresin a lo que
21

verdaderamente se observa. A travs de este podemos comparar entre modelos distintos y determinar cul es
el ms adecuado. Se determina de la siguiente manera:


Alternativamente se puede representar como:


Sin embargo, es conocido que el estadstico tiene el problema que no castiga la adicin de variables, siempre
aumentando cuando esto sucede. Esto podra llevarnos a elegir modelos incorrectos. Para solucionar esto se
propone el

ajustado, el cual s castiga la adicin de variables en el modelo. Se determina de la siguiente


forma:

( )
( )

( )
(

( )

Visto de otra manera:


( )
( )

(

( )
(

( )

6. Criterios de seleccin entre modelos anidados
Aparte de los estadsticos propuestos en la seccin anterior hay otros criterios de seleccin entre modelos. Los
ms usados son los siguientes:
Criterio de Akaike
(


Se elige aquel modelo que resulte con un AIC menor.
Criterio de Schwarz o Bayesiano
(

)
()


Al igual que el caso anterior, se elige el modelo que tenga el BIC menor.
Se puede obtener ambos criterios de informacin usando el siguiente comando luego de haber realizado la
regresin:
estat ic
22


7. I nferencia del modelo lineal mltiple
Sea , donde (

) . Sabemos que

donde es la traza de , y que


y

son independientes, por lo cual podemos usar la siguiente expresin:

()

)
Donde

es el componente de la matriz ()

.
Con esta nueva expresin se puede obtener una distribucin de t de Student.


Donde

es el desvo estndar del estimador

. El resultado de esta expresin podemos utilizarlo para


contrastar una hiptesis nula o para hallar un intervalo de confianza para cada .
Prueba de hiptesis individual
Se realiza una prueba de hiptesis para conocer la significancia de cada variable dentro del modelo. Las
hiptesis individuales toman la forma siguiente:


Siguiendo los supuestos clsicos, se comprueban las hiptesis a travs del uso del estadstico t de Student.


0
(


El valor resultante del estadstico se compara con los valores de tabla para conocer la significancia de la
variable. Para realizar una prueba de hiptesis de significancia en Stata se utiliza el siguiente comando (en el
ejemplo se realiza la prueba para la variable income):
test income

Prueba de hiptesis conjunta
Note: N=Obs used in calculating BIC; see [R] BIC note

. 52 -67.27563 3.784966 4 .4300677 8.235043

Model Obs ll(null) ll(model) df AIC BIC

. estat ic
Prob > F = 0.0000
F( 1, 48) = 43.70
( 1) income = 0
. test income
23

Surge un problema ms complicado cuando se intenta evaluar simultneamente varias hiptesis que
envuelvan a varios . Estas hiptesis pueden adoptar la forma:

0

A la cual aplicando el supuesto de normalidad y haciendo uso de la tabla Fisher se puede obtener la siguiente
expresin:
((

)[()() ](

))( )


La cual se puede reducir a las siguientes expresiones para el caso de una prueba de significancia conjunta:

()
( )


Si el valor obtenido a travs del F estadstico es superior al F de tabla, se puede rechazar la hiptesis conjunta.
A continuacin se muestran algunos ejemplos de hiptesis conjuntas:
test income pnc puc

test (income+pnc+puc=0)

test (income) (pnc+puc=0)

Intervalos de confianza
Un intervalo de confianza consta de un rango limitado dentro del cual se ubicar el valor de una variable
desconocida con una determinada probabilidad. Para lo que interesa en este caso, se muestra el intervalo de
confianza para el estimador


0
(

( )
Prob > F = 0.0000
F( 3, 48) = 230.09
( 3) puc = 0
( 2) pnc = 0
( 1) income = 0
. test income pnc puc
Prob > F = 0.0119
F( 1, 48) = 6.84
( 1) income + pnc + puc = 0
. test (income+pnc+puc=0)
Prob > F = 0.0000
F( 2, 48) = 88.96
( 2) pnc + puc = 0
( 1) income = 0
. test (income) (pnc+puc=0)
24

Aqu es el nivel de significancia de la estimacin. Por otro lado,

son los valores crticos que


tienen que ser comparados con la tabla de la distribucin normal.
Prediccin en el modelo de -variables
Sea el siguiente conjunto de valores de las variables explicativas:
[

]
Donde los superndices indican que se trata de un predictor.
Se desea predecir el valor de para los valores dados de . Existen dos posibles caminos: una prediccin
puntual o un intervalo de confianza para la prediccin. Para el caso de prediccin puntual solo es necesario
hacer una regresin estimada de la forma siguiente:


Para hallar una prediccin de intervalo de confianza podemos usar la distribucin de c

()

)
Con lo cual se obtiene:

)
()


Esto genera un intervalo de confianza al ( ) de confianza

()


Para almacenar los valores de prediccin se ingresa el siguiente comando:
predict y_hat
25

IV. Levantamiento de Supuestos I
Como se vio en el captulo 3, existen mltiples supuestos en los modelos de regresin clsicos. Sin embargo,
los datos de los que se disponen no siempre cumplen con esos supuestos, por lo que las estimaciones tienen
que hacerse de otra manera. Es aqu en donde se empiezan a levantar algunos supuestos para poder llegar a las
mejores estimaciones.
1. Multicolinealidad
La multicolinealidad surge cuando las variables explicativas se encuentran correlacionadas entre s y no es
posible analizar con precisin los efectos individuales de cada una de ellas. Si las variables se encuentran
perfectamente correlacionadas, se dice que existe multicolinealidad perfecta y se cumple la siguiente
condicin:


Donde

son constantes distintas de cero.


Sin embargo, lo ms comn es que las variables muestren correlacin alta, pero no perfecta. Esta es la
condicin que se debe cumplir para este caso:


Para detectar si existe multicolinealidad se puede realizar la prueba VIF. Para realizarla en Stata se inserta el
siguiente comando luego de la regresin:
estat vif

Si el VIF promedio es 0 entonces no hay multicolinealidad, si est entre 0 y 10 hay multicolinealidad
imperfecta baja y si es mayor a 10 hay multicolinealidad imperfecta alta.
2. Las variables ficticias o dummy y su interpretacin
Las variables ficticias o tambin denominadas binarias son una herramienta para introducir cambios discretos
en la funcin de un modelo de regresin. Estas variables sirven para indicar la presencia o ausencia de una
cualidad o atributo. Suelen tomar los valores de 0 y 1 para cuantificar un atributo. La siguiente ecuacin
representa la introduccin de una variable explicativa cualitativa en un modelo de regresin.


Donde

si pertenece al grupo 1 y

si pertenece al grupo 2.
Para la generacin de variables dummies en Stata se insertan los siguientes comandos.
Mean VIF 60.65

income 11.60 0.086212
puc 82.54 0.012115
pnc 87.82 0.011387

Variable VIF 1/VIF
26

gen d = 0
replace d = 1 if gasexp<30
Si es que queremos generar una variable dummy que se active cuando . Alternativamente:
gen d = (gasexp<30)
La trampa de las dummies
La inclusin de variables ficticias separadas para cada grupo y un trmino constante nos llevara a un caso de
perfecta multicolinealidad. Observemos este caso en el siguiente modelo:


En este caso la matriz de variables independientes es de la siguiente forma:
[



]
Se observa que la suma de la tercera y cuarta columna son equivalentes a la primera, es decir

.
Debido a este caso de perfecta multicolinealidad no se puede realizar la estimacin de parmetros. Para
solucionar este problema puede eliminarse el intercepto o alguna de las variables cualitativas.
Prueba de Chow
La prueba de Chow sirve para determinar si existe cambio estructural en datos de serie de tiempo. Se entiende
por cambio estructural a que los valores de los parmetros no siguen constantes a lo largo de toda la muestra
(ya sea para intercepto o pendiente). Es necesario saber si hay un cambio estructural en la serie que
estudiamos, pues si este cambio existe y no es documentado, entonces nos llevar a estimaciones ineficientes.
Se tiene un modelo como el siguiente:
[

] [

] [

]
La prueba nos tiene 3 posibilidades de hiptesis nula:
Cambio en el intercepto

( )
( )
Cambio en la pendiente


27


(

)( )

( )
( )
Cambio en el intercepto y la pendiente

)()

( )
( )
FALTAN COMANDOS CHOW
Pruebas CUSUM y CUSUM cuadrado
Otra manera de ver el cambio estructural, a travs de las variables dummy, es con las pruebas CUSUM y
CUSUM cuadrado.

Antes que todo, es necesario descargar la prueba CUSUM cuadrado.
ssc install cusum6

Para usar el test CUSUM, primero se tiene que establecer una variable de tiempo:
tsset year

Luego se escribe el siguiente comando (siempre poniendo la variable dummy adelante):
cusum6 d gasexp



Para ambas pruebas, si es que la curva sale de las bandas de confianza, entonces existe un cambio estructural
en los datos.

3. Modelos lineales y no lineales
Las tcnicas economtricas tambin pueden ser empleadas para estimar relaciones no lineales en los
parmetros (por ejemplo,

). La estimacin de estos modelos no puede realizarse por MCO.


Para ello es necesario realizar transformaciones a los modelos.
C
U
S
U
M
Ao
CUSUM
1956 2004
0 0
C
U
S
U
M

s
q
u
a
r
e
d
Ao
CUSUM squared
1956 2004
0
1
28

a. Transformaciones doble-logartmicas: Este modelo adopta una o ms variables de esta forma:


Un ejemplo de este modelo es la funcin Cobb-Douglas (

). El modelo linealizado
adoptara la siguiente forma:


El parmetro resulta ser la elasticidad de con respecto a .
b. Transformaciones semi-logartmicas: Se realiza una transformacin a los modelos aplicando
logaritmos como sigue:

()

El parmetro representa en este caso la tasa de crecimiento promedio de la variable respecto a la
variable .
c. Transformaciones recprocas: Esta transformacin surge cuando al menos una de las variables posee
asntota. La especificacin general de este modelo sera:
(

)(


Donde

es la asntota de Y, y

la asntota de X.


Para poder realizar la estimacin de este modelo es necesario asignar valores sucesivos al parmetro

y escoger aquella estimacin que tenga el mejor ajuste.



Las transformaciones doble-logartimica y semi-logartmica pueden estimarse mediante el comando
regress, dado que an respetan los supuestos del MRLCK. Las transformaciones recprocas, al no ser
lineales, se deben de estimar mediante el comando nl, cuya sintaxis es similar al de generacin de variables.

29

V. Levantamiento de Supuestos II

1. Perturbaciones no esfricas
Levantando el supuesto de perturbaciones esfricas ahora se asume:

()
()


Es decir, la varianza ya no es constante y la covarianza puede ser distinta de cero.
()
[


Propiedades del estimador MCO con perturbaciones no esfricas
Este levantamiento del supuesto afecta a las propiedades de los estimadores. La esperanza toma la siguiente
forma:
(

) [()

]
()

()

Es decir, el estimador sigue siendo insesgado.
Analizando la varianza:
(

) [(

)(

)]
[()

()

()

()


Se observa que la violacin del supuesto de perturbaciones esfricas ocasiona un incremento de la varianza.
El estimador de Mnimos Cuadrados Generalizados (MCG)
El estimador

deja de ser el mejor estimador lineal puesto que se puede hallar otro con menor varianza,
este ltimo es el estimador de MCG. Para estimar un modelo con perturbaciones no esfricas se crea una
matriz de transformacin. Donde P cumple con lo siguiente:


()


Adems:
()
30

As el modelo transformado debe tener la siguiente forma:

Siguiendo el proceso de minimizacin de errores, llegamos al siguiente estimador:


Cuya esperanza y varianza son:
[

] [(

( )]

(

) (

)(

)
[(


Para realizar una estimacin de mnimos cuadrados generalizados en Stata es necesario introducir el comando
glm, de igual forma que se hara con el comando regress.
glm lngasexppc income pnc puc

2. Heterocedasticidad
Se tiene un problema de heterocedasticidad cuando la varianza de los trminos estocsticos no es constante.
Entonces la matriz de varianzas de sera la siguiente:
() []
[



_cons -11.69836 .2800051 -41.78 0.000 -12.24716 -11.14956
puc -.0154985 .0058335 -2.66 0.008 -.0269319 -.004065
pnc .0245954 .0082855 2.97 0.003 .0083561 .0408347
income .000133 .0000201 6.61 0.000 .0000936 .0001724

lngasexppc Coef. Std. Err. z P>|z| [95% Conf. Interval]
OIM

Log likelihood = 3.784966158 BIC = -187.0276
AIC = .0082705
Link function : g(u) = u [Identity]
Variance function: V(u) = 1 [Gaussian]
Pearson = 2.632123752 (1/df) Pearson = .0548359
Deviance = 2.632123752 (1/df) Deviance = .0548359
Scale parameter = .0548359
Optimization : ML Residual df = 48
Generalized linear models No. of obs = 52
31

Se observa que las perturbaciones siguen no correlacionadas entre s, es decir que la covarianza entre ellas es
cero. Cuando la varianza de las perturbaciones es proporcional a una variable se cumplir que:


Eficiencia de los estimadores MCO y MCG
El principal problema de la existencia de heterocedasticidad es que los estimadores hallados por MCO son
ineficientes, pese a que siguen siendo insesgados. Como consecuencia de esto ltimo, las pruebas t y F
pueden arrojar resultados imprecisos que lleven a determinar un coeficiente como no significativo cuando, en
realidad, s lo es. Entonces el mejor mtodo a usar ante la existencia de heterocedasticidad es MCG.
Pruebas de heterocedasticidad
Existen diversos contrastes de heterocedasticidad los cuales se basan en la hiptesis nula de que la varianza de
las perturbaciones es homocedstica. Los mtodos ms conocidos son los siguientes:
a) Contraste de BreuschPaganGodfrey (BPG)

La prueba BPG primero estima el modelo mediante MCO. Luego obtiene el estimador de Mxima
Verosimilitud de la varianza (

). Despus construye la siguiente constante para toda la


muestra:

; donde

puede ser

(variable explicativa original o


algunas de ellas, de las cuales se sospecha, generan la heterocedasticidad). Finalmente, sobre la base
de la de la regresin anterior, se genera el siguiente estadstico:
5()


El comportamiento asinttico del estadstico puede ser descrito como de una distribucin

, por lo
que al compararra con el valor de tabla, si el calculado resulta mayor entonces se rechaza la hiptesis
nula.

Para realizar esta prueba en Stata 12 es necesario introducir luego de la regresin el comando:
estat hettest



Si el valor obtenido a travs de la prueba es superior al de tabla, entonces se rechaza la hiptesis nula
de varianza constante.

b) Contraste de White

Esta es la prueba ms popular para detectar heterocedasticidad. Sin embargo, tiene la desventaja de
no reconocer la causa de la heterocedasticidad ni su forma.
Para realizar este test, se tiene que realizar una regresin de los errores mnimos cuadrticos,
elevados al cuadrado, contra: una constante, los cuadrados de

, y los productos cruzados de


segundo orden.
Prob > chi2 = 0.1647
chi2(1) = 1.93
Variables: fitted values of lngasexppc
Ho: Constant variance
Breusch-Pagan / Cook-Weisberg test for heteroskedasticity
32

Esta regresin, por Teora Asinttica, por la Ley de los Grandes Nmeros, genera un estadstico
que se puede contrastar con los valores de tabla.
Para el uso de esta prueba en Stata, es necesario descargala. Para ello se inserta el siguiente
comando:
ssc install whitetst

Inmediatamente despus de una regresin, se ingresa el comando de la prueba.

whitetst


Se observa el P-value y se constata si se puede rechazar o no la presencia de heterocedasticidad.
Soluciones al problema de heterocedasticidad
a) Utilizacion del mtodo de MCG
Es importante especificar bien (inversa de la matriz de covarianzas) para que los estimadores de MCG sean
insesgados. Aplicando el mtodo al modelo inicial se obtiene:


b) Utilizacin de las varianzas corregidas de White
Suponiendo que el estimador obtenido por MCO es insesgado y consistente, y que el tamao de la muestra es
grande, podemos utilizar las varianzas consistentes con heterocedasticidad de White, la cual es:
(

) ()

()


donde

[


Y se hace referencia a los residuos de la estimacin MCO del modelo original.
3. Autocorrelacin
Se afirma que existe autocorrelacin cuando la covarianza entre los trminos de perturbacin es diferente de
cero. Esto es comn en muestras de series de tiempo.
(

)
Dada la siguiente funcin de autocorrelacin:

)
(

(
)

White's general test statistic : 26.11993 Chi-sq( 9) P-value = .002
. whitetst
33

Donde

. La matriz de varianzas y covarianzas adopta la siguiente forma:


()


La autocorrelacin surge a causa de diversas razones como la exclusin de variables correlacionadas, error de
especificacin, errores de medicin que se acumulan y estn autocorrelacionados, etc. Las perturbaciones
pueden generarse de un proceso autoregresivo (AR) o de promedios mviles (MA).

Eficiencia de los estimadores MCO y MCG
Al igual que en el caso de heterocedasticidad, en el caso de autocorrelacin los estimadores continan siendo
lineales e insesgados, pero no son eficientes porque no poseen varianza mnima. Por lo tanto, los estimadores
obtenidos mediante MCG resultan ms eficientes puesto que incorporan el factor de autocorrelacin.
Pruebas de autocorrelacin
a. Contraste de Durbin-Watson (DW)
Es un constraste que toma la siguiente forma:

(

( )



( )


Donde es la autocorrelacin muestral, por lo cual, si la muestra es grande:
( )
Notemos adems que es el coeficiente MCO de regresionar

sobre

.

Valores del estadstico cercanos a cero indican autocorrelacin positiva de primer orden, mientras que
valores cercanos a cuatro indican autocorrelacin negativa de primer orden. Es vlido, adems, afirmar
que valores de que tienden a ser menores (mayores) que 2 ser indicio de autocorrelacin positiva
(negativa) en las perturbaciones.

La comparacin formal de la prueba se hace con los valores de tabla de Durbin y Watson, el cual
cuenta con un lmite superior y un lmite inferior, que dependen nicamente del tamao de la muestra
y del nmero de variables explicativas en la regresin.

Aceptar si
Rechazar si
No se llega a una conclusin si
34


Esta prueba no es vlida cuando la matriz X no es estrictamente no estocstica, cuando la regresin no
incluye un trmino constante (intercepto) y cuando el proceso autoregresivo (AR) no es de primer
orden.

Se necesita contar con una base de datos de serie de tiempo para realizar esta prueba. Para ello se
emplear la siguiente disponible en la web:

webuse air2


Luego de contar con la base de datos, establecemos la variable tiempo de esta forma:

tsset t


Una vez establecida la variable y realizada la regresin (regress air L.air), podemos emplear el
comando para la prueba:

estat dwatson

b. Contraste de Breusch-Godfrey:
Es una prueba ms general que la de Durbin-Watson, puesto que es vlidad para cualquier orden de
correlacin. Para realizar la prueba se asume que los trminos de error siguen un patrn autoregresivo
contra los valores rezagados de perodos atrs.


Donde

es un trmino estocstico.
Se plantea la hiptesis nula de no autocorrelacin:


Luego de realizar la estimacin mediante MCO al modelo que se plantee, se debe obtener los residuos

. Estos ltimos deben volverse a estimar de la siguiente forma:


Empleamos el

obtenido en esta ltima regresin y la empleamos en la expresin:


( )


(TIMESLAB: Airline passengers)
. webuse air2
delta: 1 unit
time variable: t, 1 to 144
. tsset t
35

Este valor luego se compara con los valores de la tabla

para llegar luego a una conclusin sobre la


existencia de autocorrelacin.
La utilizacin de esta prueba en Stata debe realizarse siguiendo el comando:
Estat bgodfrey

Si se desea realizar la prueba con ms de un valor rezagado, debe cambiarse el nmero (1) por el
nmero de rezagos empleados.
Soluciones al problema de autocorrelacin
FALTAN SOLUCIONES


H0: no serial correlation

1 15.439 1 0.0001

lags(p) chi2 df Prob > chi2

Breusch-Godfrey LM test for autocorrelation
. estat bgodfrey, l(1)
36

VI. Levantamiento de Supuestos III
8

FALTAN BASE Y EJEMPLOS

Hasta ahora hemos visto modelos en donde las variables son independientes de los residuos. Sin
embargo, no siempre se encontrarn datos que concuerden con estos modelos; en algunos casos
existe una correlacin entre alguna de las variables explicativas y alguna variable no explicitada en
el modelo (cuyo efecto se encuentra contabilizado en el trmino de error). Este es el problema de la
endogeneidad.

1. Modelos con Problemas de Endogeneidad

Uno de los supuestos del modelo clsico de regresin lineal es:
( )
Y, naturalmente:
(

)
No obstante, se puede dar que los datos con los que se trabaja lleven a que no se cumpla esta
condicin. Por lo que se tendra en estos casos que:
( )
(

)
2. Anlisis del problema: causas, deteccin y soluciones
Las posibles causas para este problema son:
a) Cuando hay variables omitidas no observables.
b) Cuando hay errores en la medicin en las variables.
c) Estimacin de sistemas de ecuaciones.

La manera ms simple para saber si es que se tiene un problema de endogeneidad es hacer una
prueba de correlacin entre las variables explicativas y el trmino de error. De ser esta correlacin
distinta a 0, entonces nos encontramos ante un problema de endogeneidad.

Para hacer este test en Stata, primero se debe almacenar los residuos luego de hacer una regresin:
regress lngasexppc income pnc puc
predict resid
Luego se puede hacer el test de correlacin de Pearson:
corr income pnc puc resid

8
Para este captulo se usar la base de datos XXXXX.
37


Como se puede observar, las correlaciones entre los residuos y las variables exgenas son diferentes
de 0. Entonces hay un problema de endogeneidad.

Este problema no se puede solucionar desde el lado de los datos, pero s se puede llegar a mejores
estimaciones si es que se usan ciertos mtodos que se mostrarn en la siguiente seccin.

3. Estimador de Variables Instrumentales (VI ) y Mnimos Cuadrados Dos Etapas (MC2E).
Mtodo de Momentos Generalizados (MGM)

Variables instrumentales

Se considera un conjunto de variables instrumentales , el cual cumple con las siguientes
condiciones:

Relevancia, es decir debe estar correlacionada con las explicativas.
( )

Exogeneidad, es decir no debe estar correlacionada con la perturbacin.
( )

Mnimos cuadrados en 2 etapas (MC2E)

Ahora se pasa a ver el mtodo de mnimos cuadrados en 2 etapas (MC2E), que es la forma ms
comn de usar variables instrumentales.

Sea la matriz de variables independientes y la matriz de instrumentos, se realiza la siguiente
regresin:

De aqu se obtiene

de la siguiente manera:


Al obtener

se ha instrumentalizado a la variable , la cual presentaba el problema de


endogeneidad. Finalmente se lleva a cabo la regresin que se tena en mente al inicio, pero con la
matriz de variables instrumentalizadas.

0


De aqu obtendremos el estimador

.

Para llevar a cabo la regresin de variables instrumentales en Stata, se pone el siguiente comando:
ivreg lngasexppc(lnincome pnc puc = pd pn ps)
resid 0.9935 0.9646 0.9500 1.0000
puc 0.9526 0.9939 1.0000
pnc 0.9556 1.0000
income 1.0000

income pnc puc resid
38

Donde se tiene a pd, pn y ps como instrumentos para las variables explicativas.
Sin embargo, con este comando se instrumentalizan todas las variables independientes.

Si es que queremos instrumentalizar una variable en especfico, se puede seguir el siguiente
proceso:
regress [variable a instrumentalizar] [instrumentos]
predict [instrumentalizada]
regress [endgena] [exgenas] [instrumentalizada]
Este proceso que se acaba de describir bsicamente ha seguido los pasos descritos lneas arriba
sobre el mtodo de MC2E.

Prueba de Hausman:

Una manera para conocer si el estimador

es ms eficiente que el estimador obtenido por MCO


es aplicando el test de Hausman. Dicho contraste se basa en la comparacin de los estimadores
MCO y VI, determinando si la diferencia entre ellos es estadsticamente significativa.

Para llevar a cabo este test, primero se debe guardar los estimadores luego de las regresiones MCO
y VI. Esto se hace poniendo lo siguiente inmediatamente despus de cada regresin:

regress lngasexppc income pnc puc
estimates store mco
ivreg lngasexppc(lnincome pnc puc = pd pn ps)
estimates store vi

Para el test de Hausman, el comando es el siguiente:

hausman mco vi


39

Mtodo generalizado de momentos(MGM)

En el caso de contar con una muestra grande, ante el problema de endogeneidad, se puede usar el
Mtodo Generalizado de Momentos (MGM). El uso de este mtodo se da generalmente cuando se
desconoce la funcin de distribucin de las variables aleatorias.
La funcin objetivo del MGM es:
() [

)] [(

)]
De donde se obtiene que:


Adems, es la matriz de ponderadores, la cual es la inversa de la matriz de covarianzas de las
restricciones, que a su vez depende de la matriz de covarianzas poblacional de los trminos de error.
Para hacer uso de este mtodo, se debe poner en Stata el siguiente comando, usando la base de datos
auto:
webuse auto, clear
gmm (mpg - {b1}*weight - {b2}*length - {b0}), instruments(weight length)

40

VII. Levantamiento de Supuestos IV

1. Modelos con Variables Dependientes Limitadas
En captulos anteriores se analiz a la variable dependiente cuando era cuantitativa, es decir, la variable
respuesta tomaba cantidades numricas; sin embargo, ahora se analiza a la variable dependiente tomando
respuesta cualitativa, por ejemplo, la variable dependiente responde al resultado de votar a favor de
Ollanta o votar en favor de Keiko, donde Ollanta =0 y Keiko = 1, incluso podemos extender el resultado
de la variable respuesta a votar en favor de Toledo = 2. De esta manera, la variable dependiente no solo
puede ser dicotmica o binaria, sino polictoma o mltiple pero siempre limitada.

2. Modelos de Eleccin Binaria y Mltiple: Logit, Probit y extensiones.
En los modelos con variables dependientes cualitativas los resultados se comportan de manera discreta,
es decir, un nmero acotado de respuestas, por este motivo a la hora de encontrar la ocurrencia se usa la
probabilidad de que el acontecimiento se d.
En el caso de un modelo con variable regresada dicotmica, donde dicha variable toma valores de 0 o 1,
sigue una distribucion de Bernoulli, de tal manera que el modelo

tiene:
[

]
[

)
Existen diversos problemas con respecto al Modelo de eleccin binaria. Primero, la no necesaria
existencia de normalidad del trmino de perturbacin

, pero este no resulta un problema mayor, pues


en muestras grandes tiende a tener una distribucion normal. Segundo, la heterocedasticidad del modelo,
debido a que la varianza es una funcin de los regresores esta no es constante, pero el problema de
heterocedasticidad, al igual que el de la no normalidad, no es insuperable. Tercero, el incremento
41

marginal de siempre permanece constante, algo que no concuerda con la realidad. Finalmente, el que
[

] escape de sus intervalos 0 y 1, aunque esto a priori esto es verdadero, no hay garanta de los
estimadores de [

] cumplan necesariamente esta condicin por ese motivo se formula la existencia


de una variable latente o ndice, es decir, una demarcacin a partir de la cual los nmeros mayores a esta
toman el valor de 1, as mismo los valores menores a esta toman el valor de 0; el segundo procedimiento
es disear una tcnica de estimacin que garantice que las probabilidades condicionales se encuentren
entre 0 y 1.
Se necesita de modelos probabilsticos con los que se pueda conciliar en el tercer y ltimo problema
descrito. Por ese motivo se usa los modelos Logit y Probit, ambos con funcin de distribucion
acumulativa, debido a que [

] (

) (

).
Modelo Logit
La funcin de distribucion logstica representada como:
()


Se encuentra dentro de un rango 0 a 1, para cualquier valor de

entre , con lo que la


probabilidad no est linealmente relacionado con Z, de esta manera se satisface los dos requisitos
considerados antes.
Modelo Probit
La funcin de distribucion probabilstica representada como:
(

()



42

El problema de que la probabilidad puede encontrarse fuera del rango entre 0 y 1, podemos
considerar un indicador que depende de las caractersticas individuales (

), de manera que el
individuo toma la decisin

si

, este indicador tambin conocido como variable latente.


3. Modelos con Datos Censurados y Truncados
Modelo con Datos Censurados
Los modelos censurados son aquellos en los valores inferiores o superiores a cierta cantidad son
sustituidos por una cantidad fija, por ejemplo cero o uno; as mismo, se define como modelos en los que
no se conocen algunos valores del regresando. En general, el modelo censurado es aquel done el valor de
la variable endgena superior o inferior es desconocido, por ese motivo estn sometido a un lmite por el
cual es sustituido. Por ejemplo, en los datos de nivel de ingreso, si los datos estn por debajo del umbral
de pobreza (extrema pobreza), entonces existe censura.
Cuando existe censura, la distribucion que siguen los datos muestrales es una combinacin de
distribucion discreta y continua, pues para valores inferiores o superiores al rango acotado, la variable se
comporta de manera discreta, en los dems casos toma va forma de variable continua. La distribucion
normal censurada sigue el siguiente comportamiento:
..
..
La estimacin de este modelo se realiza por el mtodo de mxima verosimilitud, ya que el proceso de
MCO presenta inconvenientes.
Modelo con Datos Truncados
Una muestra se considera truncada cuando ciertas observaciones son sistemticamente excluidas de la
muestra, esto debido a que solo ciertas observaciones satisfacen el criterio. Por ejemplo, cuando se
43

quiere analizar la ecuacin de salario de los trabajadores de una empresa en funcin de sus
caractersticas socio laborales, el criterio de seleccin debe tener como salario mayor o igual que el
salario interprofesional mnimo vigente.
La funcin de Densidad de una variable truncada, parte de la definicin de probabilidad condicional, es
decir, el efecto de truncar equivale a acotar el rango en el cual se integre la funcin de densidad. La
distribucion Normal truncada sigue el siguiente comportamiento:
() ()
()

[ ()]
Siendo

, donde a es el lmite del truncamiento


El clculo del modelo de regresin truncado no se estima por MCO, sino mediante el mtodo de mxima
verosimilitud. El proceso de maximizacin de esta funcin, an es muy complicado, debido a la poca
linealidad de la misma.

4. Modelos de Seleccin.



44

VIII. Series de tiempo
La informacin de series temporales o series de tiempo es distinta a los casos de corte transversal pues
requieren de un tratamiento distinto. Especficamente, las modelaciones de variables antes mostradas pueden
sufrir ciertas fallas de especificacin ante estos casos. Motivo por el cual se requiere de la utilizacin de
modelaciones distintas que tomen en cuenta especificaciones matemticas lineales basadas en la dependencia
de una variable con respecto a su informacin pasada. Ello porque conocer el proceso generador de datos de
una serie de tiempo permitira predecir el comportamiento de la variable, caracterizarla y, en cierta medida,
conocer como afectarla, y en algunos casos controlarla.
En este tipo de casos de bases de datos (series de tiempo) se requiere realizar una declaracin de la base de
datos a Stata, debido a que por defecto el software reconoce todas las bases de datos como del tipo de corte
transversal. Adems, el comando tsset implica tambin el reconocimiento de una variable de tiempo (que
puede ser anual, semestral, trimestral, mensual, etc.). As por ejemplo al utilizar la base de datos air2.dta:
webuse air2.dta, clear
tsset t
1. Procesos Estocsticos y Estacionariedad
Sea una serie de tiempo


] donde el subndice representa observaciones en el tiempo se
denomina proceso estocstico discreto. Siendo que este proceso estocstico

puede ser tambin estacionario


en el sentido dbil
9
, en tanto que cumpla con tener media y varianza constantes, y con covarianzas que
solamente dependen de la distancia entre las observaciones:
(

)
(

) (


As, un proceso estocstico en el que la media es cero, la varianza es constante y las covarianzas nulas, se
denominar como Ruido Blanco (White Noise). Proceso que implica el mximo nivel de aleatoriedad y/o
independencia de una variable con respecto a sus rezagos. Por ejemplo, a continuacin se generar una

9
Pues la estacionariedad en el sentido fuerte, implica que tanto

como

tienen la misma funcin de probabilidad, para todo y .


Adems de que las funciones de probabilidad conjuntas del vector (

) y del vector (

) tambin deben de ser iguales.


Motivo por el cual todos los momentos relevantes seran independientes del tiempo.
45

muestra de 100 observaciones de una variable () que sigue una distribucin normal

(), tal que


representa un caso de Ruido Blanco pues ninguna observacin depende de su rezago:
clear
set obs 100
gen time=_n
tsset time
gen e=invnorm(uniform())
tsline e
histogram e, normal

Por otro lado, si es que la serie tiene relacin con sus rezagos
10
, esta puede modelarse como un proceso
autoregresivo. As podra tener dependencia con respecto a su primer rezago; proceso denominado tambin
como proceso autoregresivo de orden 1, donde se cuenta tambin con un trmino aleatorio

) o
Ruido Blanco:


Generalizando, tambin es posible especificar un caso de proceso autoregresivo de orden o modelo
AR(), que a la vez incluye un trmino aleatorio

). Tal que:


Donde gracias al supuesto de estacionariedad, se debera de cumplir que || .
Por otro lado, otra forma alternativa de modelacin es mediante los procesos de medias mviles de orden
o modelo MA(), que a la vez incluye un trmino aleatorio

). Tal que:


Que al igual que en los modelos AR, en los modelos MA se requiere que || para que el modelo sea
estacionario.
En tal sentido, tanto los modelos AR como los modelos MA, pertenecen a una familia mayor de modelos
estacionarios de series de tiempo denominados modelos ARMA( ) (Procesos Autoregresivos y de Medias
Mviles Estacionarias). Procesos que operan bajo la siguiente forma:

10
Para poder obtener unas primeras seales sobre si las variables muestran autocorrelacin. Revisar el captulo XX. [Ver si en el
captulo de Levantamiento de Supuestos I hay comandos sobre Durbin Watson, Ljung-Box o Estadstico Q]
-
3
-
2
-
1
0
1
2
e
0 20 40 60 80 100
time
0
.
2
.
4
.
6
D
e
n
s
i
t
y
-3 -2 -1 0 1 2
e
46


Y que por agregacin cumplen las condiciones de estacionariedad: || y || .
2. Metodologa Box-J enkins
La metodologa BoxJenkins (1976)
11
tiene como objetivo perseguir la parsimonia del modelo (i.e. usar la
menor cantidad de parmetros a estimar). Por ejemplo, en la dcada de 1960 se observ el desarrollo de
modelos macroeconmicos de gran dimensin con el propsito de describir la economa con cientos de
variables y ecuaciones. Muchos modelos de este tipo mostraron un buen ajuste en el perodo de estimacin,
sin embargo, sus proyecciones (en trminos de predicciones fuera de la muestra) resultaron pobres
12
.Ello
probablemente debido a la falta de especificacin del modelo de comportamiento de las variables. La
metodologa Box Jenkins propone un anlisis por etapas que permitira llegar al mejor modelo que describa
la conducta de series temporales.
Para efectos de un mejor entendimiento de la aplicacin de Stata a este tipo de datos se utilizar la base de
datos utilizada por Enders (2004, 87-93)
13
, que considera un modelo ARMA del ndice de Precios al por
Mayor (IPM o WPI por sus siglas en ingls), utilizando datos trimestrales durante el perodo 1960 1990.
webuse wpi1, clear
tsset t
i. Etapa de Identificacin: El primer paso que se debe de realizar es diferenciar la(s) series(s) con la(s)
que se va a trabajar, cuantas veces sea necesario para lograr que esta sea estacionaria (que cumpla con las
condiciones de estacionariedad). Para ello, es posible brindar una idea del comportamiento de la serie
mediante un anlisis grfico mediante el comando line. Si se intuye la no estacionariedad de la serie,
resultara necesario diferenciarla (en algunos casos como este segn el modelo ser posible simplemente
obtener los logaritmos de la serie).
tsline wpi
tsline ln_wpi


11
Box, G. E. P., and G. M. Jenkins. 1976. Time Series Analysis: Forecasting and Control. Oakland, CA: HoldenDay.
12
Hamilton, J (1994). Time Series Analysis, pag 109.
13
Enders, W. 2004. Applied Econometric Time Series. 2nd ed. New York: Wiley.
2
0
4
0
6
0
8
0
1
0
0
1
2
0
w
p
i
1960q1 1970q1 1980q1 1990q1
t
3
.
5
4
4
.
5
5
l
n
_
w
p
i
1960q1 1970q1 1980q1 1990q1
t
47

En este caso, la serie resulta ser no estacionaria!; motivo por el cual se optara por trabajar con las primeras
diferencias de la serie. As, se hace uso de la especificacin D. que permite hacer uso de las primeras
diferencias de una serie de datos a travs del tiempo, sin necesidad de realizar transformacin. Vale decir que
si se desea obtener las segundas diferencias de la serie bastara con utilizar la especificacin D2., y as
sucesivamente. Ello con la intencin de volver la serie estacionaria.
Asimismo, mediante las funciones de Autocorrelacin Simple y Parcial es posible obtener una mejor idea
sobre la estacionariedad de la serie. Adems, es posible adquirir una nocin de la naturaleza del proceso, si es
autoregresivo, de medias mviles, y de que orden. Es as que en este caso se utilizaran los comandos
corrgram, ac y pac. De tal manera que se obtendra lo siguiente
14
:
tsline D.wpi
tsline D.ln_wpi

corrgram D.ln_wpi, lags(20)
ac D.ln_wpi, title (Autocorrelacin)
pac D.ln_wpi, title (Autocorrelacin Parcial)

Siendo entonces que de acuerdo a estos cuadros y grficas se obtiene para este ejemplo, que la serie muestra
una conducta modelable mediante un proceso AR() y por un MA() o MA(4) o en otras palabras, el
proceso puede modelar por un modelo ARMA() o un modelo ARMA(4). Motivo por el cual se procede
a realizar la estimacin correspondiente mediante ese modelo.

14
Cabe mencionar que con la extensin de comando , lags(n) es posible especificar el nmero de rezagos que se desea mostrar
().
-
2
0
2
4
D
.
w
p
i
1960q1 1970q1 1980q1 1990q1
t
-
.
0
2
0
.
0
2
.
0
4
.
0
6
.
0
8
D
.
l
n
_
w
p
i
1960q1 1970q1 1980q1 1990q1
t
-
0
.
4
0
-
0
.
2
0
0
.
0
0
0
.
2
0
0
.
4
0
0
.
6
0
A
u
t
o
c
o
r
r
e
l
a
t
i
o
n
s

o
f

D
.
l
n
_
w
p
i
0 10 20 30 40
Lag
Bartlett's formula for MA(q) 95% confidence bands
Autocorrelacin
-
0
.
2
0
0
.
0
0
0
.
2
0
0
.
4
0
0
.
6
0
P
a
r
t
i
a
l

a
u
t
o
c
o
r
r
e
l
a
t
i
o
n
s

o
f

D
.
l
n
_
w
p
i
0 10 20 30 40
Lag
95% Confidence bands [se = 1/sqrt(n)]
Autocorrelacin Parcial
48

ii. Etapa de Estimacin: Implica la estimacin de cada uno de los modelos tentativos identificados en la
etapa anterior, para luego, seleccionar mediante la utilizacin de los criterios AIC y BIC el ms apropiado.
Siendo as, el comando arima permite la estimacin mediante el modelo ARMA, el comando predict
permite obtener los residuos correspondientes a esa estimacin, y la utilizacin del comando corrgram
permitir verificar el ajuste del modelo escogido. As:
arima D.ln_wpi, ar(1) ma(1)
estimates store arma11
arima D.ln_wpi, ar(1) ma(4)
estimates store arma14
est table arma*, stats (N ll chi2 aic bic) star style(noline)


As, para mayor facilidad el cuadro siguiente resume algunas de los casos que podran suceder con la Funcin
de Autocorrelacin y de la Funcin de Autocorrelacin Parcial, de forma que facilita la identificacin del
modelo ARMA a elegir:
Proceso Autocorrelacin (AC)
Autocorrelacin Parcial (PAC)
15

Ruido Blanco ()
AR(1), si

Cada Exponencial

()


AR(1), si

Cada Oscilante

()



15
Donde r refiere a la raz j-sima del proceso autoregresivo.

/sigma .0107907 .0004447 24.27 0.000 .0099192 .0116622

L4. .3024168 .0688106 4.39 0.000 .1675505 .4372831
ma

L1. .5368759 .0810246 6.63 0.000 .3780705 .6956813
ar
ARMA

_cons .0110096 .0034943 3.15 0.002 .004161 .0178583
ln_wpi

D.ln_wpi Coef. Std. Err. z P>|z| [95% Conf. Interval]
OPG

Log likelihood = 382.1603 Prob > chi2 = 0.0000
Wald chi2(2) = 89.36
Sample: 1960q2 - 1990q4 Number of obs = 123
ARIMA regression
Iteration 9: log likelihood = 382.16034
Iteration 8: log likelihood = 382.16031
Iteration 7: log likelihood = 382.1594
Iteration 6: log likelihood = 382.12659
Iteration 5: log likelihood = 381.98513
(switching optimization to BFGS)
Iteration 4: log likelihood = 381.9634
Iteration 3: log likelihood = 381.82255
Iteration 2: log likelihood = 381.18194
Iteration 1: log likelihood = 380.82961
Iteration 0: log likelihood = 380.18931
(setting optimization to BHHH)
. arima D.ln_wpi, ar(1) ma(4)

/sigma .0107907 .0004447 24.27 0.000 .0099192 .0116622

L4. .3024168 .0688106 4.39 0.000 .1675505 .4372831
ma

L1. .5368759 .0810246 6.63 0.000 .3780705 .6956813
ar
ARMA

_cons .0110096 .0034943 3.15 0.002 .004161 .0178583
ln_wpi

D.ln_wpi Coef. Std. Err. z P>|z| [95% Conf. Interval]
OPG

Log likelihood = 382.1603 Prob > chi2 = 0.0000
Wald chi2(2) = 89.36
Sample: 1960q2 - 1990q4 Number of obs = 123
ARIMA regression
Iteration 9: log likelihood = 382.16034
Iteration 8: log likelihood = 382.16031
Iteration 7: log likelihood = 382.1594
Iteration 6: log likelihood = 382.12659
Iteration 5: log likelihood = 381.98513
(switching optimization to BFGS)
Iteration 4: log likelihood = 381.9634
Iteration 3: log likelihood = 381.82255
Iteration 2: log likelihood = 381.18194
Iteration 1: log likelihood = 380.82961
Iteration 0: log likelihood = 380.18931
(setting optimization to BHHH)
. arima D.ln_wpi, ar(1) ma(4)
49

AR(p) Cada Exponencial u Oscilante


MA(1), si

Pico positivo en (). () Cada Oscilante


MA(1), si

Pico negativo en (). () Cada Exponencial


ARMA(1,1), si

Cada exponencial en ()
() (

)
Cada Oscilante comenzando en

()
ARMA(1,1), si

Cada oscilante en ()
() (

)
Cada exponencial comenzando en

()
ARMA(p,q) Cada oscilante o exponencial
comenzando en el rezago
Cada oscilante o exponencial
comenzando en el rezago

iii. Diagnstico: Como se mencion anteriormente, para medir la bondad de ajuste de un modelo
estimado, los estadsticos ms utilizados son los antes mencionados criterios de seleccin de modelos
anidados ( cuadrado, el cuadrado ajustado, el AIC y el BIC). Adicional a ello, se suele graficar los
residuos estimados del modelo para analizar el grado de ajuste del modelo; pues cualquier indicio de
autocorrelacin que se mantenga implicara un mejor ajuste del modelo.
predict resid_arma, resid
corrgram resid_arma
Siendo que si los residuos estimados no se comportan como un Ruido Blanco, se debera de buscar outliers o
comportamientos anmalos o un mejor modelo de estimacin. Ante ello una sugerencia sera particionar la
muestra y analizar de forma separada para encontrar cambios en la estructura de la modelizacin. Para el caso
de outliers el comando hadimvo puede ser utilidad para su deteccin. Otra posibilidad es la existencia de
races unitarias.
iv. Prediccin: Como forma adicional de evaluar la correcta especificacin del modelo, se puede utilizar
comandos que permitan realizar predicciones de la variable dependiente a partir de los parmetros estimados.
Ello, pues otra forma de analizar un modelo es a travs de su capacidad predictiva (mediante un prediccin
fuera de la muestra), por lo que se procede a ampliar la muestra y reestimar la variable a analizar el
mantenimiento de la estacionariedad.
predict ln_wpiest
set obs 248
replace t=_n
predict ln_wpiest2
3. Series de Tiempo no Estacionarias
As como se mencion en el punto anterior, es posible que las series de tiempo sean descritas por procesos no
estacionarios (en los que la media y la varianza no son constantes pues dependen del tiempo). En tal sentido
es posible una modelacin asumiendo que:
La serie incluye una tendencia temporal deterministica:

()


50

La serie posee una raz unitaria: ( )

()


La deteccin de la existencia o no de races unitarias en series resulta relevante pues la definicin de
estacionariedad o no en una serie tiene implicancias importantes. As por ejemplo los shocks que afectan a
series estacionarias son temporales (i.e. se disipan con el tiempo); mientras que en casos de series no
estacionarias, el efecto es permanente. Para ello algunos indicios seran:
La no existencia de un valor medio de largo plazo al cual retorne la serie
Varianza dependiente del tiempo
Las funciones de autocorrelacin tericas no convergen; pero en muestras finitas, el correlograma
converge lentamente.
Dado que la evaluacin de los correlogramas es solo un indio de la estacionariedad de las variables, resulta de
utilidad realizar pruebas de raz unitaria. Siendo que para el caso de Stata se cuenta con algunos de los
principales tipos de contrastes: Dickey Fuller, Dickey Fuller Aumentado, DF GLS y el Phillips Perron.
i. Contraste Dickey Fuller: Es este caso el modelo ms sencillo es el desarrollado por Dickey y
Fuller:


Siendo que al restar a ambos lados

, se obtiene que:

( )


Por lo que el contraste trabaja bajo la hiptesis nula de que . No obstante, este contraste tambin admite
especificaciones sobre la forma del modelo a utilizar (inclusin de tendencia lineal, intercepto, etc.)
ii. Contraste Dickey Fuller Aumentado: permite realizar un anlisis mucho ms amplio ya que admite
no solamente la existencia de un proceso AR(1), sino la existencia de un AR(p). As el comando dfuller
permite la especificacin del nmero de rezagos que se desea evaluar:


Donde se muestra evidencia para no rechazar la hiptesis nula de existencia de raz unitaria en la serie.

_cons .0030292 .0082969 0.37 0.716 -.0134024 .0194609

L2D. .2582904 .0899031 2.87 0.005 .0802421 .4363387
LD. .456857 .089732 5.09 0.000 .2791475 .6345665
L1. .0000821 .0020639 0.04 0.968 -.0040054 .0041696
ln_wpi

D.ln_wpi Coef. Std. Err. t P>|t| [95% Conf. Interval]

MacKinnon approximate p-value for Z(t) = 0.9617

Z(t) 0.040 -3.503 -2.889 -2.579

Statistic Value Value Value
Test 1% Critical 5% Critical 10% Critical
Interpolated Dickey-Fuller
Augmented Dickey-Fuller test for unit root Number of obs = 121
. dfuller ln_wpi, regress lags(2)

_cons .0030292 .0082969 0.37 0.716 -.0134024 .0194609

L2D. .2582904 .0899031 2.87 0.005 .0802421 .4363387
LD. .456857 .089732 5.09 0.000 .2791475 .6345665
L1. .0000821 .0020639 0.04 0.968 -.0040054 .0041696
ln_wpi

D.ln_wpi Coef. Std. Err. t P>|t| [95% Conf. Interval]

MacKinnon approximate p-value for Z(t) = 0.9617

Z(t) 0.040 -3.503 -2.889 -2.579

Statistic Value Value Value
Test 1% Critical 5% Critical 10% Critical
Interpolated Dickey-Fuller
Augmented Dickey-Fuller test for unit root Number of obs = 121
. dfuller ln_wpi, regress lags(2)
51

No obstante, son varios los estudios (Enders cap 3, Hayashi cap9, Hamilton cap 15 y16) que ponen a prueba
este contraste obtenindose que la regresin por MCO aqu realizada, no permite modelar bien el
comportamiento de la serie. En tal sentido se realiza una revisin a este contraste mediante el uso de la
metodologa MCG.
iii. Contraste DF GLS o Contraste Elliot, Rothenberg y Stock (ERS): Utiliza el modelo propuesto por
el contraste Dickey Fuller Aumentado, pero lo estima mediante la metodologa de MCG.


Donde se recomienda ser muy cauteloso, y evaluar la posible existencia de tendencia en los datos (

),
constante (
0
), o una combinacin de ambas posibilidades.

Donde se entiende que bajo el criterio secuencial Ng Perron se sugiere la utilizacin de 4 rezagos, mientras
que el criterio de informacin Schwartz (SIC) sugiere 2 rezagos, y el criterio de Akaika modificado por Ng
Perron (MAIC) tambin sugiere 4 rezagos.
iv. Contraste Phillip Perron: calcula una regresin sobre sus propios rezagos. Y opcionalmente la
constante puede ser excluida de la misma o una tendencia puede ser incluida.

4. Vectores Autoregresivos (VAR)
Min MAIC = -8.967179 at lag 4 with RMSE .010883
Min SC = -8.850157 at lag 2 with RMSE .0112733
Opt Lag (Ng-Perron seq t) = 4 with RMSE .010883
1 1.791 -2.597 -2.083 -1.774
2 1.181 -2.597 -2.076 -1.767
3 0.901 -2.597 -2.067 -1.759
4 0.531 -2.597 -2.058 -1.751

[lags] Test Statistic Value Value Value
DF-GLS mu 1% Critical 5% Critical 10% Critical
DF-GLS for ln_wpi Number of obs = 119
. dfgls ln_wpi, maxlag(4) notrend

_cons -.0003102 .010549 -0.03 0.977 -.0211948 .0205744

L1. 1.002775 .0026097 384.25 0.000 .9976083 1.007941
ln_wpi

ln_wpi Coef. Std. Err. t P>|t| [95% Conf. Interval]

MacKinnon approximate p-value for Z(t) = 0.9816

Z(t) 0.403 -3.502 -2.888 -2.578
Z(rho) 0.231 -19.877 -13.746 -11.031

Statistic Value Value Value
Test 1% Critical 5% Critical 10% Critical
Interpolated Dickey-Fuller
Newey-West lags = 4
Phillips-Perron test for unit root Number of obs = 123
. pperron ln_wpi, regress
52

El anlisis de Vectores Autoregresivos (VAR) es muy utilizado desde la dcada de 1990 para evaluar las
relaciones dinmicas macroeconmicas. Dicho anlisis tiene la caracterstica de ser multivariado; es decir, se
evala el comportamiento de las series y su interrelacin en el periodo de tiempo analizado en forma
simultnea. As, los vectores autoregresivos son utilizados para estimar sistemas de series de tiempo
interrelacionadas y para analizar el impacto dinmico de innovaciones en dicho sistema de variables. De
acuerdo a Stock y Watson
16
(2001) es posible definir los elementos siguientes:
VAR Estructural: Usa la teora econmica para establecer las relaciones contemporneas entre las
variables. Un VAR estructural requiere de supuestos de identificacin que permita que las correlaciones sean
interpretadas por causalidad. Estos supuestos de identificacin pueden encontrar se en todo el VAR o solo en
algunas ecuaciones. El nmero de VAR estructurales es limitado solamente por la inventiva de cada
investigador.
VAR Reducido: Expresa cada variable como una funcin lineal de sus valores pasados y los valores
pasados de las dems variables, considerando los trminos de error en cada ecuacin no correlacionados
serialmente. Pero si las diferentes variables estn correlacionadas entre s, entonces los trminos de error entre
las ecuaciones podran estar contemporneamente correlacionadas.
VAR Recursivo: Construye los trminos de error en cada regresin como no correlacionado con el
trmino de error de las dems ecuaciones. Se incluye algunos valores contemporneos como regresores. La
estimacin de cada ecuacin se hace por medio de MCO, producindose residuos que no se encuentran
correlacionados. Los resultados dependen del orden de las variables, donde hay n representaciones de VAR.
Particularmente, la forma algebraica de un VAR (en forma reducida) es:


Tal que

es un vector de k variables endgenas;

es un vector de d variables exgenas;

, ,

y son
matrices de coeficientes que deben ser estimados; y

es un vector de innovaciones que pueden estar


contemporneamente correlacionadas una con otra, pero que no estn correlacionadas con las variables
explicativas.
Dado que aparecen solo variables predeterminadas (endgenas rezagadas) como explicativas, no hay
problema de simultaneidad, adems los trminos de error carecen de autocorrelacin serial y muestran una
varianza constante, por tanto, MCO es la tcnica de estimacin apropiada para cada una de las ecuaciones. De
este modo, los estimadores de MCO son consistentes y asintticamente eficientes.
En tal sentido Stata ofrece el comando varbasic que estima un VAR(p) y grafica la respectiva funcin
impulso respuesta (IR), la funcin impulso respuesta ortogonalizada (IRO) o la descomposicin de varianza
de los errores predichos (FEVD, por sus siglas en ingls). Pero por defecto incluye un rezago. Asimismo, el
comando var, permite estimar un VAR(p), siendo que permite incluir exgenas en el modelo; e imponer
restricciones lineales a cualquiera de los coeficientes en el VAR, pero no se permite imponer restricciones a la
matriz de varianzas y covarianzas de los errores (cuestin que el comando svar si permite). Para ello, se

16
J. H. Stock y M. Watson (2001) Vector Autoregressions. Journal of Economic Perspectives. Volumen 15 N4.
53

utilizar la base de datos lutkepohl2.dta que incluye tres variables: la primera diferencia del logaritmo
natural de la inversin, dln_inv; la primera diferencia del logaritmo natural de los ingresos, dln_inc; y la
primera diferencia del logaritmo natural del consumo, dln_consump. El conjunto de datos contiene datos para
el perodo 1960q1 1982q4. Pero se utilizar nicamente la muestra correspondiente al perodo 1960q1
1978q4.
webuse lutkepohl2, clear
tsset
varbasic dln_inv dln_inc dln_consump
54


.

_cons .0123795 .0028414 4.36 0.000 .0068104 .0179485

L2. -.1159776 .1219257 -0.95 0.341 -.3549475 .1229924
L1. -.2845172 .1222938 -2.33 0.020 -.5242086 -.0448257
dln_consump

L2. .3664341 .1046134 3.50 0.000 .1613955 .5714726
L1. .2893204 .1078057 2.68 0.007 .0780251 .5006157
dln_inc

L2. .0497402 .0244401 2.04 0.042 .0018384 .097642
L1. .0027381 .02453 0.11 0.911 -.0453398 .050816
dln_inv
dln_consump

_cons .0125949 .0032092 3.92 0.000 .0063049 .0188848

L2. .0490208 .1377087 0.36 0.722 -.2208833 .318925
L1. .3050571 .1381245 2.21 0.027 .034338 .5757762
dln_consump

L2. .0209769 .1181555 0.18 0.859 -.2106036 .2525573
L1. -.1232543 .121761 -1.01 0.311 -.3619015 .1153928
dln_inc

L2. .0616319 .0276039 2.23 0.026 .0075293 .1157345
L1. .0433473 .0277054 1.56 0.118 -.0109542 .0976488
dln_inv
dln_inc

_cons -.0099191 .0126649 -0.78 0.434 -.0347419 .0149037

L2. .5980687 .5434576 1.10 0.271 -.4670886 1.663226
L1. .6520473 .5450985 1.20 0.232 -.4163261 1.720421
dln_consump

L2. .1827302 .466292 0.39 0.695 -.7311852 1.096646
L1. .3374819 .4805209 0.70 0.482 -.6043217 1.279286
dln_inc

L2. -.1340503 .1089367 -1.23 0.218 -.3475624 .0794617
L1. -.2725654 .1093372 -2.49 0.013 -.4868623 -.0582684
dln_inv
dln_inv

Coef. Std. Err. z P>|z| [95% Conf. Interval]


dln_consump 7 .009938 0.2400 28.09971 0.0001
dln_inc 7 .011224 0.1514 15.87886 0.0144
dln_inv 7 .044295 0.1051 10.45617 0.1067

Equation Parms RMSE R-sq chi2 P>chi2
Det(Sigma_ml) = 1.15e-11 SBIC = -15.61983
FPE = 1.84e-11 HQIC = -15.97035
Log likelihood = 742.2131 AIC = -16.20704
Sample: 1960q4 - 1982q4 No. of obs = 89
Vector autoregression
55


Identificacin
Debido a que la especificacin de una VAR en forma estructural (de donde se origina un VAR en forma
reducida) implica un mecanismo de retroalimentacin o dependencia contempornea entre las variables
endgenas (i.e.

),

), en el caso de dos variables), las ecuaciones del sistema estructural no


pueden ser estimadas directamente, a diferencia de las ecuaciones en forma reducida. MCO permite obtener
estimaciones de los elementos de las matrices

, ,

y y estimadores de las varianzas y covarianzas del


vector de errores

. Siendo que la pregunta relevante es si ser posible recuperar los parmetros originales del
modelo estructural, ya que el nmero de estos es mayor al del nmero de parmetros del modelo reducido.
Esto ser posible en la medida en que se impongan las restricciones adecuadas sobre los parmetros del
modelo estructural.
Nmero de Rezagos ptimo
La eleccin de rezagos es muy importante, pues si se especifica un nmero grande de rezagos , se pierden
grados de libertad en la estimacin, pero por otro lado, si es muy pequeo, habra problemas de
especificacin. En tal sentido se requiere de criterios para la seleccin de este nmero de rezagos. Por ello el
comando varsoc muestra el error de prediccin final (FPE), el criterio de Akaike (AIC), el criterio
Bayesiano (SBIC) y de Hannan y Quinn (HQIC) con el objetivo de encontrar el orden del VAR.
Siendo que el nmero de rezagos recomendado por la mayora de los criterios de informacin (marcados con
asteriscos) sera el elegido. Siendo que para este ejemplo el nmero recomendado es de dos rezagos.
-.02
0
.02
.04
.06
-.02
0
.02
.04
.06
-.02
0
.02
.04
.06
0 2 4 6 8 0 2 4 6 8 0 2 4 6 8
varbasic, dln_consump, dln_consump varbasic, dln_consump, dln_inc varbasic, dln_consump, dln_inv
varbasic, dln_inc, dln_consump varbasic, dln_inc, dln_inc varbasic, dln_inc, dln_inv
varbasic, dln_inv, dln_consump varbasic, dln_inv, dln_inc varbasic, dln_inv, dln_inv
95% CI orthogonalized irf
step
Graphs by irfname, impulse variable, and response variable
56


Causalidad a lo Granger (Granger Causality)
Permite examinar si los valores rezagados de una variable aportan en la prediccin de otra variable. En tal
sentido, permite evaluar si los rezagos de una variable explican o no a la otra variable. As, el comando
vargranger realiza la prueba de causalidad a lo Granger para cada una de las ecuaciones del VAR, y se
ejecuta luego de haber realizado la estimacin del VAR con los comandos var o svar.

Funciones de Impulso Respuesta y Descomposicin de Varianza
Una herramienta que permite analizar las interrelaciones dinmicas entre las variables en un VAR es la
representacin VMA (Vector Moving Average). Debido a que todo proceso autoregresivo tiene una
representacin MA, un VAR puede ser representado como un VMA, de tal modo que las variables endgenas
estn expresadas en funcin de los valores contemporneos y pasados de los shocks o trminos de error.
As, una vez obtenida la representacin VMA, el objetivo es calcular lo que se conoce como funcin impulso
respuesta (FIR). Siendo que la FIR evala el efecto de un shock equivalente a una desviacin estndar de
alguna de las innovaciones sobre las variables endgenas. Un shock a la variable i-sima afecta directamente a
dicha variable, pero tambin transmite su efecto a todas las otras variables endgenas a travs de la estructura
dinmica del VAR.
Siendo que si las innovaciones no estn correlacionadas, la FIR medir el efecto de un shock de una
desviacin estndar en una de las variables endgenas sobre el valor corriente y futuro de si misma y sobre los
valores futuros de las otras variables.
Exogenous: _cons
Endogenous: dln_inv dln_inc dln_consump

4 738.353 18.458* 9 0.030 2.1e-11 -16.0771 -15.632 -14.9717
3 729.124 8.8557 9 0.451 2.1e-11 -16.0718 -15.7294 -15.2215
2 724.696 26.028 9 0.002 1.9e-11* -16.1769* -15.9372 -15.5817
1 711.682 30.568 9 0.000 2.1e-11 -16.0846 -15.9477* -15.7445
0 696.398 2.4e-11 -15.9402 -15.9059 -15.8552*

lag LL LR df p FPE AIC HQIC SBIC

Sample: 1961q2 - 1982q4 Number of obs = 87
Selection-order criteria
. varsoc dln_inv dln_inc dln_consump

dln_consump ALL 21.717 4 0.000
dln_consump dln_inc 16.275 2 0.000
dln_consump dln_inv 4.2446 2 0.120

dln_inc ALL 13.087 4 0.011
dln_inc dln_consump 5.1029 2 0.078
dln_inc dln_inv 6.2466 2 0.044

dln_inv ALL 7.3184 4 0.120
dln_inv dln_consump 1.9443 2 0.378
dln_inv dln_inc .55668 2 0.757

Equation Excluded chi2 df Prob > chi2

Granger causality Wald tests
. vargranger
57

Si por el contrario, las innovaciones estn correlacionadas (como suele suceder), quiere decir que tienen un
componente comn que no puede ser asociado con alguna variable especfica. Un mtodo muy utilizado pero
ciertamente arbitrario es atribuir todo el efecto de cualquier componente comn a la primera variable que
aparece en el sistema, de modo que las dems innovaciones son transformadas para extraerles dicho
componente comn. Es decir, los residuos son ortogonalizados mediante una descomposicin de Choleski, de
tal modo que la matriz de varianzas de los residuos o innovaciones sea diagonal.
En tal sentido, el comando irf permite obtener y analizar las FIR, la descomposicin de varianza y sus
errores estndar, ello mediante las especificaciones graph (que permite graficar la FIR y la descomposicin
de varianza) y table (que crea tablas con los valores de la FIR y la descomposicin de varianza. Pero antes
de ello se requiere crear una carpeta de resultados con la especificacin create luego de la estimacin con el
comando var.
irf create result_nombre, set(nombre)
irf graph oirf, impulse(dln_inc) response(dln_consump)
irf table oirf fevd, impulse(dln_inc) response(dln_consump)

5. Cointegracin y Modelo de Correccin de Errores (VECM)
En la prctica muchas series de tiempo econmicas se caracterizan por ser no estacionarias. Sin embargo, es
frecuente que las combinaciones lineales parecen ser estacionarias. Esas variables son denominadas
cointegradas y los pesos de la combinacin lineal son denominados elementos del vector de cointegracin.
(2) irfname = result_nombre, impulse = dln_inc, and response = dln_consump
(1) irfname = resultados, impulse = dln_inc, and response = dln_consump
95% lower and upper bounds reported

8 .000091 -.000133 .000315 .323499 .175744 .471253
7 .000151 -.000166 .000468 .323383 .17577 .470995
6 .000044 -.000495 .000582 .323552 .175826 .471277
5 .000462 -.000191 .001114 .322579 .175544 .469613
4 .000811 -.000338 .00196 .319227 .174066 .464389
3 -.000221 -.001518 .001076 .322454 .174356 .470552
2 .002948 .001002 .004894 .294288 .149797 .43878
1 .001635 -.000294 .003565 .288494 .13663 .440357
0 .005123 .003403 .006844 0 0 0

step oirf Lower Upper fevd Lower Upper
(2) (2) (2) (2) (2) (2)


8 .000091 -.000133 .000315 .323499 .175744 .471253
7 .000151 -.000166 .000468 .323383 .17577 .470995
6 .000044 -.000495 .000582 .323552 .175826 .471277
5 .000462 -.000191 .001114 .322579 .175544 .469613
4 .000811 -.000338 .00196 .319227 .174066 .464389
3 -.000221 -.001518 .001076 .322454 .174356 .470552
2 .002948 .001002 .004894 .294288 .149797 .43878
1 .001635 -.000294 .003565 .288494 .13663 .440357
0 .005123 .003403 .006844 0 0 0

step oirf Lower Upper fevd Lower Upper
(1) (1) (1) (1) (1) (1)

Results from resultados result_nombre
. irf table oirf fevd, impulse(dln_inc) response(dln_consump)
58

Las relaciones de cointegracin ms difundidas son entre el consumo y el ingreso disponible, entre los
determinantes de la demanda de dinero, relaciones entre las tasas de inter4es de corto y largo plazo, y el
contraste del concepto de paridad de poder de compra tambin mostrara una relacin de largo plazo, entre
otros.
Metodologa de Engle y Granger (1987)
De acuerdo a esta metodologa, se debera de seguir los siguientes pasos:
i. Analizar el orden de integracin de cada serie: Ello debido a que para realizar una prueba de
cointegracin, se requiere que todas las variables sean integradas del mismo orden (a partir de ()).
ii. Estimar la relacin de Largo Plazo: Si las series son todas () (integradas de orden uno) o
integradas del mismo orden, el siguiente paso es estimar la relacin de largo plazo.
iii. Analizar la estacionariedad de los errores de la estimacin del paso anterior: Siendo que si las
desviaciones de los residuos estimados del equilibrio de largo plazo son estacionarias, entonces se dice que las
series cointegran (i.e. existe una relacin (o ms) de cointegracin). Por el contrario, si los residuos son no
estacionarios, la relacin es esprea; por lo que se requiere de verificar la estacionariedad de los residuos
mediante el correlograma de residuos y pruebas de raz unitaria.
iv. Modelo de Correccin de Errores (corto plazo): Si las variables cointegran, los residuos de la
relacin de largo plazo, pueden ser utilizados para estimar el Modelo de Correccin de Errores.
Para ello, se tomarn datos anuales sobre el promedio per cpita de renta personal disponible en logaritmos
(NBER, 1948 2002). Siendo que luego de realizar las pruebas de raz unitaria correspondientes, no se
rechaza la hiptesis nula de que el ingreso per cpita disponible en cada regin contiene una raz unitaria.
Asimismo, dado que el capital y el trabajo pueden moverse fcilmente entre las diferentes regiones de los
Estados Unidos, es de esperar que no se desve una serie de todas las dems series y que las relaciones de
cointegracin existe. As, se obtiene que:
webuse rdinc, clear
line ln_ne ln_se year
vec ln_ne ln_se
59



El output por defecto tiene tres partes. La primera proporciona informacin acerca de la muestra, el modelo
estimado, y la identificacin de los parmetros en la ecuacin de cointegracin. La tabla principal contiene las
estimaciones de los parmetros de corto plazo, junto con sus errores estndar y los intervalos de confianza. Y
finalmente se muestran los resultados sobre el nmero de ecuaciones cointegradas y sobre las restricciones de
normalizacin impuestas.
Metodologa de Johansen y Juselius
.

_cons -.8964065 . . . . .
ln_se -.9433708 .0054643 -172.64 0.000 -.9540807 -.9326609
ln_ne 1 . . . . .
_ce1

beta Coef. Std. Err. z P>|z| [95% Conf. Interval]

Johansen normalization restriction imposed
Identification: beta is exactly identified

_ce1 1 29805.02 0.0000

Equation Parms chi2 P>chi2
Cointegrating equations

_cons .002429 .0084004 0.29 0.772 -.0140355 .0188936

LD. -.1605811 .2215922 -0.72 0.469 -.5948939 .2737317
ln_se

LD. .3366786 .1976448 1.70 0.088 -.050698 .7240553
ln_ne

L1. -.3543935 .0754725 -4.70 0.000 -.5023168 -.2064701
_ce1
D_ln_se

_cons -.0019846 .0080291 -0.25 0.805 -.0177214 .0137521

LD. -.6748754 .2117975 -3.19 0.001 -1.089991 -.2597599
ln_se

LD. .7168658 .1889085 3.79 0.000 .3466119 1.08712
ln_ne

L1. -.4337524 .0721365 -6.01 0.000 -.5751373 -.2923675
_ce1
D_ln_ne

Coef. Std. Err. z P>|z| [95% Conf. Interval]


D_ln_se 4 .018723 0.9292 642.7179 0.0000
D_ln_ne 4 .017896 0.9313 664.4668 0.0000

Equation Parms RMSE R-sq chi2 P>chi2
Det(Sigma_ml) = 4.06e-08 SBIC = -10.67004
Log likelihood = 300.6224 HQIC = -10.87595
AIC = -11.00462
Sample: 1950 - 2002 No. of obs = 53
Vector error-correction model
.

_cons -.8964065 . . . . .
ln_se -.9433708 .0054643 -172.64 0.000 -.9540807 -.9326609
ln_ne 1 . . . . .
_ce1

beta Coef. Std. Err. z P>|z| [95% Conf. Interval]

Johansen normalization restriction imposed
Identification: beta is exactly identified

_ce1 1 29805.02 0.0000

Equation Parms chi2 P>chi2
Cointegrating equations

_cons .002429 .0084004 0.29 0.772 -.0140355 .0188936

LD. -.1605811 .2215922 -0.72 0.469 -.5948939 .2737317
ln_se

LD. .3366786 .1976448 1.70 0.088 -.050698 .7240553
ln_ne

L1. -.3543935 .0754725 -4.70 0.000 -.5023168 -.2064701
_ce1
D_ln_se

_cons -.0019846 .0080291 -0.25 0.805 -.0177214 .0137521

LD. -.6748754 .2117975 -3.19 0.001 -1.089991 -.2597599
ln_se

LD. .7168658 .1889085 3.79 0.000 .3466119 1.08712
ln_ne

L1. -.4337524 .0721365 -6.01 0.000 -.5751373 -.2923675
_ce1
D_ln_ne

Coef. Std. Err. z P>|z| [95% Conf. Interval]


D_ln_se 4 .018723 0.9292 642.7179 0.0000
D_ln_ne 4 .017896 0.9313 664.4668 0.0000

Equation Parms RMSE R-sq chi2 P>chi2
Det(Sigma_ml) = 4.06e-08 SBIC = -10.67004
Log likelihood = 300.6224 HQIC = -10.87595
AIC = -11.00462
Sample: 1950 - 2002 No. of obs = 53
Vector error-correction model
60

Si consideramos un VAR de orden p:


Dicho sistema puede ser re-expresado de la forma:


El Teorema de Representacin de Granger afirma que si la matriz de coeficientes tiene rango ,
entonces existen las matrices y de orden () y de rango r de modo que y la combinacin lineal

es estacionaria. es el nmero de relaciones de cointegracin (el rango de cointegracin) y cada columna


de es un vector de cointegracin. Los elementos de son conocidos como parmetros de ajuste en el
modelo de correccin de errores. El mtodo utilizado por Johansen consiste en estimar la matriz por
mtodos de optimizacin (Mxima Verosmilitud), luego evaluar si se pueden rechazar las restricciones
implicadas por el rango de .
Nmero de Relaciones de Cointegracin
Si se tiene k variables endgenas, todas integradas de orden 1, slo pueden existir hasta k-1 relaciones de
cointegracin linealmente independientes entre ellas.
Si existen exactamente k relaciones de cointegracin en el sistema, ninguna de las series tiene raz unitaria (a
pesar de que, en algunos casos, debido a problemas de especificacin los tests de raz unitaria afirman la
presencia de sta aunque los tests de Johansen muestren que el rango de cointegracin es k).
Las relaciones de cointegracin
El anlisis del rango de puede ser visto como el nmero de relaciones de cointegracin existentes en las
series. Se obtienen r races caractersticas, si las variables no estn cointegradas entonces el rango de es
cero y todas las races son iguales a 1. Si el rango es 1, entonces ln(1-
1
) sera negativo y las otras cero.
Cada columna de la matriz ofrece una estimacin del vector de cointegracin. El vector de cointegracin no
estar identificado a menos que impongamos alguna normalizacin arbitraria (i.e., que las r posibles
relaciones de cointegracin sean resueltas para las primeras r variables del vector Y
T
en funcin de las
restantes k-r variables). El anlisis de los estadsticos Lambda-Max y Lambda-Trace nos permiten
determinar el nmero de relaciones de cointegracin, de acuerdo a los resultados que entregue la estimacin.
Para ello el comando johans permite calculas los valores propios y las estadsticas del mximo valor propio
Max Lamda y de la traza (trace), para un VAR definido. Estadisticas que pueden ser utilizadas para probar
el nmero de vectores de cointegracin en el sistema.
61


6. Descomposicin de una serie
A travs de ciertos mtodos, se pueden descomponer los ciclos econmicos en un componente de
largo plazo (tendencia), un componente cclico y un trmino estocstico.

a) Filtro de Hodrick-Prescott (HP)
Este filtro crea una serie suavizada a partir de la serie inicial , minimizando la varianza de
alrededor de . Usa la siguiente expresin:
(

((

) (

))


En la ecuacin, es el parmetro que controla qu tan suave es la serie . Este parmetro
normalmente toma valor de 100 para datos anuales, 1600 para datos trimestrales, 14400 para datos
mensuales y tiende a infinito cuando se aproxima a una tendencia lineal.
El comando para el filtro HP es el siguiente:
tsfilter hp y = s, smooth(100)
.
ln_se -.00138243 -.00297854
ln_ne -.00459266 .00273422
vec1 vec2
Normalized Alpha
vec2 .21239738 .72860907
vec1 -8.3442135 7.9093364
ln_ne ln_se
Normalized Beta'
1 3.76 3.76
0 14.07 15.41

H0: Max-lambda Trace
(assumption: intercept in VAR)
Table/Case: 1
1 9.24 9.24
0 15.67 19.96

H0: Max-lambda Trace
(assumption: intercept in CE)
Table/Case: 1*
Osterwald-Lenum Critical values (95% interval):
.05032493 1 2.7883105 2.7883105
.9176121 0 134.8011 137.58941

(lambda) r (rank<=(r+1)) (rank<=(p=2))
Eigenvalues rank<=(r) statistics statistics
H0: Max-lambda Trace
H1:
Number of obs = 54
Johansen-Juselius cointegration rank test Sample: 1948 to 2002
. johans ln_ne ln_se
62

Donde el parmetro se regula mediante la extensin smooth(100), que en este caso es de 100. De
esta manera se obtiene en Stata una serie suavizada a partir de la serie .

b) Filtro Baxter-King (BK)
La desventaja del filtro HP es que este es muy sensible al valor que se le asigne al parmetro . En
este sentido, el filtro BK surge como una buena alternativa, dado que es un filtro del tipo band-pass.
El comando es el que sigue:
tsfilter bk y = s



63

IX. Modelos de Datos de Panel
Por lo presentado hasta este punto, queda claro que el MRLCK permite realizar estimaciones de los efectos de
variables observadas sobre la variable de inters. Sin embargo, en algunos casos estas variables explicativas
pueden ser no observables, por lo que las estimaciones que requieran de estas variables incurriran
necesariamente en un caso de omisin de la variable no observable (que, como se explic en captulos
anteriores, generara efectos adversos posteriores sobre las propiedades estadsticas de los estimadores).
Particularmente, la metodologa de Datos de Panel permite controlar el problema de la heterogeneidad no
observable. Requiere un tipo particular de datos, donde cada unidad de anlisis es observada dos o ms
periodos de tiempo (denominado tambin como Datos Longitudinales). Y las diferencias entre las diversas
categoras de esta metodologa se deben a los supuestos generados sobre la conducta de la variable no
observable.
Asimismo, la informacin de Datos de Panel puede ser balanceada (si se tiene informacin para cada grupo o
tipo y unidades de tiempo), o no balanceada (cuando algunos grupos no se observan en todo momento del
tiempo).
La aplicacin de esta metodologa en Stata, y en general, de informacin con el formato de Datos de Panel,
requiere de la utilizacin de una serie de comandos que regularmente es antecedida por el prefijo xt. As, para
este caso se har uso del comando use y de la base de datos unin.dta que se encuentra disponible en la
pgina WEB de Stata. Asimismo, se requiere de la previa declaracin del tipo de base de datos con el que se
va a trabajar. Ello mediante el comando xtset y la mencin de las variables de identificacin del individuo y
de identificacin de las unidades de tiempo.

En este caso, la base de datos cuenta con variables asociadas al proceso de sindicalizacin de mujeres en
Estados Unidos. Siendo que la dimensin temporal en este caso son aos (1968 1988, identificados en la
variable year), y la dimensin transversal son grupos (identificados con un cdigo en la variable idcode).
Asimismo, es posible contar con informacin estadstica bsica de estas variables, al optar por el comando
describe o por su extensin para el caso de bases de Datos de Panel xtdescribe, que brinda informacin
sobre el patrn de participacin de la informacin transversal de grupos a travs del tiempo.
delta: 1 unit
time variable: year, 68 to 88, but with gaps
panel variable: idcode (unbalanced)
. xtset idcode year
(National Longitudinal Survey. Young Women 14-26 years of age in 1968)
. use http://www.stata-press.com/data/r12/nlswork.dta
64


Asimismo, para encontrar informacin estadstica a nivel de grupos (entre grupos, en cada grupo y promedio),
el comando xtsum permite mostrar ese detalle.

1. Estimacin Agrupada (Pooled Regression)
La metodologa ms sencilla supone que la relacin entre la variable endgena y las exgenas sigue un
proceso lineal como el siguiente:

()
Donde el subndice indica a la i-sima observacin transversal (grupo) y indica a la unidad de tiempo t.
As, si se desea explicar la variable ln_wage con las variables independientes el comando a seguir es el de la
regresin por el mtodo de MCO, a continuacin expresada:
4711 100.00 XXXXXX.X.XX.X.XX.X.XX

3974 84.36 100.00 (other patterns)
54 1.15 15.64 .......1.11.1.11.1.11
54 1.15 14.50 ...............1.1.11
56 1.19 13.35 11...................
61 1.29 12.16 ..............11.1.11
86 1.83 10.87 111111.1.11.1.11.1.11
87 1.85 9.04 ...................11
89 1.89 7.20 .................1.11
114 2.42 5.31 ....................1
136 2.89 2.89 1....................

Freq. Percent Cum. Pattern
1 1 3 5 9 13 15
Distribution of T_i: min 5% 25% 50% 75% 95% max
(idcode*year uniquely identifies each observation)
Span(year) = 21 periods
Delta(year) = 1 unit
year: 68, 69, ..., 88 T = 15
idcode: 1, 2, ..., 5159 n = 4711
. xtdescribe
within .2668622 -.6822348 1.151099 T-bar = 4.63566
between .3341803 0 1 n = 4150
union overall .2344319 .4236542 0 1 N = 19238

within .1597932 -.5237771 1.34289 T-bar = 6.05519
between .4667982 0 1 n = 4711
south overall .4095562 .4917605 0 1 N = 28526

within .1834446 -.6461273 1.215777 T-bar = 6.05519
between .4111053 0 1 n = 4711
not_smsa overall .2824441 .4501961 0 1 N = 28526

within 0 12.53259 12.53259 T-bar = 6.05904
between 2.566536 0 18 n = 4709
grade overall 12.53259 2.323905 0 18 N = 28532

within 5.16945 14.79511 43.79511 T-bar = 6.05308
between 5.485756 14 45 n = 4710
age overall 29.04511 6.700584 14 46 N = 28510

within 5.138271 63.79198 92.70865 T-bar = 6.05689
between 5.156521 68 88 n = 4711
year overall 77.95865 6.383879 68 88 N = 28534

within 0 2601.284 2601.284 T-bar = 6.05689
between 1487.57 1 5159 n = 4711
idcode overall 2601.284 1487.359 1 5159 N = 28534

Variable Mean Std. Dev. Min Max Observations
. xtsum idcode year age grade not_smsa south union
65


Siendo as que la metodologa de Estimacin Agrupada (o Pooled Regression) amplia los niveles de
informacin de las variables explicativas, al incluir ms observaciones (informacin a travs del tiempo) y por
ende mejorando las propiedades estadsticas de los estimadores.
2. Datos de Panel: Efectos Aleatorios (RE)
En este caso, la ecuacin (1) asume que el intercepto de la regresin es el mismo para todas las observaciones
de los grupos. No obstante, en ciertos casos de la realidad, es posible que exista algn tipo de carcter
individual o de comportamiento propio del grupo. En tales casos, la metodologa de Datos de Panel de Efectos
Aleatorios permite suponer que cada unidad transversal o grupo tiene un intercepto diferente. Este modelo se
expresa como:

()
Donde

; es decir, no considera un intercepto constante e igual para todos los grupos; sino que
considera un valor de conducta medio () e informacin asociada a la desviacin aleatoria de este valor
medio entre grupos en este caso (

). Por lo que se obtiene:

()
Stata estima por la metodologa de Datos de Panel con Efectos Aleatorios mediante el uso del comando
xtreg y la extensin , re.
En el output de regresin se sigue una estimacin por MCG (Mnimos Cuadrados Generalizados) debido a la
existencia de heterogeneidad no observable entre grupos. Se cuenta con tres formas de coeficientes de bondad
de ajuste (

) un coeficiente a nivel de cada unidad transversal (o intragrupo), a nivel general y respetando los
grupos (o intergrupo), y a nivel general promedio (total). Se detalla el supuesto de no correlacin entre las
variables explicativas y el termino de perturbacin que contendra la heterogeneidad no observable evitando
problemas de colinealidad.

_cons .5384431 .0207119 26.00 0.000 .4978459 .5790403
union .1669482 .0068071 24.53 0.000 .1536057 .1802908
south -.1132302 .0059577 -19.01 0.000 -.1249078 -.1015527
not_smsa -.1676815 .0064757 -25.89 0.000 -.1803745 -.1549886
grade .075678 .001231 61.47 0.000 .073265 .0780909
age .009739 .0004651 20.94 0.000 .0088273 .0106507

ln_wage Coef. Std. Err. t P>|t| [95% Conf. Interval]

Total 4207.77286 19223 .218892621 Root MSE = .39543
Adj R-squared = 0.2857
Residual 3005.01121 19218 .156364409 R-squared = 0.2858
Model 1202.76165 5 240.55233 Prob > F = 0.0000
F( 5, 19218) = 1538.41
Source SS df MS Number of obs = 19224
. reg ln_wage age grade not_smsa south union
66

Especficamente si se analiza la ecuacin (3), se puede notar que si la varianza de

es igual a cero (

),
entonces no existira ninguna diferencia importante entre las ecuaciones (1) y (3). En tal sentido, conocer si la
metodologa de Datos de Panel con Efectos Aleatorios, o la metodologa de Agrupamiento de Datos, resulta
con un mejor ajuste a los datos, es de inters y requiere de una evaluacin.
La Prueba del Multiplicador de Lagrange para Efectos Aleatorios (Breusch y Pagan, 1980) plantea la
hiptesis nula de que

; por tanto, si esta se rechaza resultar que efectivamente s existe diferencia


entre (1) y (3), por lo que sera preferible utilizar la metodologa de Datos de Panel con Efectos Aleatorios.
Siendo que el comando xttest0 se debera de realizar inmediatamente despus de la estimacin.

3. Datos de Panel: Efectos Fijos (FE)
Una forma alternativa de corregir el problema de la heterogeneidad no observable entre las unidades
transversales de la muestra es mediante la metodologa de Datos de Panel con Efectos Fijos. Donde se asume
que las diferencias no son aleatorias, sino constantes, por lo que se obtendra un estimador por cada tipo de
unidad transversal haciendo uso de variables dicotmicas, tal que:

(4)
Donde

es un vector de variables dicotmicas (una para cada unidad transversal). Metodologa que puede
ser ejecutada de dos formas.

rho .58870055 (fraction of variance due to u_i)
sigma_e .26132139
sigma_u .31263898

_cons .3544538 .0307782 11.52 0.000 .2941296 .414778
union .1215447 .0065107 18.67 0.000 .1087839 .1343055
south -.0936134 .0088207 -10.61 0.000 -.1109016 -.0763252
not_smsa -.1379963 .0090773 -15.20 0.000 -.1557874 -.1202052
grade .0762632 .0021663 35.20 0.000 .0720173 .0805092
age .01394 .0003889 35.85 0.000 .0131778 .0147022

ln_wage Coef. Std. Err. z P>|z| [95% Conf. Interval]

corr(u_i, X) = 0 (assumed) Prob > chi2 = 0.0000
Wald chi2(5) = 3738.26
overall = 0.2792 max = 12
between = 0.3237 avg = 4.6
R-sq: within = 0.1004 Obs per group: min = 1
Group variable: idcode Number of groups = 4148
Random-effects GLS regression Number of obs = 19224
. xtreg ln_wage age grade not_smsa south union, re
Prob > chibar2 = 0.0000
chibar2(01) = 14245.54
Test: Var(u) = 0
u .0977431 .312639
e .0682889 .2613214
ln_wage .2188926 .4678596

Var sd = sqrt(Var)
Estimated results:
ln_wage[idcode,t] = Xb + u[idcode] + e[idcode,t]
Breusch and Pagan Lagrangian multiplier test for random effects
. xttest0
67

Una primera forma de estimacin en Stata sera mediante el uso de la especificacin xi. Esta especificacin
permite simplificar comandos; e implica la generacin de una variable dicotmica por cada uno de grupos
expresadas como la especificacin i.idcode. Siendo que el comando complete sera:
xi: reg ln_wage age grade not_smsa south union i.idcode
No obstante, esta forma solamente es til cuando el nmero de grupos es pequeo. Cabe resaltar, que se
generarn tantos regresores adicionales como nmero de grupos (y en el ejemplo el nmero de grupos es de
4148). Es as que se torna til la segunda forma de estimacin, en la que se retoma al uso del comando xtreg
y la especificacin , fe.
Una vez ms surge el dilema entre la metodologa de Datos de Panel con Efectos Fijos esta vez o la
metodologa de Agrupamiento de Datos. Sin embargo, dada la estructura de la metodologa de Efectos Fijos
la comparacin entre los casos (1) y (4) es posible mediante la aplicacin de una prueba restrictiva en el que
la hiptesis nula es que

(es decir, que las variables dicotmicas de las categoras


transversales son iguales cero). Por lo que si se rechaza la hiptesis, se estara afirmando que al menos
algunas variables dicotmicas s pertenecen al modelo, y por tanto resulta necesario utilizar la metodologa de
Efectos Fijos. Cabe mencionar que los resultados de esta prueba se muestran por defecto al final del output
correspondiente a la estimacin de Efectos Fijos.
Efectos Fijos versus Efectos Aleatorios
Como se mencion lneas antes, discernir entre las metodologas de Efectos Fijos y de Agrupamiento de
Datos; y las metodologas de Efectos Aleatorios y de Agrupamiento de Datos es cuestin de hacer uso de las
pruebas de Multiplicador de Lagrange para Efectos Aleatorios y restrictiva. Sin embargo, si se desea
discernir entre las metodologas de Efectos Fijos y Efectos Aleatorios depender de la existencia o no de
correlacin entre el componente de error individual

y las variables .
Si las

y las variables estn correlacionadas, entonces no incluir

en el modelo producir un sesgo de


variable omitida en los coeficientes de X. Al respecto Hausman (1978) plantea que la diferencia entre los
coeficientes de Efectos Fijos y Aleatorios (

) pude ser usada para probar la hiptesis nula de que


y las variables no estn correlacionadas. As, la hiptesis nula de la prueba de Hausman es que los
F test that all u_i=0: F(4149, 15072) = 9.06 Prob > F = 0.0000

rho .71058813 (fraction of variance due to u_i)
sigma_e .26132139
sigma_u .40947347

_cons 1.303638 .0146227 89.15 0.000 1.274976 1.332301
union .103555 .0070761 14.63 0.000 .0896851 .117425
south -.0709208 .0135021 -5.25 0.000 -.0973866 -.044455
not_smsa -.103091 .0126889 -8.12 0.000 -.1279628 -.0782191
age .0154714 .0004146 37.31 0.000 .0146587 .0162842

ln_wage Coef. Std. Err. t P>|t| [95% Conf. Interval]

corr(u_i, Xb) = 0.1058 Prob > F = 0.0000
F(4,15072) = 428.95
overall = 0.1226 max = 12
between = 0.1137 avg = 4.6
R-sq: within = 0.1022 Obs per group: min = 1
Group variable: idcode Number of groups = 4150
Fixed-effects (within) regression Number of obs = 19226
. xtreg ln_wage age not_smsa south union, fe
68

estimadores de Efectos Fijos y Aleatorios no difieren sustancialmente. Si se rechaza, los estimadores s
difieren, y por ende Efectos Fijos es ms conveniente que Efectos Aleatorios. Caso contrario, no habra sesgo
de qu preocuparnos, y por ende se preferir Efectos Aleatorios por ser ms eficiente en uso de variables (usa
menos variables). Siendo as que los comandos a utilizar seran los siguientes:
xtreg ln_wage age not_smsa south union, fe
estimates store efectos_fijos
xtreg ln_wage age not_smsa south union, re
estimates store efectos_aleatorios
hausman efectos_fijos efectos_aleatorios

4. Datos de Panel Esttico y Extensiones
Efectos Temporales
Es posible agregar variables dicotmicas relacionadas al tiempo, es decir, una para cada perodo de la
muestra. Estas variables capturaran eventos comunes a todos los grupos durante un perodo u otro. Siendo
que la agregacin de efectos temporales, la ecuacin (4) se transforma en:

(5)
Donde

representa un vector de variables dicotmicas para cada ao. Estas variables dicotmicas permitirn
controlar por aquellos eventos a los que fueron sujetos todas las variables transversales o grupos en un
perodo dado y, al igual que los Efectos Fijos, pueden reducir sesgos importantes. En Stata podemos
incorporar efectos temporales a nuestro modelo de Efectos Fijos con la especificacin xi.
xi: xtreg ln_wage age grade not_smsa south union i.year, fe
Siendo que al igual que con los efectos entre grupos es posible realizar una prueba para conocer la
significancia conjunta de las variables dicotmicas temporales en nuestro modelo. La hiptesis nula es que

.
Autocorrelacin
La utilizacin de Datos de Panel suele implicar no solamente la agregacin de informacin, sino tambin la
agregacin de problemas comunes a las series de tiempo y a los cortes transversales. Por ejemplo, cuando los
errores de diferentes grupo estn correlacionados (correlacin contempornea), o cuando los errores dentro de
Prob>chi2 = 0.0000
= 141.63
chi2(4) = (b-B)'[(V_b-V_B)^(-1)](b-B)
Test: Ho: difference in coefficients not systematic
B = inconsistent under Ha, efficient under Ho; obtained from xtreg
b = consistent under Ho and Ha; obtained from xtreg

union .103555 .123951 -.020396 .0024734
south -.0709208 -.1135765 .0426557 .0096357
not_smsa -.103091 -.1584265 .0553356 .0082766
age .0154714 .0150083 .0004631 .0001306

efectos_fi~s efectos_al~s Difference S.E.
(b) (B) (b-B) sqrt(diag(V_b-V_B))
Coefficients
69

la informacin de cada grupo se correlacionan temporalmente (correlacin serial), o ambos. Asimismo, la
varianza puede no ser constante (heterocedasticidad).
Existen muchas maneras de diagnosticar problemas de autocorrelacin; sin embargo, cada una de estas
pruebas funciona bajos ciertos supuestos sobre la naturaleza de los efectos individuales. El comando
xtserial por ejemplo, tiene como hiptesis nula que no existe autocorrelacin; naturalmente, si se rechaza,
podemos concluir que sta s existe. El comando xtserial requiere que se especifiquen la variable
dependiente e independientes del modelo.
xtserial ln_wage age not_smsa south union, output
Luego de ello, si se tiene un problema de autocorrelacin, una manera de corregirlo es a travs de un modelo
de Efectos Fijos con trmino () autoregresivo de grado 1 (()) que controla por la dependencia de con
respecto a . El modelo () con Efectos Fijos se especifica de la manera:


Donde

, es decir, los errores tienen una correlacin de primer grado . El modelo () es


fcilmente ejecutable en Stata con el comando xtregar
17
:
xtregar ln_wage age not_smsa south union, fe
Heterocedasticidad
La prueba del Multiplicador de Lagrange de Breusch y Pagan permite tambin realizar una anlisis de
presencia de heterocedasticidad en la muestra. Sin embargo, de acuerdo a algunos autores (Greene 2008) sta
y otras pruebas son sensibles al supuesto sobre la normalidad de los errores; por tal motivo la prueba
Modificada de Wald para Heterocedasticidad. La hiptesis nula de esta prueba es que no existe problema de
heterocedasticidad, es decir,

para toda , donde es el nmero de unidades transversales.


Naturalmente, cuando la hiptesis nula se rechaza, tenemos un problema de heterocedasticidad. Esta prueba
puede implementarse en Stata con el comando xttest3 despus de estimar el modelo de Efectos Fijos:

Correlacin Contempornea
Las estimaciones en datos panel pueden tener problemas de correlacin contempornea si las observaciones
de ciertas unidades estn correlacionadas con las observaciones de otras unidades en el mismo periodo de
tiempo. Como discutimos en la seccin sobre heterogeneidad, las variables dicotmicas de efectos temporales
se incorporan al modelo para controlar por los eventos que afectan por igual a todas las unidades en un
perodo dado. La correlacin contempornea es similar, pero con la posibilidad de algunas unidades estn ms
o menos correlacionadas que otras.

17
Si deseramos estimar un modelo de efectos aleatorios, en vez de fe indicamos re.
Prob>chi2 = 0.0000
chi2 (4150) = 1.1e+36
H0: sigma(i)^2 = sigma^2 for all i
in fixed effect regression model
Modified Wald test for groupwise heteroskedasticity
. xttest3
70

El problema de correlacin contempornea se refiere a la correlacin de los errores de al menos dos o ms
unidades en el mismo tiempo . En otras palabras, tenemos errores contemporneamente correlacionados si
existen caractersticas inobservables de ciertas unidades que se relacionan con las caractersticas
inobservables de otras unidades. Por ejemplo, los errores de dos estados pueden relacionarse pero mantenerse
independientes de los errores de los dems estados.
El comando xttest2 de Stata ejecuta la prueba de Breusch y Pagan para identificar problemas de correlacin
contempornea en los residuales de un modelo de efectos fijos. La hiptesis nula es que existe independencia
transversal (cross-sectional independence); es decir, que los errores entre las unidades son independientes
entre s. Si la Ho se rechaza, entonces existe un problema de correlacin contempornea (Greene 2008). El
comando xttest2 se implementa despus de un modelo de efectos fijos.
Correcciones antes Problemas asociados al levantamiento de supuestos en Datos de Panel
Los problemas de correlacin contempornea, heterocedasticidad y autocorrelacin examinados previamente
pueden corregirse conjuntamente con estimadores de Mnimos Cuadrados Generalizados Factibles (Feasible
Generalizad Least Squares FGLS), o bien con Errores Estndar Corregidos para Panel (Panel Corrected
Standard Errors PCSE), entre otros mtodos alternativos. Stata ejecuta FGLS y PCSE con los comandos
xtgls y xtpcse. Las opciones que ofrecen estos comandos dependen de los problemas detectados en las
pruebas que hemos revisado.
5. Modelo Lineal Dinmico de Datos de Panel: Mtodo Generalizado de Momentos
Una opcin adicional a la modelizacin de Datos de Panel consiste en considerar la participacin de dinmica,
al incluir rezagos de la variable endgena en la parte explicativa del modelo.


Donde

es la matriz de variables estrictamente exgenas,

son los efectos aleatorios que son


independientes e idnticamente distribuidos (iid) con varianza

. Mientras que

seran los rezagos de la


variable endgena.
No obstante, la inclusin de rezagos de la variable endgena en el modelo genera un problema de
Endogeneidad como el mostrado en el captulo XX motivo por el cual se requerir de utilizar una estimacin
con instrumentos que cumplan con las condiciones de ortogonalidad del Mtodo Generalizado de Momentos
(o GMM, por sus siglas en ingles).
La estimacin por GMM consiste en hallar los estimadores que hagan ms cierta las condiciones de
ortogonalidad, pero no en el sentido de la metodologa de Mxima Verosimilitud (MV), pues en GMM no se
asume una forma especfica para la funcin de densidad de las perturbaciones, sino mas bien haciendo que las
condiciones de ortogonalidad muestrales se encuentren ms cerca de cero.
Particularmente Arellano y Bond (1991) aplican sus nuevos estimadores y pruebas estadsticas para un
modelo de demanda de trabajo dinmico utilizando datos de un panel incompleto de las empresas del Reino
Unido. Todas las variables son indexados sobre la empresa i y el tiempo t. En este conjunto de datos,

es el
logaritmo del empleo en la empresa en el interior del Reino Unido en el tiempo ,

es el logaritmo natural
del salario producto real,

es el logaritmo natural del stock de capital bruto y

es el logaritmo natural de
71

produccin de la industria. El modelo tambin incluye variables ficticias yr1980, yr1981, yr1982, yr1983 y
yr1984. Para la aplicacin de ello, los comandos xtdpd, xtdpdsys, xtabond, y similares.



D.year
Standard: D.w LD.w D.k LD.k L2D.k D.ys LD.ys L2D.ys D.yr1980 D.yr1981 D.yr1982 D.yr1983 D.yr1984
GMM-type: L(2/.).n
Instruments for differenced equation

year .0095545 .0142073 0.67 0.501 -.0182912 .0374002
yr1984 -.0650302 .0781322 -0.83 0.405 -.2181665 .0881061
yr1983 -.0690928 .0627354 -1.10 0.271 -.1920521 .0538664
yr1982 -.0652767 .048209 -1.35 0.176 -.1597646 .0292111
yr1981 -.0404378 .0354707 -1.14 0.254 -.1099591 .0290836
yr1980 .0029062 .0212705 0.14 0.891 -.0387832 .0445957

L2. .1057969 .1428568 0.74 0.459 -.1741974 .3857912
L1. -.7111651 .1844599 -3.86 0.000 -1.0727 -.3496304
--. .6085073 .1345412 4.52 0.000 .3448115 .8722031
ys

L2. -.0199475 .0416274 -0.48 0.632 -.1015357 .0616408
L1. -.0580012 .0583051 -0.99 0.320 -.172277 .0562747
--. .3568456 .0370314 9.64 0.000 .2842653 .4294259
k

L1. .3926237 .1092374 3.59 0.000 .1785222 .6067251
--. -.6078208 .0657694 -9.24 0.000 -.7367265 -.4789151
w

L2. -.0853582 .0444365 -1.92 0.055 -.1724523 .0017358
L1. .6862261 .1486163 4.62 0.000 .3949435 .9775088
n

n Coef. Std. Err. z P>|z| [95% Conf. Interval]

One-step results
Prob > chi2 = 0.0000
Number of instruments = 41 Wald chi2(16) = 1757.07
max = 6
avg = 4.364286
Obs per group: min = 4
Time variable: year
Group variable: id Number of groups = 140
Dynamic panel-data estimation Number of obs = 611
> ear) dgmmiv(n)
. xtdpd L(0/2).n L(0/1).w L(0/2).(k ys) yr1980-yr1984 year, noconstant div(L(0/1).w L(0/2).(k ys) yr1980-yr1984 y
. use http://www.stata-press.com/data/r12/abdata
D.year
Standard: D.w LD.w D.k LD.k L2D.k D.ys LD.ys L2D.ys D.yr1980 D.yr1981 D.yr1982 D.yr1983 D.yr1984
GMM-type: L(2/.).n
Instruments for differenced equation

year .0095545 .0142073 0.67 0.501 -.0182912 .0374002
yr1984 -.0650302 .0781322 -0.83 0.405 -.2181665 .0881061
yr1983 -.0690928 .0627354 -1.10 0.271 -.1920521 .0538664
yr1982 -.0652767 .048209 -1.35 0.176 -.1597646 .0292111
yr1981 -.0404378 .0354707 -1.14 0.254 -.1099591 .0290836
yr1980 .0029062 .0212705 0.14 0.891 -.0387832 .0445957

L2. .1057969 .1428568 0.74 0.459 -.1741974 .3857912
L1. -.7111651 .1844599 -3.86 0.000 -1.0727 -.3496304
--. .6085073 .1345412 4.52 0.000 .3448115 .8722031
ys

L2. -.0199475 .0416274 -0.48 0.632 -.1015357 .0616408
L1. -.0580012 .0583051 -0.99 0.320 -.172277 .0562747
--. .3568456 .0370314 9.64 0.000 .2842653 .4294259
k

L1. .3926237 .1092374 3.59 0.000 .1785222 .6067251
--. -.6078208 .0657694 -9.24 0.000 -.7367265 -.4789151
w

L2. -.0853582 .0444365 -1.92 0.055 -.1724523 .0017358
L1. .6862261 .1486163 4.62 0.000 .3949435 .9775088
n

n Coef. Std. Err. z P>|z| [95% Conf. Interval]

One-step results
Prob > chi2 = 0.0000
Number of instruments = 41 Wald chi2(16) = 1757.07
max = 6
avg = 4.364286
Obs per group: min = 4
Time variable: year
Group variable: id Number of groups = 140
Dynamic panel-data estimation Number of obs = 611
> ear) dgmmiv(n)
. xtdpd L(0/2).n L(0/1).w L(0/2).(k ys) yr1980-yr1984 year, noconstant div(L(0/1).w L(0/2).(k ys) yr1980-yr1984 y
. use http://www.stata-press.com/data/r12/abdata
72

Arellano, M., and S. Bond. 1991. Some tests of specification for panel data: Monte Carlo evidence and an
application to employment equations. Review of Economic Studies 58: 277297.
Breusch, T. S., and A. R. Pagan. 1980. The Lagrange multiplier test and its applications to model
specification in econometrics. Review of Economic Studies 47: 239253.
Hausman, J. A. 1978. Specification tests in econometrics. Econometrica 46: 12511271.
Wooldridge, J. M. 2002. Econometric Analysis of Cross Section and Panel Data. Cambridge, MA: MIT
Press.