Vous êtes sur la page 1sur 125

Entrenamiento Stata 14

Miguel Angel Bello


Instructor

Contenido del curso


Manejo Bsico
1. Introduccin:
. Qu es Stata?
. Versiones de Stata
. Ventajas y desventajas

4.
.
.
.
.

Grficos
Lnea
Torta
Scatter
Histogramas

2. Manejo de la interfaz
. Ventanas y Mens
. Tipos de Archivos
. Sintaxis de los comandos

5. Anlisis de datos
. Estadstica bsica
. Tablas (frecuencias, cruzadas, etc)

3. Manejo de Base de datos


. Abrir, importar, exportar y guardar datos
. Creacin, transformacin, eliminacin de variables y
observaciones
. Filtros
. Combinar bases de datos
. Labels (variables y observaciones)

6. Inferencia Estadstica
. Pruebas sobre la media, varianza y proporciones
. Intervalos de confianza.

Manejo Intermedio
Regresin lineal

Modelos de seleccin discreta (Logit-Probit)

Qu es Stata?
Stata es un paquete estadstico operado por lneas de comando por lneas de comando , por lo
cual se define como un lenguaje de programacin, aunque tambin funciona bajo entorno
grafico (por la barra men). Ofrece la flexibilidad como tambin mltiples herramientas para el
manejo de base de datos, y opciones de grficos, lo cual facilita al principiante aprender a
manejarlo. Adicionalmente, desde el programa se puede acceder a actualizaciones y bases de
datos disponibles en internet.

Versiones de Stata
help limits

Small Stata

Versin estudiantil de Stata

Intercooled Stata

Versin estndar de Stata

Stata/SE

Versin especial de Stata para manejo de


base de datos grandes.

Stata/MP

Versin especial de Stata diseada para


trabajar en equipos con ms de un
procesador o ncleo (2 a 32 procesadores).

Ventajas y Desventajas
Ventajas

Desventajas

1. Uso combinado de lenguaje de programacin 1. Solo esta disponible en el idioma ingles


y ventanas.
(programacin).
2. Manuales
disponibles
con
informacin
especializada.
3. Actualizacin permanente con solo tener
acceso a internet.
4. Libros
tcnicos
especializados
con
aplicaciones en Stata.
5. Es usado en las principales instituciones de
investigacin,
universidades,
empresas
pblicas y privadas alrededor del mundo.
6. Versiones para sistemas operativos Linux,
Windows y Mac.
7. Mdulos especializados para anlisis micro y
macro.
8. Programacin Matrices

Ventana de revisin

Manejo de la Interfaz de Stata

Ventana de
variables

Ventana de resultados
Ventana de
propiedades
de variables
Ventana de comandos

Mens
Barra de
nombre
Barra de mens
Barra de herramientas

Tipos de archivos
Tipo de Archivo
Archivos de datos
Archivos grficos
Bitcoras de salida
Archivos de comandos
Archivos de programacin
Programacin
Diccionarios

Extensin
*.dta
*.gph
*.smcl
*.do
*.ado
*.mata
*.dct

Sintaxis de los comandos


help syntax
help regress

Manejo de bases de datos


Abrir y exporta una base de datos

Creacin de variables
help generate

Operadores lgicos y matemticos


Tipo de operador

Smbolo

Descripcin

Matemtico

+
*
/
^

Adicin
Substraccin
Multiplicacin
Divisin
Potencia

Lgico

!
|
&

No
O
Y

Relacionales

>
<
>=
<=
==
!=;~=

Mayor
Menor
Mayor o igual que
Menor o igual que
Igual
Diferente

Transformacin de variables
help replace

Administrador de variables

Eliminar y conservar variables

Filtros
help browse; help list; help table

Combinar bases de datos


help append

Para combinar dos bases de datos de manera


vertical se debe tener EXACTAMENTE los
mismos nombres en ambas bases de datos

Combinar dos bases de datos


help merge

Labels (Variables & Values)

Grficos
scatter

Grficos
Tortas y Barras

Grficos
Correlaciones

Anlisis de datos: Manejo de tablas de datos


help summarize

Anlisis de datos: Manejo de tablas de datos

Produce un cuadro de frecuencias para diferentes valores o categoras de una variable. Tambin permite
generar cuadros de frecuencia de 2 vas, incluyendo la prueba Pearson, donde la hiptesis nula es que estas
dos variables son independientes.

Anlisis de datos: Manejo de tablas de datos

Permite crear tablas de contingencia doble o


mltiple y a su vez definir el tipo de contenido
estadstico para los campos de una tabla

Introduccin a la regresin

Qu es?

La regresin como tcnica estadstica analiza la


relacin de una variable desconocidas a partir de
una o mas variables conocidas.

A pesar de que el anlisis de regresin


tiene que ver con la dependencia de
una variable respecto a otras variables,
esto

no

implica

causalidad

necesariamente.

Para qu
sirve?

Estimar y/o predecir el valor promedio poblacional de


la variable dependiente en trminos de los valores
conocidos o fijos de las variables independientes.
Objetivos: Predecir y evaluar su estructura.

Las ideas de causalidad deben venir de


estadsticas

externas

y, en

ltimo

termino de una u otra teora.

Para aducir causalidad se deben acudir


a consideraciones a priori o tericas.

Introduccin a la regresin
REGRESIN

En el anlisis de correlacin el objetivo principal es


medir la fuerza o el grado de asociacin lineal entre
dos variables. En el anlisis de regresin se trata de
estimar o de predecir el valor promedio de una variable
sobre la base de valores fijos de otras variables.

El anlisis de regresin supone asimetra en los


valores, por un lado una variable dependiente aleatoria,

CORRELACIN

y por otro lado, una variable independiente con valores


fijos.

Fases del modelo de regresin

Validacin

Estimacin

Pruebas individuales.

Partiendo de una funcin lineal entre dos variables, se


puede estimar una relacin de tal manera que la variable
independiente

explique

de

manera

exclusiva

el

comportamiento de la variable dependiente, este modelo


de regresin es llamado determinstico

Donde 0 y 1, representan respectivamente, el valor


de corte con el eje de las ordenadas cuando la
variable independiente toma el valor de cero y la
pendiente de la recta de la regresin.

Pronstico

Especificacin

Dependencia lineal
Se debe encontrar una recta que se ajuste a la nube

R cuadrado y R cuadrado ajustado.

de punto.

Homocedasticidad

A partir de esta recta podemos usar los valores de X

No autocorrelacin

para predecir los de Y.

No multioclinealidad

Normalmente se utiliza el mtodo de los mnimos

Independencia

cuadrados

independientes.

que

minimiza

observaciones a la recta.

la

distancia

de

las

del

error

Modelo bien especificado


Estabilidad de los coeficientes.

con

las

variables

Anlisis de regresin: Seleccin de variables


Analista

Qu sucede si no existe ninguna consideracin a priori o


teora para seleccionar las variables del modelo?

Cr
se iteri
le os
cc d
i e
n

Mejor
bondad de
ajuste

1.
2.
3.

Valor del coeficiente de determinacin.


Coeficiente de correlacin parcial entre
cada
variable
independiente
y
la
dependiente.
El grado de reduccin de error tpico cada
vez que se incorpora una variables.

M
t
se odo
le c s d
c i e
n

Existen diferentes mtodos para seleccionar variables


independiente.
Los de mayor aceptacin son los mtodos de seleccin
por pasos (stepwise)
1. Se selecciona la mejor variable de acuerdo algn
criterio estadstico.
2. A continuacin, la mejor de las restantes.
3. As sucesivamente hasta que no se encuentre
variables significativas.

Mtodos de seleccin de la variables


1. Mtodo hacia delante:
* Las variables se incorporan al modelo de regresin una a una.
* PRIMER PASO: se selecciona la variable independiente que, adems de superar criterios de
entrada, presente un alto grado de correlacin.
* SEGUNDO PASO: se van incorporando al modelo las variables que posean un coeficiente de
correlacin parcial alto en valor absoluto. La seleccin de variables se detiene cuando no quedan
variables que superen el criterio de entrada.
2. Mtodo hacia atrs
* Comienza incluyendo en el modelo todas la variables independientes, para luego proceder a
eliminarlas una a una.
* PRIMER PASO: se elimina aquella variable que, adems de cumplir los criterios de salida,
posee el coeficiente de regresin mas bajo en valor absoluto.
* SIGUIENTES PASOS: se van eliminando las variables con coeficientes de regresin no
significativos. La eliminacin de variables se detiene cuando no quedan variables que cumplan
los
criterio de salida
3. Pasos sucesivoses una mezcla de los dos mtodos anteriores.

Formas Funcionales de los Modelos de Regresin


Nota previa

Supongamos que tenemos una variable y


Esta variable puede transformarse a Logaritmo natural de y
La derivada del ln(y) es equivalente a:

Medir la elasticidad: Modelo Log-Lineal


Consideremos un modelo de regresin exponencial

Formas Funcionales de los Modelos de Regresin


Medir la elasticidad: Modelo Log-Lineal

Consideremos un modelo de regresin exponencial

La principal caracterstica de este modelo es que el coeficiente que acompaa las variables independientes mide la
elasticidad constante de Y respecto de X, es decir, el cambio porcentual en Y ante un pequeo cambio porcentual en
X . En la notacin de clculo, la elasticidad se define como:

Formas Funcionales de los Modelos de Regresin


Medir tasas de crecimiento: Modelo Semilogartmico Log-Lin

Si se multiplica por 100 , dar entonces el cambio porcentual o la tasa de crecimiento instantnea (en un momento
dado), en Y ocasionada por un cambio absoluto en X. Para estima la tasa de crecimiento compuesta se debe sacar
el antilogaritmo de y restarle uno

Formas Funcionales de los Modelos de Regresin


Modelo Lin-Log:

En este caso debe ser divida entre 100 para mostrar un cambio absoluto en Y dado por un cambio en 1% en X.

Formas Funcionales de los Modelos de Regresin


Que forma funcional se debe elegir?
Mirar la bondad de ajuste con un grafico de dispersin con ajuste lineal siempre y cuando sea regresin
simple.
Sugerencias a partir de la teora y consideraciones a priori (signos que se deben esperar).
Comparacin e interpretacin de coeficientes modelos (tasa de cambio y elasticidad).
Comparacin de R cuadrados ajustados, sin embargo, se debe tener una mayor preferencia por: justificacin
terica, signos de los coeficientes estimados y su importancia estadstica.
En ocasiones no es fcil ponerse de acuerdo con una forma funcional u otra, en tal caso se puede usar las
transformaciones Box-Cox.

Modelos ANOVA
Inclusin de variables de escala nominal que permiten analizar, manteniendo constantes variables de escala de

razn, el comportamiento de la variable dependiente. Esta variables toman valores artificiales dependiendo de la
presencia o ausencia de un atributo. Las variables que adquieren tales valores 0 y 1 se llaman variables
dicotmicas. Tales variables son, por tanto, en esencia, un recurso para clasificar datos en categoras mutuamente
excluyentes.
El Modelo ANOVA, es un modelo de regresin que contienen variables explicativas exclusivamente dictomas o
cualitativas. El modelo tiene la siguiente expresin:

Donde es la variable dependiente, es el valor medio de la categora base y es el coeficiente de intercepto


diferencial.

Modelos ANOVA
Para tener en cuenta:
1. No incluir todas las categoras que pueda tener una variables, esto generara colinealidad perfecta, es decir una
relacin lineal exacta entre variables. Es imposible estimar un modelo de este tipo (incluyendo la constante). De
esta manera, si una variable cualitativa tiene m categoras, slo hay que agregar (m-1) variables dictomas.
2. La categora a la cual no se asigna variable dictoma se conoce como categora base, de comparacin. Adems,
todas las comparaciones se hacen respecto de la categora de comparacin.
3. El valor del intercepto representa el valor medio de la categora de comparacin.
4. Los coeficientes que acompaan las variables categricas se conocen como coeficientes de intercepto
diferencial, debido a que indican la medida en que el valor de la categora que recibe el valor de 1 difiere del
coeficiente del intercepto correspondiente a la categora de comparacin

Modelos ANOVA
Interpretacin de variables dictomas en regresiones semilogartimicas

El intercepto proporciona el logaritmo medio y el coeficiente de la pendiente, la diferencia entre el logaritmo entre las
dos categoras. Si se toma el antilogaritmo de , lo que ahora se tendra no es el valor medio de la variable
dependiente, sino la mediana. Y si se toma el antilogaritmo de (+, se obtiene la mediana de la variable categrica. El
antilogaritmo de es la semielasticidad de la variable dicotmica.

Resumen: Interpretaciones de coeficientes


Forma Funcional

Interpretacin
Elasticidad: es el cambio porcentual esperado de Y ante un
cambio porcentual en X.
Cambio esperado en nivel en Y ante un cambio porcentual en X.
se debe dividir entre 100 para su interpretacin.
Semi-elasticidad: es el cambio porcentual esperado de Y ante un
cambio marginal en X. se debe multiplicar por 100 para su
interpretacin.
Efecto marginal: cambio esperado en nivel en Y ante un cambio
marginal en X.
es la media de la categora que esta como base. es el cambio
diferencial de la categora que toma el valor de 1 con respecto a
la categora base.
Exp( es la mediana de la categora base. Exp(+) es la mediana
cuando la categora de esta variable toma el valor de 1. Exp()1*100 es el cambio porcentual de estar en esa categora con
respecto a la categora base.

MODELOS DE SELECCIN DISCRETA


Modelos de regresin donde la variable dependiente es binaria o dummy. Por ejemplo:
Un modelo que trata de explicar los factores determinantes de que una familia sea propietaria de
una casa. En particular, cuantificar la relacin ingreso y propiedad.
Determinar los factores que afectan a que una persona pague o no pague una deuda con una
institucin financiera.
Para el caso de ser propietario de una casa, se selecciona una muestra de hogares y se registra el
ingreso y si la familia es propietaria o no de una casa. El modelo puede expresarse de la siguiente
manera:

Donde Yi=1 si el hogar es propietario de su casa y cero en caso contrario y Xi es el ingreso del hogar i.

MODELOS DE SELECCIN DISCRETA


Se puede aplicar el tcnica de mnimos cuadrados ordinarios, modelo de probabilidad linela MPL- pero
existen cinco inconvenientes.
1. Las predicciones del modelo no necesariamente estarn entre cero y uno.
2. No normalidad de los errores; considrese el termino de error, para un valor dado de Xi el trmino del
error solo puede tomar uno de los siguientes dos valores.
Cuando Yi=0 el error seria igual a
Cuando Yi=1 el erro seria igual a
De esta manera los errores no se distribuyen como una normal (Lo hacen como una distribucin binomial.
3. Se puede demostrar que los errores son heterocedstico.
4. Coeficientes de determinacin muy bajos.
5. Probabilidad marginal constante.

MODELOS DE SELECCIN DISCRETA


Restricciones del modelo
Solucin

1. La probabilidad marginal constante de un cambio


en el ingreso sobre la probabilidad de ser
propietario (Beta). Se esperara un efecto bajo para
ingresos muy altos y muy bajos, y un efecto mayor
para

ingresos promedio.

Esto implicara una

relacin de este tipo: probabilidad de ser propietario


e ingreso.
2. La relacin es no lineal.
3. La variable dependiente esta restringida entre cero
y uno.

Funcin
logstica

Funcin de
distribucin
normal
acumulada

MODELOS DE SELECCIN DISCRETA: Logit


Expresando el modelo explcitamente
trminos de probabilidades tenemos

en

Se define la razn de probabilidades (Odds Ratio) como:


En el caso de la propiedad de las casas representa la
razn de la probabilidad de que una familia posea casa
respecto de la probabilidad que no la posea. Por ejemplo,
si Pi=0.8 significa que las probabilidades son 4 a 1 a
favor de que la familia posea una casa.

p
0.8

0.6

Si se toma el logaritmo natural de la razn de


probabilidades se obtiene

0.4

0.2

De esta manera Li resulta lineal X y tambin en los


parmetros . L es llamado modelo Logit.

MODELOS DE SELECCIN DISCRETA: Probit


La aproximacin al problema es similar al Logit pero supone una relacin no lineal distinta (aunque
muy similar ente Xi y Pi. Se basa en la distribucin normal acumulada.
Se supone que la decisin de poseer o no una casa depende de un ndice I (Conocido como variable
latente).
El ndice I est determinado por una o varias variables explicativas. Por ejemplo, el ingreso. Cuanto
mayor sea el ndice, mayor ser la probabilidad de tener una casa.

Se supone un umbral critico I* a partir del cul, si I supera I* entonces una familia posee una casa. El
umbral I*, al igual que I no es observable. Si se supone que esta distribuido normalmente con la
misma media y varianza, es posible estimar los praemtr4os del ndice y tambin alguna informacin
sobre el I*.

MODELOS DE SELECCIN DISCRETA: Probit

Donde Z es una variable estndar normal, con media cero y varianza constante. F es la
funcin de distribucin de probabilidad acumulada.
De esta manera:

MODELOS DE SELECCIN DISCRETA: Probit


1

Pi = F(Ii)

p
0.8

Pr (I*i Ii)

0.6

0.4

0.2

Ii = + Xi

Series de tiempo
Muchas de la series de tiempo se comportan en funcin del tiempo. La
econometra ha desarrollado mtodos para el tratamiento de este tipo de datos.
Estos mtodos consisten en descomponer la parte determinstica y separarla
del componente aleatorio.
Determinstico: supone que no existe aleatoriedad en la informacin de la variables,

por lo tanto, cuando se realiza un modelo, se tiene con certeza toda la informacin.
Estocstico: no existe toda la informacin disponible, por lo tanto, existe

incertidumbre.

Componentes de una serie de tiempo

Es importante reconocer e identificar los patrones de


comportamiento que presenta la serie de tiempo a travs de
los periodos, t. Este procedimiento de identificacin se llama
descomposicin. Una serie de tiempo presenta cuatro
componentes

principales;

la

tendencia,

el

estacionalidad y el componente irregular de la serie.

ciclo,

la

Descomposicin: Tendencia

Tendencia, : son movimientos a lo largo de una serie de tiempo,


estos movimientos son de largo plazo. La tendencia es el
componente que representa el crecimiento (o la declinacin)
subyacente en una serie de tiempo, durante un periodo extenso.
Para una serie de tiempo con tendencia, el nivel de la serie no
es contante, en otras palabras, es una serie no estacionaria

Descomposicin: Ciclo

Ciclo,
: son fluctuaciones en forma de onda alrededor de la tendencia y corresponde a un

componente de largo plazo, por tanto, tienen una duracin de ms de un ao. Las
fluctuaciones indican aumentos y cadas que no tienen un periodo fijo; los ciclos se identifican
por lo general en cinco fases, para el ciclo de los negocio: auge, crisis, recesin, depresin y
recuperacin; y para el ciclo de vida de un producto: introduccin, crecimiento, madurez,
saturacin y declive. Los patrones cclicos son difciles de modelar porque sus patrones
generalmente son inestables, al ser difciles de identificar y complejos de separar de la serie
tendencial, con frecuencia el ciclo de la serie de tiempo se le atribuye como parte de la
tendencia, para formar as un componente , que contiene el componente tendencia-ciclo

Descomposicin: Estacionalidad

Estacionalidad, : es una serie de tiempo con un patrn de cambio que se


repite a si mismo ao tras ao. Es un cambio ms o menos estable que
aparece regularmente a lo largo del tiempo. En otras palabras es un
componente de corto plazo que se repite peridicamente en periodos
inferiores a un ao (casa S periodos). Para datos anuales, la
estacionalidad no tendra sentido estimarla porque no existe la posibilidad
de modelar un patrn con datos que se recopilan una vez por ao.

Descomposicin: Irregular

Irregular, : es un componente de corto plazo que captura las


fluctuaciones impredecibles o aleatorias que se presentan por
sucesos inusuales y no corresponden a los tres componentes
antes mencionados, por lo tanto, su comportamiento es un efecto
residual de la serie de tiempo.

Modelos de prediccin determinista


Promedio mvil simple: se utiliza para suavizar una series, es decir, elimina
los picos de una serie, en otras palabras elimina los componentes de corto
plazo para visualizar mejor los de largo plazo (tendencia y ciclo). Tambin se
utiliza para pronosticar. El promedio mvil es un modelo de pronstico cuyo
nuevo valor incorpora la informacin mas reciente y elimina la observacin
mas antigua.

Modelos de prediccin determinista

Promedio
mvil doble: una manera de pronosticar los datos de las series de tiempo que
tienen una tendencia lineal es usar promedios mviles dobles.

, es un factor de ajuste adicional, es similar a la medida de cambio a lo largo de la serie.

Modelos de prediccin determinista

Modelo
de suavizamiento exponencial: es un modelo de pronstico cuyo nuevo valor es un promedio

ponderado de los valores actuales y pasados. A diferencia del promedio mvil, el suavizamiento incluye toda
la informacin disponible y pondera mas las observaciones recientes.

La expresin anterior representa la frmula del suavizamiento exponencial donde corresponde a la


constante de suavizamiento o factor de ponderacin, es decir, determina el grado de influencia sobre el
pronstico de la observacin mas reciente ; representa el valor de la serie en el periodo t. es el valor
pronosticado de la serie en el periodo t y es el valor a predecir de la serie en el periodo siguiente

Modelos de prediccin determinista

Mtodo de Holt: modelos de dos parmetros, este mtodo


suaviza la estimacin de la tendencia de la serie de tiempo.

Modelos de prediccin determinista

Mtodo
de Holt-Winter: el mtodo de suavizacin exponencial lineal y estacional de tres parmetros de Winters, es

una extensin del mtodo de Holt que podra representar mejor los datos y reducir el error del pronstico cuando
existe un patrn de estacionalidad. En el mtodo de Winters se emplea una ecuacin adicional para estimar la
estacionalidad

Resumen: Mtodos de prediccin determinista

NO ESTACIONALIDAD

SIN TENDENCIA

CON TENDENCIA

PROMEDIO
SIMPLE.

MVIL

SUAVIZAMIENTO
EXPONENCIAL SIMPLE

PROMEDIO MVIL
DOBLE.

SUAVIZAMIENTO
EXPONENCIAL DOBLE.

CON ESTACIONALIDAD

ADITIVO ESTACIONAL.

MULTIPLICATIVO
EXPONENCIAL.

ADITIVO HOLT-WINTERS.

MULTIPLICATIVO HOLTWINTERS.

Qu modelo evaluar?
MAD Desviacin media absoluta: Mide la exactitud
del pronstico , promediando la magnitud de los
errores.

MSE Error cuadrtico medio: Sanciona errores


grandes en la elaboracin de pronsticos.

RMSE Raiz cuadrada MSE

Qu modelo evaluar?
MAPE Error porcentual absoluto medio

MPE Error porcentual medio: Mide el sesgo


del pronstico.
Coeficiente de desigualdad de Theil: Permite
analizar la bondad de ajuste del modelo. un
coeficiente cercano a cero, indica igualdad
entre el valor observado y el valor estimado.

Teora econmica de los modelos de series de tiempo

Si el objetivo es explicar el valor que toma, en un momento determinado del


tiempo, un fenmeno econmico que muestra dependencia temporal, un
procedimiento factible consiste en recoger informacin sobre su evolucin a lo
largo del tiempo, y explotar el patrn de regularidad que muestran los datos.
Para construir un modelo de series de tiempo, lo nico que se necesita es la
informacin muestral de la variable a analizar.
Si se desea explicar el comportamiento de una variable temporal Yt, un modelo
de series temporales puede plantearse como:

Teora econmica de los modelos de series de tiempo


AR(1) Modelo autorregresivo

Teora econmica de los modelos de series de tiempo


AR(1) Modelo autoregresivo

El coeficiente mide el grado de asociacin lineal entre Yt y Yt-k, siendo k el orden del rezago. Ahora se
aplica varianzas a cada lado:

Teora econmica de los modelos de series de tiempo

Algunas caractersticas de las series financieras

1.
2.
3.
4.
5.
6.
7.

Fuertes tendencias.
Difcil de distinguir tendencias y ciclos.
Ciclos estocsticos, difciles de predecir.
Comportamientos estacionales marcados
Oscilaciones muy errticas, no hay tendencias ni ciclos obvios.
Covariaciones sugerentes.
Cambios estructurales.

Algunas caractersticas de las series financieras

La serie muestra:
Un perfil creciente (tendencia).
Fluctuaciones estacionales.
Una variabilidad que crece a medida que
aumenta el nivel de la serie

La serie muestra:
Una fluctuacin estable en torno a una media
nula.
Muestran periodos de alta y baja volatilidad.

Los primeros y segundos momentos (media y varianza) de distintas series temporales pueden
comportarse de formas muy diferentes.
Las series temporales de naturaleza similar (por ejemplo, financieras) a menudo presentan rasgos
comunes que son de gran utilidad para analizarlas.

Conceptos bsicos
Proceso estocstico es un conjunto de variables aleatorias asociadas a distintos instantes de tiempo de
manera sucesiva. Una serie de tiempo es la realizacin particular de un proceso estocstico.
Serie temporal es un conjunto de observaciones o medidas realizadas secuencialmente en intervalos
predeterminados y de igual, o aproximadamente igual, duracin.
El objetivo del anlisis de series temporales es inferir la forma del proceso estocstico a partir de las
series temporales que genera.
Proceso estocstico estacionario es cuando los parmetros como media y varianza son constantes en el
tiempo y los valores de la covarianza entre dos periodos no depende del tiempo sino de la distancia o
rezago que hay entre dos periodos.

Principales hiptesis
Los supuestos ms comunes son:

Linealidad, el valor que toma hoy la serie (o el proceso) depende linealmente de sus valores pasados y los
valores presentes y pasados de otras series.

Estacionariedad, la media y varianza incondicional de una serie (o proceso) son constantes, las
autocovarianzas entre dos valores solo dependen de la distancia temporal que los separa. Formalmente:

Normalidad, el proceso estocstico generado sigue un modelo normal de distribucin de probabilidad.

Procesos estocsticos elementales

Proceso puramente aleatorio o Ruido Blanco.

Es el proceso mas aleatorio que existe. Es por construccin estacionario. Es una coleccin de
variables aleatorias con media cero y no correlacionadas entre ellas.

Un proceso ruido blanco no es posible pronosticar utilizando modelos ARIMA. Un proceso Ruido
Blanco no tiene memoria, es decir, que el ltimo dato conocido recoge toda la informacin histrica
disponible.
Paseo aleatorio, un paseo aleatorio representa una variable cuyos cambios son ruido blanco y,
por tanto, imprevisibles. La caracterstica fundamental de este proceso es la falta de afinidad de
las series a una media estable.

Procesos estocsticos elementales

Modelos de series de tiempo

Hasta el momento t-1 se tiene los valores pasados de la serie y las innovaciones pasadas.
Segn la informacin disponible, hay tres tipos de modelos:
Modelos de medias mviles (MA)
Modelos autoregresivos (AR)
Modelos Mixtos (ARMA)

Modelos ARIMA
SUPUESTOS:
1.

Toda serie de tiempo ha sido generada por un proceso estocstico cuya naturaleza puede
ser caracterizada o descrita mediante un modelo.

2.

Dicho modelo no se presenta en los trminos tradicionales de una relacin y de otras


variables sino en esta caso el valor de la serie depende de su pasado, es decir, de sus
propios rezagos.

3.

Se requiere que la serie a modelar sea estacionaria.


.FASES DEL MODELO:

1.

Identificacin

2.

Estimacin

3.

Validacin del modelo

4.

Pronstico

Fase de identificacin
Proceso estadstico que genero la serie, para identificar el proceso se requiere de
herramientas graficas y estadsticas.
Grafico
Correlograma: representacin grafica del diagrama de dispersin entre los coeficientes de
correlacin y el orden del rezago. A medida que aumenta el orden del rezago, el coeficiente de
autocorrelacin tiende a cero.
-1

El rea que esta entre las lneas punteadas corresponden


a los intervalos de confianza. .
Cuando
esta
dentro
de
estadsticamente que es cero.

la

banda

significa

Fase de identificacin

Estadstico Q-Prueba conjunta

Estadstico LB pero para muestras pequeas- Ljung Box

Fase de identificacin
El correlograma sirve para:
Saber si es Ruido Blanco
Estacionaria->Converge a cero rpidamente despus de que los

tres primeros rezagos son no significativos.


Estacional -> presenta coeficientes de autocorrelacin simple

significativos de forma peridica asociados al orden de la


estacionalidad.

Fase de identificacin

Prueba de raz unitaria o Test Dickey Fuller

Este test sirve para probar si la serie es o no es estacionaria. La aplicacin de la


metodologa Box-Jenkins precisa la utilizacin de seres econmicas estacionarias en
varianza y en media.

La presencia de una raz unitaria en una serie de tiempo econmica revela directamente
inestabilidad de la misma, siendo necesario transformarla para poder trabajar con ella.

Series estacionarias
La serie debe ser estacionaria para la metodologa de Box-Jenkins

1.

Tendencia
1.

Lineal->Primera diferencia

2.

Tendencia cuadrtica->Segunda diferencia

2.

Varianza-> logaritmo

3.

Tendencia y varianza no son constantes->diferencia logartmica

4.

Estacionalidad->Diferencia estacional

Una serie no es estacionaria cuando:


.TendenciaMedia no constante
.Varianza explosiva-voltil-no constante
.Estacional

TODO RUIDO BLANCO ES ESTACIONARIO.


UNA SERIE ESTACIONARIA NO SIEMPRE ES RUIDO BLANCO.

Proceso estocstico que genero la serie

Se requiere analizar simultneamente las funciones FAS Y FAP


FAS->conjunto de datos que representa una funcin de autocorrelacin y su comportamiento
(rompe o no rompe la banda)
FAP->mide el grado de asociacin lineal entre Yt y Yt-k manteniendo constante las
correlaciones de rezagos intermedios.
Modelos ARIMA
Ar(p)->
Ma(q)->-> en funcin de una constante y varios trminos de error hasta el rezago q.
ARMA(p,q)->
ARIMA(p,d,q)-> d, es el nmero de veces que se tuvo que diferenciar la serie para que fuera estacionaria.

Modelos autorregresivos de orden 1: AR(1)


Un proceso autorregresivo de primer orden, Ar(1), representa una variable cuyo valor actual esta relacionado con su
valor anterior mediante un modelo de regresin.
El modelo incorpora la ltima observacin, el proceso Ar(1) se reconoce por una ACF infinita y una PACF que se
anula a partir del segundo retardo. Si los datos tienen media, es necesario especificar un trmino constante

Modelos de Medias Mviles de orden q: MA(q)

El modelo incorpora la informacin de las ltimas q innovaciones.

Sus caractersticas bsicas son:


Siempre estacionario
Solo q innovaciones pasadas entran en el modelo
La funcin de autocorrelacin se corta tras q retardos
Las innovaciones persisten q periodos.
Un proceso de medias mviles de primer orden MA(1), representa una variable cuyo valor actual est
relacionado con el valor actual y anterior de las innovaciones mediante un modelo de regresin. El
modelo incorpora la innovacin actual y anterior

Modelos de Medias Mviles de orden q: MA(q)

El proceso MA(1) se reconoce por una PACF


Infinita y una ACF que se anula a partir del
segundo retardo

Procesos Mixtos: ARMA (p,q)

Incluyen
p retardos de la propia variable y q innovaciones pasadas.

Parte autorregresiva.
Responsable de la estacionariedad.
Responsable de la estructura de la funcin de
autocorrelacin.

Parte de medias mviles.


Responsable de la invertibilidad.
Responsable de la ausencia de estructura
de la funcin de autocorrelacin.

En resumen, sobre las funciones de autocorrelacin

ACF

PACF

Finita

Infinita

Finita

Ruido Blanco

AR

Infinita

MA

ARMA

Ajuste por Arch(p)


Generalmente se supone que la varianza de una serie cronolgica es constante, y el
serlo es una condicin necesaria para que una serie de tiempo sea estacionaria. Sin
embargo, en ocasiones no es as; en particular tratndose de la volatilidad de las series
financieras se presenta el fenmeno de heterocedasticidad, es decir, la varianza de la
serie tiene cambios sistemticos a travs del tiempo. Para estos casos se disearon los
modelos ARCH (Autorregresivo condicional heterocedstico) y los modelos GARCH
(generalizacin de los modelos ARCH). Estos modelos permiten estimar una ecuacin
de varianza que se supone deja de ser constante debido a choques o innovaciones
aleatorias.

Ajustes por Betas GARCH(p,q)


El precio de un activo se distribuye como una log normal, partiendo de este supuesto
se tiene:

+
Modelos ARCH (q), modelo de la varianza del error en funcin de los errores rezagados

Para garantizar que exista reversin a la media, la sumatoria de debe ser menor que
uno. Esta sumatoria se conoce como persistencia del modelo. Entre mas cerca a 1,
implica que los choques aleatorios que afectaron el modelo son ms persistentes y
tardaran mucho tiempo en desaparecer.

Ajustes por Betas GARCH(p,q)


El modelo GARCH (p, q), se describe de la siguiente manera:

Adems de incluir en la especificacin los errores rezagados tienen en cuenta las varianzas del modelo
Un modelo GARCH (1,1) se describe de la siguiente manera:

Existe homocedasticidad, es decir, no existe efecto ARCH ni GARCH


Volatilidad de ayer, la varianza de hoy es mayor si ayer se obtuvo grandes perturbaciones.
Varianza de la prediccin de ayer, el efecto persiste por mucho tiempo.

Datos panel o longitudinales


Un conjunto de datos panel consta de una serie temporal para cada miembro del corte transversal en el
conjunto de datos.

La caracterstica principal de los datos panel, que los distinguen de las combinaciones de cortes
transversales, es el hecho de que se da seguimiento a las mismas unidades transversales ya sean individuos,
pases, regiones, entre otros durante cierto periodo de tiempo.

La ventaja es que al tener las mismas unidades es posible controlar ciertas caractersticas inobservables de
individuos. Otra ventaja es que permite estudiar la importancia de los rezagos en el comportamiento o el
resultado de tomar una decisin.

Anlisis de datos panel

Usar estos comando


Xtdescribe
Xtsum
Xttab
Xttrans
Xtline
xtdata

El principal objetivo de aplicar y estudiar los datos en panel, es capturar la heterogeneidad no observable,
ya sea entre individuos como en el tiempo, dado que esta heterogeneidad no se puede detectar ni con
series de tiempo ni tampoco con modelos de corte transversal.
La heterogeneidad no observable: puede partir de los efectos individuales especficos y los efectos
temporales.
Los efectos individuales especficos son aquellos que afectan de manera desigual a cada uno de los
individuos los cuales son invariables en el tiempo y que afecten de manera directa las decisiones que tomen
dichas unidades.
Los efectos temporales serian aquellos que afectan por igual a todas las unidades individuales del estudio
pero que no varan en el tiempo.

Combinacin de corte transversales en el tiempo


Mtodos simples
Combinacin independiente de cortes transversales
Muchos estudios de personas, familias y empresas se repiten a intervalos regulares, a menudo cada ao. Si se extrae
una muestra aleatoria en cada periodo, al combinar los resultados de cada muestra se obtiene una combinacin
independiente de cortes transversales. Este es un aspecto clave tambin en el anlisis de corte transversal
(independencia muestral) ya que excluye la correlacin en los trminos de error para distintas observaciones.

Una razn para utilizar una combinacin independiente de cortes transversales es que el tamao de muestra se
incremente. Al combinar muestras aleatorias extradas de la misma poblacin, pero en distintos puntos del tiempo, se
obtienen estimadores mas precisos y estadsticos con mayor potencia de prueba. Este tipo de combinacin es til a
este respecto slo en la medida en que la relacin entre la variable dependiente y al menos algunas de las variables
independientes permanece constante con el paso del tiempo.

Combinacin de corte transversales en el tiempo


Mtodos simples
reflejar el hecho de que es posible que la poblacin tenga distintas distribuciones en diferentes periodos, se
Para

permite que el intercepto difiera a travs de los periodos. Esto se consigue fcilmente si se incluyen variables binarias
para todos los aos excepto una, la primera, que se elige como ao base de la muestra. A veces resulta de inters el
patrn de coeficientes de la variables binarias temporales.

MIREMOS UN EJEMPLO: Fertilidad de las mujeres en el tiempo. Estime el siguiente modelo con la base de datos
llamada FERTIL 1. Encuesta nacional para los aos pares desde 1972 hasta 1984. Se busca estimar un modelo que
explique el nmero total de hijos que tiene una mujer.

Combinacin de corte transversales en el tiempo


Mtodos simples
Preguntas:
Qu variables no son estadsticamente significativas?
Qu ha ocurrido con la tasa de fertilidad respecto al tiempo?
Qu pasa con las mujeres que tienen un mayor nmero de aos escolares?
Cul es la edad en que la mayora de las mujeres han dejado de tener hijos?

Combinacin de corte transversales en el tiempo


Mtodos simples

Tambin
se puede interactuar una variable binaria anual con las variables explicativas que son clave para ver si el

efecto de esa variable ha cambiado a lo largo de un cierto periodo.


Ejemplo: CAMBIOS EN LA RENTABILIDAD DE LA EDUCACIN Y EN LA DIFERENCIA DE SALARIO POR GNERO)

Preguntas:
Qu es y ?-> Intercepto de 1978 e Intercepto de 1985.
Qu es y ?->Impacto de la Educacin en 1978 e Impacto de la Educacin en 1985.
Qu es y ?->Diferencia de Salario entre las mujeres y los hombre en 1978.

Combinacin de corte transversales en el tiempo


Mtodos simples
Prueba de Chow para el cambio estructural en el tiempo
Es simplemente una prueba F, se utiliza para determinar si una funcin de regresin mltiple difiere en dos grupos.
Esta prueba tambin se puede aplicar a dos periodos diferentes. Para este caso, se puede interactuar cada variable
con una variable binaria anual para cada uno de los aos y se prueba la significancia conjunta de la variable binaria
anual y de todos los trminos de interaccin. En caso de que se tengan mas periodos de anlisis, por lo general es
mas interesante permitir que los interceptos cambien con el tiempo y luego probar si los coeficientes de las pendientes
han sufrido cambios en el tiempo, de esta manera se puede realizar el siguientes estadstico de prueba.
CORTE TRANSVERSAL

COMBINACIN DE CORTES

Combinacin de corte transversales en el tiempo


Mtodos simples
Anlisis de Polticas con Combinacin de Cortes Transversales

Contexto
El rumor de que se construira un nuevo incinerador de Basura en North Andover comenz despus de 1978 y la
construccin inici en 1981. Se esperaba que el incinerador entrara en operacin poco despus del comienzo de su
construccin; en realidad comenz a operar en 1985. Se utilizarn datos sobre los precios de las casas que se
vendieron en 1978 y otra muestra de aquellas que se vendieron en 1981. La hiptesis es que el costo de las casas
ubicadas cerca del incinerador estara por debajo del precio de las viviendas mas lejanas. Se considera que una casa
est cerca del incinerador si se halla en un radio de 3 millas.

Combinacin de corte transversales en el tiempo


Mtodos simples

Especificacin
del estimador DIF en DIF

Dado que es un modelo de regresin simple sobre una sola variable binaria, el intercepto es el precio de venta promedio
de las casas que no estn cerca del incinerador y el coeficiente acompaado de la variable es la diferencia entre el precio
promedio de las casas cercanas y aqul de las casas lejanas.
Cmo distinguir entonces si el incinerador reduce el valor de la vivienda?
La clave es considerar la forma en que el coeficiente de nearin cambia entre 1978 y 1981

Combinacin de corte transversales en el tiempo


Mtodos simples
Cmo saber si es estadsticamente significativa?

Entonces es el precio promedio de una casa no cercana en 1978. El parmetro captura los cambio de valor de todas las
casas de 1978 a 1981.

mide el efecto de la ubicacin que no se debe a la presencia del incinerador y mide la

disminucin en el valor de las casas debida al nuevo incinerador, siempre y cuando se suponga que las casas, tanto las
cercanas como las lejanas al incinerador, no se revalorizaron a tasas distintas por otras razones.
Ahora incluya age y age2
Ahora incluya age, age2, intst, land, rea, romos y baths. Qu sucede con nearinc? Esto indica que las

caractersticas incluidas capturan en buena medida las caractersticas de las casas que resultan ms importantes para
determinar el precio de la vivienda.
Ahora utilice logprice o logrprice para obtener el efecto de manera porcentual.

Combinacin de corte transversales en el tiempo


Mtodos simples
La metodologa empleada en el ejemplo anterior cuenta con numerosas aplicaciones, en especial cuando los datos surgen de un
experimento natural (o de un cuasiexperimento). Un experimento natural tiene lugar cuando algn evento exgeno, a menudo un cambio
en las polticas gubernamentales, modifica el ambiente en que se desenvuelven los individuos. Un experimento de esta ndole siempre
cuenta con un grupo de control, que no se ve afectado por el cambio de las polticas , y un grupo de tratamiento, que s se ve afectado
por este cambio. A diferencia de un experimento verdadero, en el cual los grupos de control y de tratamiento se eligen de manera
aleatoria y explicita, en los experimentos naturales los grupos surgen a partir del cambio de una poltica en particular. Para controlar las
diferencias sistemticas entre estos dos grupos, se necesitan datos de dos aos, un ao antes y otro despus del cambio de la poltica.
Sea C el grupo de control y T el grupo de tratamiento, donde dT es igual a 1 para los miembros del grupo de tratamiento y 0 en caso
contrario. De esta manera, suponiendo que d2 indica una variable binaria para el segundo periodo (despus del cambio de poltica), la
ecuacin que nos interesa es:

mide el efecto de la poltica, sin otros factores en la regresin, ser el estimador de diferencia en diferencias:

Combinacin de corte transversales en el tiempo


Mtodos simples
Ejemplo de Estimador de Diferencia en Diferencias
Antes

Despus

Antes-Despus

Control
Tratamiento
Tratamiento-Control
El parmetro ser el estimador de diferencia en diferencias, algunas veces llamado efecto promedio del tratamiento (debido a que
mide el efecto del tratamiento o la poltica sobre el resultado promedio de y), puede estimarse de dos maneras: i) calcular las
diferencias de los promedios entre los grupos de tratamiento y control para cada periodo, y luego obtener la diferencia de los
resultados respecto al tiempo y ii) calcular el cambio en los promedios respecto al tiempo para cada uno de los grupos de tratamiento y
de control, y despus determinar la diferencia entre estos cambios, lo cual simplemente se escribe .

Combinacin de corte transversales en el tiempo


Mtodos simples

Anlisis
de datos de panel para un periodo de dos aos

Una manera de utilizar datos de panel es clasificar los factores no observables, que influyen en la variable
dependiente, en dos tipos: aquellos que son constantes y aquellos que varan con el tiempo. Considerando que i es la
unidad de corte transversal y t el tiempo, se puede escribir un modelo con una sola variable explicativa observada
como:
Modelo de efectos
inobservables
Modelo de efectos fijos

En la notacin , i denota el individuo y t indica el periodo. La variable es una variable binaria que es igual a cero
cuando t=1 y a uno cuando t=2; no cambia en i, razn por la cual no tiene subndice i. Por consiguiente, el intercepto
para t=1 es , y el intercepto para t=2 es . La variable captura todos los factores inobservables (heterogeneidad
individual), constantes en el tiempo, que influyen en . El error con frecuencia se llama error idiosincrtico o error
variable en el tiempo.

Combinacin de corte transversales en el tiempo


Mtodos simples
ese caso como se estimara ?: una posibilidad es tan solo combinar los dos aos y utilizar MCO, sin embargo se
en

pueden presentar dos inconvenientes, el ms importante es que para hacer MCO genere un estimador consistente
de , tendra que suponer que el efecto inobservable , no se correlaciona con .
En la mayora de las aplicaciones, la razn principal para reunir datos de panel es permitir que el efecto inobservable ,
se correlacione con las dems variables explicativas. Resulta que es muy fcil propiciar esto: como , es constante en
el tiempo se pueden diferenciar los datos a lo largo de los dos aos. De manera ms precisa, para la observacin de
corte transversal i, se pueden denotar los dos aos como:

Si se resta la segunda ecuacin de la primera se obtiene:

Datos de Panel
Estimacin de efectos fijos

Supuestos
para los efectos fijos
1.

Para cada i, el modelo es:

Donde los son los parmetros a estimar y es el efecto


2. Se tiene una muestra aleatoria en la dimensin de corte transversal.
3. Cada variable explicativa cambia con el tiempo (al menos para cada alguna i), y no existe una relacin lineal perfecta entre las variables
explicativas.
4. Para cada t, el valor esperado del error idiosincrtico, dadas las variables explicativas en todos los periodos y el efecto inobservable, es
cero:
Con base en los primeros cuatro supuestos, los cuales son idnticos a los supuestos del estimador de primeras diferencias, el estimador
de efectos fijos es insesgado. De nuevo, la clave es el supuesto de exogeneidad estricta, 4. Bajo estos mismo supuestos, el estimador de
EF es consistente con un T fijo conforme N
5. =

Datos de Panel
Estimacin de efectos fijos
6. Para todo ts , los errores idiosincrticos no estn correlacionados (de manera condicional en todas las variables

explicativas y en ): Cov

Con base en estos seis supuestos, el estimador de efectos fijos de los es el mejor estimador lineal insesgado. El supuesto que hace
que EF sea mejor que PD es el ltimo supuesto, lo que implica que los errores idiosincrticos no se correlacionan serialmente.

7. De manera condicional en y en los son independientes e idnticamente distribuidos como Normal (0, )

El supuesto 7 implica los supuestos 4,5 y 6, pero es ms fuerte, ya que supone una distribucin normal para los errores idiosincrticos. Si se
agrega 7, el estimador de EF se distribuye normalmente y los estadsticos t y F tienen distribuciones exactas t y F. Sin 7, se puede confiar en
las aproximaciones asintticas. Pero, sin hacer suposiciones especiales, estas aproximaciones requieren una N grande y un T pequeo.

Datos de Panel
Estimacin de efectos fijos

Transformacin
de efectos fijos

Ahora para cada i, se promedia la ecuacin en el tiempo y se obtiene

La transformacin de efectos fijos tambin se llama transformacin intragrupal (within)

Bajo el supuesto de exogeneidad estricta sobre las variables explicativas, el estimador de efectos fijos es insesgado: aproximadamente, el error
idiosincrtico no debe correlacionarse serialmente con ninguna variables explicativa en todos los periodos. El estimador de efectos fijos permite la
correlacin arbitraria de y las variables explicativas en cualquier periodo, al igual que las primeras diferencias.

El otro supuesto necesario para que el estimador por MCO directo sea valido es que los errores , sean homocedasticos y no estn serialmente
correlacionados (en t)

El R-Cuadrado within se interpreta como la cantidad en la variacin temporal en que se explicar por la variacin temporal en las variables explicativas.

Datos de Panel
Estimacin de efectos fijos

Regresin
de Variables Binarias
Un punto de vista tradicional respecto del modelo de efectos fijos es suponer que el efecto inobservable, , es un parmetro que debe
estimarse de cada i. Por tanto, en la ecuacin, , , es el intercepto para el individuo i que debe estimarse junto con las .

La forma que se estima un intercepto para cada i es asignar una variable binaria para cada observacin de corte transversal, junto con
las variables explicativas.

Algunos paquetes economtricos que soportan la estimacin de efectos fijos reportan un intercepto, lo cual puede crear confusin en
vista de que el tiempo deducido elimina todas las variables constantes en el tiempo. Los reportes de un intercepto general en le
estimacin de efectos fijos surgen de considerar como parmetros a estimar. El intercepto reportado es el promedio en i de las En
otras palabras, el intercepto generalmente es, en realidad, el promedio de los interceptos especficos individuales, el cual es un
estimador insesgado y consistente.

Datos de Panel
Estimacin de efectos fijos

EFECTOS
FIJOS O PRIMERAS DIFERENCIAS

Cuando se tiene T=2, las estimaciones, as como todos los estadsticos de pruebas son idnticos.
Cuando se tiene T3, los estimadores no son los mismos. En virtud de que ambos son insesgados, con base en los

supuestos 1 a 4, no es posible utilizar el insesgamiento como criterio. Para N grande y T pequeo, la eleccin entre
estimadores depende de su eficiencia relativa, y esto esta determinado por la correlacin serial de los errores
idiosincrticos, .
Cuando las no se correlacionan serialmente, los estimadores de efectos fijos son mas eficientes que los de primeras

diferencias.
El hecho terico importante es que en el estimador de PD el sesgo no depende de T, mientras que el sesgo en el

estimador de EF tiende a cero a razn de 1/T.


Por lo general resulta difcil elegir entre estimadores de EF y PD cuando generan resultados sustancialmente distintos.

Datos de Panel
Estimacin de efectos aleatorios

Supuestos
para los efectos aleatorios:
Los supuestos ideales de efectos aleatorios comprenden los supuestos de efectos fijos (1,2,4,5,6 7 se podra agregar a la lista, pero
es poco practico porque se debe estimar ). Como solo se esta restando una fraccin de los promedios en el tiempo, ahora se puede
permitir variables explicativas constantes. As el supuesto 3 se reemplaza con:
1.

No existen relaciones lineales perfectas entre las variables explicativas

El costo de permitir regresores constantes en el tiempo es que se deben aadir supuestos acerca de cmo se relaciona el efecto inobservable, , con las
variables explicativas.

2.

Adems del supuesto 4, el valor esperado de dada todas las variables explicativas es constante: |

Este es el supuesto que rige la correlacin entre el efecto inobservable y las variables explicativas, y es la distincin fundamental entre los EF y EA. Como se
supone que no se correlaciona con ninguno de los elementos es posible incluir variables explicativas constantes en el tiempo.

3.

Adems del supuesto 5, la varianza de dada todas las variables explicativas, es constante: |
Con base en los seis supuestos de efectos aleatorios, el estimador de EA es consistente y se distribuye asintticamente como normal.
Para los coeficientes de las variables explicativas que cambian en el tiempo, el estimador de EA es mas eficiente que el de EF.

Datos de Panel
Estimacin de efectos aleatorios
Se comienza con el mismo modelo de efectos inobservables donde se incluye, de manera explicita, un intercepto de modo que se puede
suponer que el efecto inobservable, , tiene media cero.

Esta ecuacin se estima cuando se da por sentado que el efecto inobservable no se correlaciona con ninguna variable explicativa.
,
Si se define el trmino de error compuesto como , entonces se tendra: Como esta en el error compuesto en cada periodo, las se
correlacionan serialmente en cada periodo de tiempo.

Para eliminar la correlacin serial en los errores se requiere la transformacin por MCG de la siguiente manera:
;

Datos de Panel
Estimacin de efectos aleatorios

EFECTOS
ALEATORIOS O EFECTOS FIJOS
Dado que los efectos fijos permiten una correlacin arbitraria entre y las , mientras que los efectos aleatorios no, se considera
ampliamente que los EF constituyen una herramienta ms convincente para las estimacin de los efectos ceteris paribus. No
obstante, los efectos aleatorios se aplican en ciertas situaciones. Evidentemente, si la variable explicativa clave es constante en el
tiempo. Desde luego, slo se puede utilizar EA debido a que se esta dispuesto a suponer que no se correlacionas con .

Sigue siendo comn ver a investigadores que aplican tanto EF como EA, y luego prueban de manera formal las diferencias
estadsticas significativas en los coeficientes de las variables explicativas que cambian con el tiempo. Hausman propuso este tipo
de prueba, donde la Ho es aplicar EA o EF indistintamente y la Ha es aplicar EF. se debe hacer una distincin entre una diferencia
significativa en la practica y una diferencia estadsticamente significativa

Modelos economtricos para datos panel


El modelo general viene determinado de la siguiente manera:

Error compuesto, efecto no observado y error idiosincrtico.


Bajo supuestos distintos sobre el intercepto y los componentes de error, el modelo puede ser.

1. Modelo agrupado (Pooled): Si el intercepto es constante, y no hay heterogeneidad entre individuos. Exogeneidad

Cov(, )=0
2. Modelo de efectos fijos: Si el intercepto es constante, y hay heterogeneidad entre individuos. Cov(, )0
3. Modelo de efectos aleatorios: Si el intercepto es constante, y hay heterogeneidad entre individuos. Cov(, )0

Modelos economtricos para datos panel


La principal diferencia entre efectos fijos y
aleatorios es que el primero supone que las
variables explicativas se correlacionan con el
efecto no observado fijo en el tiempo (el que
denominamos ai) por lo que se transforma el
modelo para eliminar dicho efecto fijo.
Pero el modelo de efectos aleatorios supone
que no se correlaciona el efecto con la(s)
variable(s) explicativa(s) del modelo por lo que
no se elimina el efecto fijo, si no se elimina el
efecto fijo ste queda en el trmino de error.
Dado que el efecto fijo no vara en el tiempo
pero si por individuo, el error de cada individuo
en el periodo t est correlacionado con el error
del mismo individuo en el periodo t-1, t-2....
(dependiendo del nmero de periodos).

Regresin Pooled
La regresin agrupada se evala sin tener en cuenta de que los datos son datos de panel
agrupados.

Comandos:
*global
*sort (i) (t)
*reg, vce (ckuster id)
*predict, resid
*correlate

Estimacin del modelo de efectos fijos

Comandos:
*xtreg, fe
*xttest3
*xtserial
*xtregar

Es una estimacin a travs de la transformacin within, tomando la desviacin respecto a


la media en el tiempo para cada individuo con el propsito de eliminar .

Media temporal al interior de cada observacin (Modelo intragrupos)

Estimacin del modelo de efectos aleatorios

Comandos:
*xtreg, re
*xttest1
*xtserial
*xtregar

La estimacin se puede realizar mediante tres mtodos: el primero hace nfasis en


evaluarlo en primeras diferencias, el segundo por el mtodo de mnimos cuadrados
generalizados y tercero con el mtodo Between.

Qu modelo escoger?
Para elegir el mejor modelo a estimar se puede hacer una prueba con el comando
hausman FE RE, sigmamore.

La hiptesis nula de esta prueba es que la diferencia de los coeficientes no es sistemtica,


de otra manera no existe diferencia entre los modelos fijos y aleatorios, se podra evaluar
cualquier de los dos modelos. Por otro lado, si se rechaza la hiptesis nula, la mejor
manera para estimar el modelo seria efectos fijos.

Anlisis Multivariante: Anlisis Discriminante


El anlisis discriminante se usa para estimar la relacin entre una variable dependiente categrica y un
conjunto de variables independientes en escala de intervalo.
Las tcnicas de Anlisis Discriminante se describen por el nmero de categoras contenidas en la
variable de estudio:
2 categoras: Anlisis Discriminante de 2 grupos
3 o ms categoras: Anlisis Discriminante Mltiple

La diferencia principal entre AD de 2 grupos y AD mltiples es que con el primero slo es posible
estimar una funcin discriminante mientras que con el segundo ms de una funcin puede ser
computada.
FUNCIN DISCRIMINANTE: combinacin lineal de variables independientes generadas por el
Anlisis Discriminante que mejor segregue entre las categoras de la variable dependiente.

Anlisis Multivariante: Anlisis Discriminante


Nominal: nombres o clasificaciones que se utilizan para datos en categoras distintas y separadas.

Distintas y separadas hace referencia a variables que pueden registrarse exclusivamente.

Ordinal: son las que clasifican las observaciones en categoras con un orden significativo.

Intervalo: medidas en una escala numrica en la cual el valor de cero es arbitrario pero la diferencia

entre valores es importante.

Razn: medidas numricas en las cuales cero es un valor fijo en cualquier escala y la diferencia

entre valores es importante.

Anlisis Multivariante: Anlisis Discriminante

Modelo
de anlisis discriminante:

Donde:
D: valor discriminante (discriminant score)
bs: coeficientes discriminantes (o pesos)
X: predictores (o variables independientes)

Anlisis Multivariante: Anlisis Discriminante


1. Formular el problema
2. Estimar los coeficientes de la funcin discriminante
3. Determinar la significancia de la funcin discriminante
4. Interpretar los resultados
5. Evaluar la validez del anlisis discriminante

Anlisis Multivariante: Anlisis Discriminante


Formulacin del problema: objetivos, variables de inters y variables independientes.

NOTA IMPORTANTE: respecto a las variables independientes, recordar que su criterio de


seleccin debera fundamentarse en la teora, investigacin previa o en la experiencia del
investigador (en casi de anlisis exploratorio).

Dividir la muestra en dos parte: muestra de anlisis y muestra de validacin (validacin cruzada)

Anlisis Multivariante: Anlisis Discriminante


Estimar Anlisis Discriminantes (Cannico Lineal)
Anlisis discriminante lineal cannico (candisc)
candisc
Anlisis: cmo slo hay dos grupos, slo una funcin discriminante es calculada.

Anlisis Multivariante: Anlisis Discriminante


Open
Describe o F2
Grafico de dispersin entre tamao del lote e ingreso
Anlisis Discriminante: tablas de confusin

Anlisis Multivariante: Anlisis Discriminante


Estimar los coeficientes

Estimar anlisis discriminante (cannico lineal)

Candisc if, group()


Anlisis: cmo slo hay dos grupos, slo una funcin discriminante es calculada.

Resumir media y desviacin estndar de las variables segn categora visit para la muestra de anlisis.

Estat grsummarize, n mean sd cv


Anlisis: determinar la variable que ofrece una separacin significativa entre grupos.

Anlisis Multivariante: Anlisis Discriminante


Estimar los coeficientes

Revisin matriz de correlacin agrupada (within-group)

Estat correlations, within p


Anlisis: la matriz de correlacin indica la fuerza y nivel de significancia entre las predictoras.

Realiza ANOVA para estimar la significancia individual

ANOVA: tcnica estadstica para examinar la diferencia entre las medias para dos o ms poblaciones.
Estat anova
Anlisis: la significancia estadstica del estadstico F.

Anlisis Multivariante: Anlisis Discriminante


Estimar los coeficientes

Estimar funcin discriminante

Estat canontest
Anlisis:
eigen-valor(el valor propio asociado y la varianza explicada). para cada funcin discriminante, el valor
propio es la razn entre las sumas de cuadrados de los grupos between y within. Eigenvalores altos
implican funciones superiores)
Correlacin Cannica. Mide la extensin de la asociacin entre los valores discriminantes y los grupos. Es
una medida de asociacin entre la funcin discriminante y el set de variables dummy que definen la
pertenencia a un grupo.)

Anlisis Multivariante: Anlisis Discriminante


Estimar los coeficientes
Determinar la significancia de la funcin discriminante.
Anlisis: o Ho: Las medias de los grupos son iguales en la poblacin son iguales para todas las
funciones discriminantes.

SPSS -> Wilks (lambda) ->transformacin chi2 -> valor p

Stata -> Likelihood ratio -> transformacin F -> valor p -> Valor p =.0001, Ho se rechaza, luego es
significativa la discriminacin y por tanto puede procederse a interpretar los resultados.

Anlisis Multivariante: Anlisis Discriminante


Interpretacin de resultados
Interpretacin de los resultados Anlisis: la interpretacin de los coeficientes discriminantes es similar a la de los coeficientes de
regresin lineal mltiple.
Coeficientes de la funcin cannica discriminante.
estat loadings, unstandardized
Coeficientes estandarizados de la funcin cannica discriminante.
Estructura cannica (o cargas cannicas, o cargas discriminantes)

(Correlaciones estructurales: tambin conocidas como cargas discriminantes, representan las correlaciones simples entre las
predictoras y la funcin discriminante)

Medias de grupo en las variables cannicas (o centroides)

(Correlaciones estructurales: tambin conocidas como cargas discriminantes, representan las correlaciones simples entre las predictoras
y la funcin discriminante)

(Centroide: es el valor medio de los valores discriminantes (D) para un grupo en particular

Anlisis Multivariante: Anlisis Discriminante


Validez Anlisis Discriminante
Razn de xito (hit ratio): el porcentaje de casos clasificados correctamente por el anlisis discriminante.
Tabla de clasificacin (o matriz de confusin).
Original
Validacin cruzada
(estat classtable, looclass)
Sobre base de validacin (no de anlisis):
(predict scores, classification -> hallar razn de xito manualmente)

Miguel Angel Bello


miguel.bello@software-shop.com

Vous aimerez peut-être aussi