Académique Documents
Professionnel Documents
Culture Documents
4.
.
.
.
.
Grficos
Lnea
Torta
Scatter
Histogramas
2. Manejo de la interfaz
. Ventanas y Mens
. Tipos de Archivos
. Sintaxis de los comandos
5. Anlisis de datos
. Estadstica bsica
. Tablas (frecuencias, cruzadas, etc)
6. Inferencia Estadstica
. Pruebas sobre la media, varianza y proporciones
. Intervalos de confianza.
Manejo Intermedio
Regresin lineal
Qu es Stata?
Stata es un paquete estadstico operado por lneas de comando por lneas de comando , por lo
cual se define como un lenguaje de programacin, aunque tambin funciona bajo entorno
grafico (por la barra men). Ofrece la flexibilidad como tambin mltiples herramientas para el
manejo de base de datos, y opciones de grficos, lo cual facilita al principiante aprender a
manejarlo. Adicionalmente, desde el programa se puede acceder a actualizaciones y bases de
datos disponibles en internet.
Versiones de Stata
help limits
Small Stata
Intercooled Stata
Stata/SE
Stata/MP
Ventajas y Desventajas
Ventajas
Desventajas
Ventana de revisin
Ventana de
variables
Ventana de resultados
Ventana de
propiedades
de variables
Ventana de comandos
Mens
Barra de
nombre
Barra de mens
Barra de herramientas
Tipos de archivos
Tipo de Archivo
Archivos de datos
Archivos grficos
Bitcoras de salida
Archivos de comandos
Archivos de programacin
Programacin
Diccionarios
Extensin
*.dta
*.gph
*.smcl
*.do
*.ado
*.mata
*.dct
Creacin de variables
help generate
Smbolo
Descripcin
Matemtico
+
*
/
^
Adicin
Substraccin
Multiplicacin
Divisin
Potencia
Lgico
!
|
&
No
O
Y
Relacionales
>
<
>=
<=
==
!=;~=
Mayor
Menor
Mayor o igual que
Menor o igual que
Igual
Diferente
Transformacin de variables
help replace
Administrador de variables
Filtros
help browse; help list; help table
Grficos
scatter
Grficos
Tortas y Barras
Grficos
Correlaciones
Produce un cuadro de frecuencias para diferentes valores o categoras de una variable. Tambin permite
generar cuadros de frecuencia de 2 vas, incluyendo la prueba Pearson, donde la hiptesis nula es que estas
dos variables son independientes.
Introduccin a la regresin
Qu es?
no
implica
causalidad
necesariamente.
Para qu
sirve?
externas
y, en
ltimo
Introduccin a la regresin
REGRESIN
CORRELACIN
Validacin
Estimacin
Pruebas individuales.
explique
de
manera
exclusiva
el
Pronstico
Especificacin
Dependencia lineal
Se debe encontrar una recta que se ajuste a la nube
de punto.
Homocedasticidad
No autocorrelacin
No multioclinealidad
Independencia
cuadrados
independientes.
que
minimiza
observaciones a la recta.
la
distancia
de
las
del
error
con
las
variables
Cr
se iteri
le os
cc d
i e
n
Mejor
bondad de
ajuste
1.
2.
3.
M
t
se odo
le c s d
c i e
n
La principal caracterstica de este modelo es que el coeficiente que acompaa las variables independientes mide la
elasticidad constante de Y respecto de X, es decir, el cambio porcentual en Y ante un pequeo cambio porcentual en
X . En la notacin de clculo, la elasticidad se define como:
Si se multiplica por 100 , dar entonces el cambio porcentual o la tasa de crecimiento instantnea (en un momento
dado), en Y ocasionada por un cambio absoluto en X. Para estima la tasa de crecimiento compuesta se debe sacar
el antilogaritmo de y restarle uno
En este caso debe ser divida entre 100 para mostrar un cambio absoluto en Y dado por un cambio en 1% en X.
Modelos ANOVA
Inclusin de variables de escala nominal que permiten analizar, manteniendo constantes variables de escala de
razn, el comportamiento de la variable dependiente. Esta variables toman valores artificiales dependiendo de la
presencia o ausencia de un atributo. Las variables que adquieren tales valores 0 y 1 se llaman variables
dicotmicas. Tales variables son, por tanto, en esencia, un recurso para clasificar datos en categoras mutuamente
excluyentes.
El Modelo ANOVA, es un modelo de regresin que contienen variables explicativas exclusivamente dictomas o
cualitativas. El modelo tiene la siguiente expresin:
Modelos ANOVA
Para tener en cuenta:
1. No incluir todas las categoras que pueda tener una variables, esto generara colinealidad perfecta, es decir una
relacin lineal exacta entre variables. Es imposible estimar un modelo de este tipo (incluyendo la constante). De
esta manera, si una variable cualitativa tiene m categoras, slo hay que agregar (m-1) variables dictomas.
2. La categora a la cual no se asigna variable dictoma se conoce como categora base, de comparacin. Adems,
todas las comparaciones se hacen respecto de la categora de comparacin.
3. El valor del intercepto representa el valor medio de la categora de comparacin.
4. Los coeficientes que acompaan las variables categricas se conocen como coeficientes de intercepto
diferencial, debido a que indican la medida en que el valor de la categora que recibe el valor de 1 difiere del
coeficiente del intercepto correspondiente a la categora de comparacin
Modelos ANOVA
Interpretacin de variables dictomas en regresiones semilogartimicas
El intercepto proporciona el logaritmo medio y el coeficiente de la pendiente, la diferencia entre el logaritmo entre las
dos categoras. Si se toma el antilogaritmo de , lo que ahora se tendra no es el valor medio de la variable
dependiente, sino la mediana. Y si se toma el antilogaritmo de (+, se obtiene la mediana de la variable categrica. El
antilogaritmo de es la semielasticidad de la variable dicotmica.
Interpretacin
Elasticidad: es el cambio porcentual esperado de Y ante un
cambio porcentual en X.
Cambio esperado en nivel en Y ante un cambio porcentual en X.
se debe dividir entre 100 para su interpretacin.
Semi-elasticidad: es el cambio porcentual esperado de Y ante un
cambio marginal en X. se debe multiplicar por 100 para su
interpretacin.
Efecto marginal: cambio esperado en nivel en Y ante un cambio
marginal en X.
es la media de la categora que esta como base. es el cambio
diferencial de la categora que toma el valor de 1 con respecto a
la categora base.
Exp( es la mediana de la categora base. Exp(+) es la mediana
cuando la categora de esta variable toma el valor de 1. Exp()1*100 es el cambio porcentual de estar en esa categora con
respecto a la categora base.
Donde Yi=1 si el hogar es propietario de su casa y cero en caso contrario y Xi es el ingreso del hogar i.
ingresos promedio.
Funcin
logstica
Funcin de
distribucin
normal
acumulada
en
p
0.8
0.6
0.4
0.2
Se supone un umbral critico I* a partir del cul, si I supera I* entonces una familia posee una casa. El
umbral I*, al igual que I no es observable. Si se supone que esta distribuido normalmente con la
misma media y varianza, es posible estimar los praemtr4os del ndice y tambin alguna informacin
sobre el I*.
Donde Z es una variable estndar normal, con media cero y varianza constante. F es la
funcin de distribucin de probabilidad acumulada.
De esta manera:
Pi = F(Ii)
p
0.8
Pr (I*i Ii)
0.6
0.4
0.2
Ii = + Xi
Series de tiempo
Muchas de la series de tiempo se comportan en funcin del tiempo. La
econometra ha desarrollado mtodos para el tratamiento de este tipo de datos.
Estos mtodos consisten en descomponer la parte determinstica y separarla
del componente aleatorio.
Determinstico: supone que no existe aleatoriedad en la informacin de la variables,
por lo tanto, cuando se realiza un modelo, se tiene con certeza toda la informacin.
Estocstico: no existe toda la informacin disponible, por lo tanto, existe
incertidumbre.
principales;
la
tendencia,
el
ciclo,
la
Descomposicin: Tendencia
Descomposicin: Ciclo
Ciclo,
: son fluctuaciones en forma de onda alrededor de la tendencia y corresponde a un
componente de largo plazo, por tanto, tienen una duracin de ms de un ao. Las
fluctuaciones indican aumentos y cadas que no tienen un periodo fijo; los ciclos se identifican
por lo general en cinco fases, para el ciclo de los negocio: auge, crisis, recesin, depresin y
recuperacin; y para el ciclo de vida de un producto: introduccin, crecimiento, madurez,
saturacin y declive. Los patrones cclicos son difciles de modelar porque sus patrones
generalmente son inestables, al ser difciles de identificar y complejos de separar de la serie
tendencial, con frecuencia el ciclo de la serie de tiempo se le atribuye como parte de la
tendencia, para formar as un componente , que contiene el componente tendencia-ciclo
Descomposicin: Estacionalidad
Descomposicin: Irregular
Promedio
mvil doble: una manera de pronosticar los datos de las series de tiempo que
tienen una tendencia lineal es usar promedios mviles dobles.
Modelo
de suavizamiento exponencial: es un modelo de pronstico cuyo nuevo valor es un promedio
ponderado de los valores actuales y pasados. A diferencia del promedio mvil, el suavizamiento incluye toda
la informacin disponible y pondera mas las observaciones recientes.
Mtodo
de Holt-Winter: el mtodo de suavizacin exponencial lineal y estacional de tres parmetros de Winters, es
una extensin del mtodo de Holt que podra representar mejor los datos y reducir el error del pronstico cuando
existe un patrn de estacionalidad. En el mtodo de Winters se emplea una ecuacin adicional para estimar la
estacionalidad
NO ESTACIONALIDAD
SIN TENDENCIA
CON TENDENCIA
PROMEDIO
SIMPLE.
MVIL
SUAVIZAMIENTO
EXPONENCIAL SIMPLE
PROMEDIO MVIL
DOBLE.
SUAVIZAMIENTO
EXPONENCIAL DOBLE.
CON ESTACIONALIDAD
ADITIVO ESTACIONAL.
MULTIPLICATIVO
EXPONENCIAL.
ADITIVO HOLT-WINTERS.
MULTIPLICATIVO HOLTWINTERS.
Qu modelo evaluar?
MAD Desviacin media absoluta: Mide la exactitud
del pronstico , promediando la magnitud de los
errores.
Qu modelo evaluar?
MAPE Error porcentual absoluto medio
El coeficiente mide el grado de asociacin lineal entre Yt y Yt-k, siendo k el orden del rezago. Ahora se
aplica varianzas a cada lado:
1.
2.
3.
4.
5.
6.
7.
Fuertes tendencias.
Difcil de distinguir tendencias y ciclos.
Ciclos estocsticos, difciles de predecir.
Comportamientos estacionales marcados
Oscilaciones muy errticas, no hay tendencias ni ciclos obvios.
Covariaciones sugerentes.
Cambios estructurales.
La serie muestra:
Un perfil creciente (tendencia).
Fluctuaciones estacionales.
Una variabilidad que crece a medida que
aumenta el nivel de la serie
La serie muestra:
Una fluctuacin estable en torno a una media
nula.
Muestran periodos de alta y baja volatilidad.
Los primeros y segundos momentos (media y varianza) de distintas series temporales pueden
comportarse de formas muy diferentes.
Las series temporales de naturaleza similar (por ejemplo, financieras) a menudo presentan rasgos
comunes que son de gran utilidad para analizarlas.
Conceptos bsicos
Proceso estocstico es un conjunto de variables aleatorias asociadas a distintos instantes de tiempo de
manera sucesiva. Una serie de tiempo es la realizacin particular de un proceso estocstico.
Serie temporal es un conjunto de observaciones o medidas realizadas secuencialmente en intervalos
predeterminados y de igual, o aproximadamente igual, duracin.
El objetivo del anlisis de series temporales es inferir la forma del proceso estocstico a partir de las
series temporales que genera.
Proceso estocstico estacionario es cuando los parmetros como media y varianza son constantes en el
tiempo y los valores de la covarianza entre dos periodos no depende del tiempo sino de la distancia o
rezago que hay entre dos periodos.
Principales hiptesis
Los supuestos ms comunes son:
Linealidad, el valor que toma hoy la serie (o el proceso) depende linealmente de sus valores pasados y los
valores presentes y pasados de otras series.
Estacionariedad, la media y varianza incondicional de una serie (o proceso) son constantes, las
autocovarianzas entre dos valores solo dependen de la distancia temporal que los separa. Formalmente:
Es el proceso mas aleatorio que existe. Es por construccin estacionario. Es una coleccin de
variables aleatorias con media cero y no correlacionadas entre ellas.
Un proceso ruido blanco no es posible pronosticar utilizando modelos ARIMA. Un proceso Ruido
Blanco no tiene memoria, es decir, que el ltimo dato conocido recoge toda la informacin histrica
disponible.
Paseo aleatorio, un paseo aleatorio representa una variable cuyos cambios son ruido blanco y,
por tanto, imprevisibles. La caracterstica fundamental de este proceso es la falta de afinidad de
las series a una media estable.
Hasta el momento t-1 se tiene los valores pasados de la serie y las innovaciones pasadas.
Segn la informacin disponible, hay tres tipos de modelos:
Modelos de medias mviles (MA)
Modelos autoregresivos (AR)
Modelos Mixtos (ARMA)
Modelos ARIMA
SUPUESTOS:
1.
Toda serie de tiempo ha sido generada por un proceso estocstico cuya naturaleza puede
ser caracterizada o descrita mediante un modelo.
2.
3.
1.
Identificacin
2.
Estimacin
3.
4.
Pronstico
Fase de identificacin
Proceso estadstico que genero la serie, para identificar el proceso se requiere de
herramientas graficas y estadsticas.
Grafico
Correlograma: representacin grafica del diagrama de dispersin entre los coeficientes de
correlacin y el orden del rezago. A medida que aumenta el orden del rezago, el coeficiente de
autocorrelacin tiende a cero.
-1
la
banda
significa
Fase de identificacin
Fase de identificacin
El correlograma sirve para:
Saber si es Ruido Blanco
Estacionaria->Converge a cero rpidamente despus de que los
Fase de identificacin
La presencia de una raz unitaria en una serie de tiempo econmica revela directamente
inestabilidad de la misma, siendo necesario transformarla para poder trabajar con ella.
Series estacionarias
La serie debe ser estacionaria para la metodologa de Box-Jenkins
1.
Tendencia
1.
Lineal->Primera diferencia
2.
2.
Varianza-> logaritmo
3.
4.
Estacionalidad->Diferencia estacional
Incluyen
p retardos de la propia variable y q innovaciones pasadas.
Parte autorregresiva.
Responsable de la estacionariedad.
Responsable de la estructura de la funcin de
autocorrelacin.
ACF
PACF
Finita
Infinita
Finita
Ruido Blanco
AR
Infinita
MA
ARMA
+
Modelos ARCH (q), modelo de la varianza del error en funcin de los errores rezagados
Para garantizar que exista reversin a la media, la sumatoria de debe ser menor que
uno. Esta sumatoria se conoce como persistencia del modelo. Entre mas cerca a 1,
implica que los choques aleatorios que afectaron el modelo son ms persistentes y
tardaran mucho tiempo en desaparecer.
Adems de incluir en la especificacin los errores rezagados tienen en cuenta las varianzas del modelo
Un modelo GARCH (1,1) se describe de la siguiente manera:
La caracterstica principal de los datos panel, que los distinguen de las combinaciones de cortes
transversales, es el hecho de que se da seguimiento a las mismas unidades transversales ya sean individuos,
pases, regiones, entre otros durante cierto periodo de tiempo.
La ventaja es que al tener las mismas unidades es posible controlar ciertas caractersticas inobservables de
individuos. Otra ventaja es que permite estudiar la importancia de los rezagos en el comportamiento o el
resultado de tomar una decisin.
El principal objetivo de aplicar y estudiar los datos en panel, es capturar la heterogeneidad no observable,
ya sea entre individuos como en el tiempo, dado que esta heterogeneidad no se puede detectar ni con
series de tiempo ni tampoco con modelos de corte transversal.
La heterogeneidad no observable: puede partir de los efectos individuales especficos y los efectos
temporales.
Los efectos individuales especficos son aquellos que afectan de manera desigual a cada uno de los
individuos los cuales son invariables en el tiempo y que afecten de manera directa las decisiones que tomen
dichas unidades.
Los efectos temporales serian aquellos que afectan por igual a todas las unidades individuales del estudio
pero que no varan en el tiempo.
Una razn para utilizar una combinacin independiente de cortes transversales es que el tamao de muestra se
incremente. Al combinar muestras aleatorias extradas de la misma poblacin, pero en distintos puntos del tiempo, se
obtienen estimadores mas precisos y estadsticos con mayor potencia de prueba. Este tipo de combinacin es til a
este respecto slo en la medida en que la relacin entre la variable dependiente y al menos algunas de las variables
independientes permanece constante con el paso del tiempo.
permite que el intercepto difiera a travs de los periodos. Esto se consigue fcilmente si se incluyen variables binarias
para todos los aos excepto una, la primera, que se elige como ao base de la muestra. A veces resulta de inters el
patrn de coeficientes de la variables binarias temporales.
MIREMOS UN EJEMPLO: Fertilidad de las mujeres en el tiempo. Estime el siguiente modelo con la base de datos
llamada FERTIL 1. Encuesta nacional para los aos pares desde 1972 hasta 1984. Se busca estimar un modelo que
explique el nmero total de hijos que tiene una mujer.
Tambin
se puede interactuar una variable binaria anual con las variables explicativas que son clave para ver si el
Preguntas:
Qu es y ?-> Intercepto de 1978 e Intercepto de 1985.
Qu es y ?->Impacto de la Educacin en 1978 e Impacto de la Educacin en 1985.
Qu es y ?->Diferencia de Salario entre las mujeres y los hombre en 1978.
COMBINACIN DE CORTES
Contexto
El rumor de que se construira un nuevo incinerador de Basura en North Andover comenz despus de 1978 y la
construccin inici en 1981. Se esperaba que el incinerador entrara en operacin poco despus del comienzo de su
construccin; en realidad comenz a operar en 1985. Se utilizarn datos sobre los precios de las casas que se
vendieron en 1978 y otra muestra de aquellas que se vendieron en 1981. La hiptesis es que el costo de las casas
ubicadas cerca del incinerador estara por debajo del precio de las viviendas mas lejanas. Se considera que una casa
est cerca del incinerador si se halla en un radio de 3 millas.
Especificacin
del estimador DIF en DIF
Dado que es un modelo de regresin simple sobre una sola variable binaria, el intercepto es el precio de venta promedio
de las casas que no estn cerca del incinerador y el coeficiente acompaado de la variable es la diferencia entre el precio
promedio de las casas cercanas y aqul de las casas lejanas.
Cmo distinguir entonces si el incinerador reduce el valor de la vivienda?
La clave es considerar la forma en que el coeficiente de nearin cambia entre 1978 y 1981
Entonces es el precio promedio de una casa no cercana en 1978. El parmetro captura los cambio de valor de todas las
casas de 1978 a 1981.
disminucin en el valor de las casas debida al nuevo incinerador, siempre y cuando se suponga que las casas, tanto las
cercanas como las lejanas al incinerador, no se revalorizaron a tasas distintas por otras razones.
Ahora incluya age y age2
Ahora incluya age, age2, intst, land, rea, romos y baths. Qu sucede con nearinc? Esto indica que las
caractersticas incluidas capturan en buena medida las caractersticas de las casas que resultan ms importantes para
determinar el precio de la vivienda.
Ahora utilice logprice o logrprice para obtener el efecto de manera porcentual.
mide el efecto de la poltica, sin otros factores en la regresin, ser el estimador de diferencia en diferencias:
Despus
Antes-Despus
Control
Tratamiento
Tratamiento-Control
El parmetro ser el estimador de diferencia en diferencias, algunas veces llamado efecto promedio del tratamiento (debido a que
mide el efecto del tratamiento o la poltica sobre el resultado promedio de y), puede estimarse de dos maneras: i) calcular las
diferencias de los promedios entre los grupos de tratamiento y control para cada periodo, y luego obtener la diferencia de los
resultados respecto al tiempo y ii) calcular el cambio en los promedios respecto al tiempo para cada uno de los grupos de tratamiento y
de control, y despus determinar la diferencia entre estos cambios, lo cual simplemente se escribe .
Anlisis
de datos de panel para un periodo de dos aos
Una manera de utilizar datos de panel es clasificar los factores no observables, que influyen en la variable
dependiente, en dos tipos: aquellos que son constantes y aquellos que varan con el tiempo. Considerando que i es la
unidad de corte transversal y t el tiempo, se puede escribir un modelo con una sola variable explicativa observada
como:
Modelo de efectos
inobservables
Modelo de efectos fijos
En la notacin , i denota el individuo y t indica el periodo. La variable es una variable binaria que es igual a cero
cuando t=1 y a uno cuando t=2; no cambia en i, razn por la cual no tiene subndice i. Por consiguiente, el intercepto
para t=1 es , y el intercepto para t=2 es . La variable captura todos los factores inobservables (heterogeneidad
individual), constantes en el tiempo, que influyen en . El error con frecuencia se llama error idiosincrtico o error
variable en el tiempo.
pueden presentar dos inconvenientes, el ms importante es que para hacer MCO genere un estimador consistente
de , tendra que suponer que el efecto inobservable , no se correlaciona con .
En la mayora de las aplicaciones, la razn principal para reunir datos de panel es permitir que el efecto inobservable ,
se correlacione con las dems variables explicativas. Resulta que es muy fcil propiciar esto: como , es constante en
el tiempo se pueden diferenciar los datos a lo largo de los dos aos. De manera ms precisa, para la observacin de
corte transversal i, se pueden denotar los dos aos como:
Datos de Panel
Estimacin de efectos fijos
Supuestos
para los efectos fijos
1.
Datos de Panel
Estimacin de efectos fijos
6. Para todo ts , los errores idiosincrticos no estn correlacionados (de manera condicional en todas las variables
explicativas y en ): Cov
Con base en estos seis supuestos, el estimador de efectos fijos de los es el mejor estimador lineal insesgado. El supuesto que hace
que EF sea mejor que PD es el ltimo supuesto, lo que implica que los errores idiosincrticos no se correlacionan serialmente.
7. De manera condicional en y en los son independientes e idnticamente distribuidos como Normal (0, )
El supuesto 7 implica los supuestos 4,5 y 6, pero es ms fuerte, ya que supone una distribucin normal para los errores idiosincrticos. Si se
agrega 7, el estimador de EF se distribuye normalmente y los estadsticos t y F tienen distribuciones exactas t y F. Sin 7, se puede confiar en
las aproximaciones asintticas. Pero, sin hacer suposiciones especiales, estas aproximaciones requieren una N grande y un T pequeo.
Datos de Panel
Estimacin de efectos fijos
Transformacin
de efectos fijos
Bajo el supuesto de exogeneidad estricta sobre las variables explicativas, el estimador de efectos fijos es insesgado: aproximadamente, el error
idiosincrtico no debe correlacionarse serialmente con ninguna variables explicativa en todos los periodos. El estimador de efectos fijos permite la
correlacin arbitraria de y las variables explicativas en cualquier periodo, al igual que las primeras diferencias.
El otro supuesto necesario para que el estimador por MCO directo sea valido es que los errores , sean homocedasticos y no estn serialmente
correlacionados (en t)
El R-Cuadrado within se interpreta como la cantidad en la variacin temporal en que se explicar por la variacin temporal en las variables explicativas.
Datos de Panel
Estimacin de efectos fijos
Regresin
de Variables Binarias
Un punto de vista tradicional respecto del modelo de efectos fijos es suponer que el efecto inobservable, , es un parmetro que debe
estimarse de cada i. Por tanto, en la ecuacin, , , es el intercepto para el individuo i que debe estimarse junto con las .
La forma que se estima un intercepto para cada i es asignar una variable binaria para cada observacin de corte transversal, junto con
las variables explicativas.
Algunos paquetes economtricos que soportan la estimacin de efectos fijos reportan un intercepto, lo cual puede crear confusin en
vista de que el tiempo deducido elimina todas las variables constantes en el tiempo. Los reportes de un intercepto general en le
estimacin de efectos fijos surgen de considerar como parmetros a estimar. El intercepto reportado es el promedio en i de las En
otras palabras, el intercepto generalmente es, en realidad, el promedio de los interceptos especficos individuales, el cual es un
estimador insesgado y consistente.
Datos de Panel
Estimacin de efectos fijos
EFECTOS
FIJOS O PRIMERAS DIFERENCIAS
Cuando se tiene T=2, las estimaciones, as como todos los estadsticos de pruebas son idnticos.
Cuando se tiene T3, los estimadores no son los mismos. En virtud de que ambos son insesgados, con base en los
supuestos 1 a 4, no es posible utilizar el insesgamiento como criterio. Para N grande y T pequeo, la eleccin entre
estimadores depende de su eficiencia relativa, y esto esta determinado por la correlacin serial de los errores
idiosincrticos, .
Cuando las no se correlacionan serialmente, los estimadores de efectos fijos son mas eficientes que los de primeras
diferencias.
El hecho terico importante es que en el estimador de PD el sesgo no depende de T, mientras que el sesgo en el
Datos de Panel
Estimacin de efectos aleatorios
Supuestos
para los efectos aleatorios:
Los supuestos ideales de efectos aleatorios comprenden los supuestos de efectos fijos (1,2,4,5,6 7 se podra agregar a la lista, pero
es poco practico porque se debe estimar ). Como solo se esta restando una fraccin de los promedios en el tiempo, ahora se puede
permitir variables explicativas constantes. As el supuesto 3 se reemplaza con:
1.
El costo de permitir regresores constantes en el tiempo es que se deben aadir supuestos acerca de cmo se relaciona el efecto inobservable, , con las
variables explicativas.
2.
Adems del supuesto 4, el valor esperado de dada todas las variables explicativas es constante: |
Este es el supuesto que rige la correlacin entre el efecto inobservable y las variables explicativas, y es la distincin fundamental entre los EF y EA. Como se
supone que no se correlaciona con ninguno de los elementos es posible incluir variables explicativas constantes en el tiempo.
3.
Adems del supuesto 5, la varianza de dada todas las variables explicativas, es constante: |
Con base en los seis supuestos de efectos aleatorios, el estimador de EA es consistente y se distribuye asintticamente como normal.
Para los coeficientes de las variables explicativas que cambian en el tiempo, el estimador de EA es mas eficiente que el de EF.
Datos de Panel
Estimacin de efectos aleatorios
Se comienza con el mismo modelo de efectos inobservables donde se incluye, de manera explicita, un intercepto de modo que se puede
suponer que el efecto inobservable, , tiene media cero.
Esta ecuacin se estima cuando se da por sentado que el efecto inobservable no se correlaciona con ninguna variable explicativa.
,
Si se define el trmino de error compuesto como , entonces se tendra: Como esta en el error compuesto en cada periodo, las se
correlacionan serialmente en cada periodo de tiempo.
Para eliminar la correlacin serial en los errores se requiere la transformacin por MCG de la siguiente manera:
;
Datos de Panel
Estimacin de efectos aleatorios
EFECTOS
ALEATORIOS O EFECTOS FIJOS
Dado que los efectos fijos permiten una correlacin arbitraria entre y las , mientras que los efectos aleatorios no, se considera
ampliamente que los EF constituyen una herramienta ms convincente para las estimacin de los efectos ceteris paribus. No
obstante, los efectos aleatorios se aplican en ciertas situaciones. Evidentemente, si la variable explicativa clave es constante en el
tiempo. Desde luego, slo se puede utilizar EA debido a que se esta dispuesto a suponer que no se correlacionas con .
Sigue siendo comn ver a investigadores que aplican tanto EF como EA, y luego prueban de manera formal las diferencias
estadsticas significativas en los coeficientes de las variables explicativas que cambian con el tiempo. Hausman propuso este tipo
de prueba, donde la Ho es aplicar EA o EF indistintamente y la Ha es aplicar EF. se debe hacer una distincin entre una diferencia
significativa en la practica y una diferencia estadsticamente significativa
1. Modelo agrupado (Pooled): Si el intercepto es constante, y no hay heterogeneidad entre individuos. Exogeneidad
Cov(, )=0
2. Modelo de efectos fijos: Si el intercepto es constante, y hay heterogeneidad entre individuos. Cov(, )0
3. Modelo de efectos aleatorios: Si el intercepto es constante, y hay heterogeneidad entre individuos. Cov(, )0
Regresin Pooled
La regresin agrupada se evala sin tener en cuenta de que los datos son datos de panel
agrupados.
Comandos:
*global
*sort (i) (t)
*reg, vce (ckuster id)
*predict, resid
*correlate
Comandos:
*xtreg, fe
*xttest3
*xtserial
*xtregar
Comandos:
*xtreg, re
*xttest1
*xtserial
*xtregar
Qu modelo escoger?
Para elegir el mejor modelo a estimar se puede hacer una prueba con el comando
hausman FE RE, sigmamore.
La diferencia principal entre AD de 2 grupos y AD mltiples es que con el primero slo es posible
estimar una funcin discriminante mientras que con el segundo ms de una funcin puede ser
computada.
FUNCIN DISCRIMINANTE: combinacin lineal de variables independientes generadas por el
Anlisis Discriminante que mejor segregue entre las categoras de la variable dependiente.
Ordinal: son las que clasifican las observaciones en categoras con un orden significativo.
Intervalo: medidas en una escala numrica en la cual el valor de cero es arbitrario pero la diferencia
Razn: medidas numricas en las cuales cero es un valor fijo en cualquier escala y la diferencia
Modelo
de anlisis discriminante:
Donde:
D: valor discriminante (discriminant score)
bs: coeficientes discriminantes (o pesos)
X: predictores (o variables independientes)
Dividir la muestra en dos parte: muestra de anlisis y muestra de validacin (validacin cruzada)
Resumir media y desviacin estndar de las variables segn categora visit para la muestra de anlisis.
ANOVA: tcnica estadstica para examinar la diferencia entre las medias para dos o ms poblaciones.
Estat anova
Anlisis: la significancia estadstica del estadstico F.
Estat canontest
Anlisis:
eigen-valor(el valor propio asociado y la varianza explicada). para cada funcin discriminante, el valor
propio es la razn entre las sumas de cuadrados de los grupos between y within. Eigenvalores altos
implican funciones superiores)
Correlacin Cannica. Mide la extensin de la asociacin entre los valores discriminantes y los grupos. Es
una medida de asociacin entre la funcin discriminante y el set de variables dummy que definen la
pertenencia a un grupo.)
Stata -> Likelihood ratio -> transformacin F -> valor p -> Valor p =.0001, Ho se rechaza, luego es
significativa la discriminacin y por tanto puede procederse a interpretar los resultados.
(Correlaciones estructurales: tambin conocidas como cargas discriminantes, representan las correlaciones simples entre las
predictoras y la funcin discriminante)
(Correlaciones estructurales: tambin conocidas como cargas discriminantes, representan las correlaciones simples entre las predictoras
y la funcin discriminante)
(Centroide: es el valor medio de los valores discriminantes (D) para un grupo en particular