Vous êtes sur la page 1sur 37

Econometra Aplicada Prof. Edson Apaza Mamani Econometra Aplicada Prof.

Edson Apaza Mamani


eapaza@unap.edu.pe eapaza@unap.edu.pe

Notas de clase preparadas para el curso de Econometra II.


Prohibida su reproduccin parcial o total del documento sin
autorizacin expresa del autor.

Econometra Aplicada con


Stata
Modelos de Eleccin Discreta

Edson Apaza Mamani


UNIVERSIDAD NACIONAL DEL ALTIPLANO

INGENIERA ECONMICA

Abril de 2017 pg. 0 pg. 1


Econometra Aplicada Prof. Edson Apaza Mamani Econometra Aplicada Prof. Edson Apaza Mamani
eapaza@unap.edu.pe eapaza@unap.edu.pe

7.1. Introduccin ............................................................................................................. 42


7.2. Modelos TRUNCADOS .............................................................................................. 42

Contenido 7.3. Modelos CENSURADOS ............................................................................................ 46


REGRESIN CON VARIABLES DEPENDIENTES E INDEPENDIENTES DISCRETAS ................................. 5 MODELOS DE HECKMAN DE AUTOSELECCION .............................................................................. 50
1. Modelo de regresin con variables discretas en las variables independientes. ................. 5 8. Modelos Seleccin ........................................................................................................... 50
1.1. Aplicacin del Modelo Lineal General 1 ..................................................................... 8 vi) Aplicacin................................................................................................................. 56
Referencias .......................................................................................................................... 10 Referencias: ......................................................................................................................... 57
REGRESIN CON VARIABLES DEPENDIENTES E INDEPENDIENTES DISCRETAS (2) .......................... 11 MODELOS DE ELECCIN MULTIPLE .............................................................................................. 59
2. Modelo Lineal General 2 .................................................................................................. 11 9. Modelos de eleccin mltiple .......................................................................................... 59
3. Estrategia de Identificacin ............................................................................................. 12 v) Aplicaciones ................................................................................................................. 61
i) Causalidad y Correlacin .............................................................................................. 12 9.2. Logit Condicional ...................................................................................................... 63
iii) Aplicacin: Ecuacin de Mincer 3 (Impacto)............................................................. 14 Referencias .......................................................................................................................... 67
REGRESIN CON VARIABLES DEPENDIENTES DISCRETAS .............................................................. 15 MODELOS DE ELECCIN MULTIPLE .............................................................................................. 68
4. Modelos de regresin con variables discretas en la variable dependiente ...................... 15 9.3. Logit Multinomial ......................................................................................................... 68
4.1. Modelos de Eleccin Discreta................................................................................... 16 References ........................................................................................................................... 71
4.2. Modelo de Probabilidad Lineal (MPL) ...................................................................... 16
4.3. Modelo Probabilstico .............................................................................................. 17
4.4. Modelo Logstico ...................................................................................................... 18
4.5. Modelo de doble complementariedad logartmica .................................................. 20
4.6. Medidas de bondad de ajuste (fitstat) ..................................................................... 21
Referencias .......................................................................................................................... 26
AUTOSELECCION .......................................................................................................................... 31
5. Modelo de Autoseleccin ................................................................................................ 31
i) Modelo de Heckman .................................................................................................... 31
Referencias .......................................................................................................................... 35
CAMBIO DE REGRESIN: SWITCHING REGRESSION ...................................................................... 36
6. Modelo de Switching Regression ..................................................................................... 36
SWITCHING REGRESSION: APLICACIN .................................................................................... 38
Referencias .......................................................................................................................... 41
MODELOS TRUNCADOS Y CENSURADOS ...................................................................................... 42
7. Modelos censurados y truncados .................................................................................... 42

pg. 2 pg. 3
Econometra Aplicada Prof. Edson Apaza Mamani Econometra Aplicada Prof. Edson Apaza Mamani
eapaza@unap.edu.pe eapaza@unap.edu.pe

ECONOMETRA APLICADA

Prof. Edson Apaza Mamani

REGRESIN CON VARIABLES DEPENDIENTES E


INDEPENDIENTES DISCRETAS

1. Modelo de regresin con variables discretas en las variables independientes.

La especificacin habitual de los modelos lineales, incluyen una variable dependiente y


varias variables explicativas. As por ejemplo:

= + + + +
Esta representacin terica puede ser utilizado en un contexto emprico, donde es posible
establecer la siguiente relacin; ln( ) representa el logaritmo del ingreso, esta
medido en aos de educacin alcanzado, mide los aos de experiencia laboral y es
una variable dicotmica que toma el valor de uno si es casado e igual a cero si tiene otro
estado civil. La especificacin para esta relacin sera de la forma:

( )= + + + +
Especificacin propuesto por Mincer para identificar los retornos a la educacin. La
estimacin de los parmetros se obtienen utilizando el mtodo de Mnimos Cuadrados
Ordinarios (MCO). Dadas las caractersticas de la especificacin, es posible representarlo de
forma matricial como:

= +

i) Estimacin por MCO

El mtodo de estimacin para un modelo lineal es el estimador de MCO, siempre y


cuando se cumplan los supuestos del modelo lineal general (MLG). Dado que el mtodo
estima los parmetros minimizando la suma de los errores al cuadrado, se obtiene el
siguiente estimador:

=( )

La estimacin consistente debe reflejar resultados estadsticamente significativos,


relevancia y dependencia. Asimismo, debe observase la bondad de ajuste del modelo
estimado, el cual se observa por el , que indica el grado de ajuste o grado de

pg. 4 pg. 5
Econometra Aplicada Prof. Edson Apaza Mamani Econometra Aplicada Prof. Edson Apaza Mamani
eapaza@unap.edu.pe eapaza@unap.edu.pe

variabilidad explicada por las variables explicativas incluidos en el modelo


economtrico.
a) Consistencia
Los supuestos de los estimadores de MCO: =
a) MCO1: Linealidad en los parmetros del modelo, = + + , y b) Asintticamente Distribuido Normalmente
( )=0
b) MCO2: Independencia, { , } son i.i.d. (independiente e idnticamente (0, )
distribuida), esto garantiza que la muestra sea aleatoria y de una muestra
comparable. c) Aproximadamente Distribuido Normalmente
c) MCO3: Exogeneidad de las variables expectativas,
i. | , ~ (0, ) ,
~
Asume que el trmino de error es independiente de las variables explicativas
y que stas estn normalmente distribuidas. = varianza asinttica.
ii. : , (independiente)
Implica que el termino de error es independiente de las variables
explicativas.
iii. ( | , ) = 0, (promedio independiente) ii) Interpretacin de los estimadores
El promedio del trmino de error es independiente de las variables La interpretacin de los estimadores se realizan obteniendo:
explicativas.
iv. : ( , ) = 0, (no correlacin)
=
Implica que el trmino de error y las variables explicativas no estn
correlacionadas. El trmino de error no contiene informacin relacionada
con las variables explicativas. Es decir, que ante cambios en una unidad de las variables explicativas , la variable
d) MCO4: Identificabilidad dependiente variar en unidades, para el caso lineal, en otras especificaciones el
i. ,, son linealmente independientes y 0 < ( ) < . estimador tiene una interpretacin diferente.
Es decir que la matriz de informacin de las variables explicativas es de rango
Tabla 1. Interpretacin de los Cambios marginales
completo, esto garantiza que los regresores no sean colineales perfectos
entre s: ninguna variable es una combinacin lineal de las otras explicativas. Modelo ( | , ) Interpretacin de los
e) MCO5: Estructura del error, Cambios marginales
i. Si se cumple que ( | , , ) = , entonces la relacin entre las
variables explicativas y el trmino de error es Homocedstica. Significa que Lineal = + + Niveles
la varianza del termino de error es una constante.
ii. Si se cumple que ( | , , )= = ( , , ) < , entonces se
presenta el problema de la Heterocedasticidad condicional. Este resultado Semi-logaritmico Ln( ) = + + Semielasticidad
permite a la varianza del error depender de las variables explicativas.

Logaritmico ln( ) = + ln( )+ Elasticidad


La consistencia de los estimadores requieren que se cumplan las propiedades
asintticas, esto garantizar que las estimaciones sean estadsticamente significativas.

A continuacin se presenta las Propiedades Asintticas de los Estimadores de Mnimos


Cuadrados Ordinarios.

pg. 6 pg. 7
Econometra Aplicada Prof. Edson Apaza Mamani Econometra Aplicada Prof. Edson Apaza Mamani
eapaza@unap.edu.pe eapaza@unap.edu.pe

1.1. Aplicacin del Modelo Lineal General 1 El comando post-estimacin predict genera dentro de la muestra fuera de la muestra
las predicciones. Por ejemplo
regress wage educ exper expersq if _n < 100
i) Taller Stata 1 predict wage_hat_in if e(sample)
predict wage_hat_out if !e(sample)
La estimacin de un modelo lineal por MCO utilizando Stata es: browse wage wage_hat_in wage_hat_out
regress vardep [varsindep] [if] [in] [weight], [option]

donde vardep es la variable dependiente y varsindep es una lista de variables utiliza las primeras 100 observaciones para estimar el modelo de regresin lineal y
explicativas. estimar los valores del esto de observaciones.

La estimacin de cambios marginales se obtiene utilizando el comando mfx y sus


respectivas opciones, de la forma:
ii) Aplicacin en Stata: Ecuacin de Mincer 1
dydx, estima los efectos marginales por defecto
La ecuacin de Mincer intenta explicar que tan importante es la escolaridad sobre el eyex, estima las elasticidades en la forma de d(lny)/d(lnx)
salario. dyex, estima las elasticidades en la forma de d(y)/d(lnx)
eydx, estima las elasticidades en la forma de d(lny)/d(x)
ln( )= + + + +

Un problema frecuente, del investigador, es determinar la mejor especificacin del


Estimacin en Stata: modelo emprico. A continuacin vamos a determinar la especificacin adecuada, para
ello utilizaremos el comando stepwise con la opcin prob(n.c.).
use mincer_peru.dta
summarize stepwise, pr(0.2): regress wage educ exper expersq
regress wage educ exper expersq

Regresiona la ecuacin de MINCER, el salario por hora en funcin de escolaridad y


experiencia. Stata agrega automticamente una constante. Stata reporta un estimador
de MCO de covarianza robusta y consistente utilizando la opcin robust.
regress wage educ exper expersq, vce(robust)

Se puede utilizar el comando postestimacin test para estimar las pruebas de


dependencia, prueba F, para una o ms restricciones. Por ejemplo:
test educ

la prueba consiste en evaluar : = 0 contra : 0,


test educ exper

la prueba consiste en evaluar : =0y = 0 contra : 0o 0


test educ = exper

la prueba consiste en evaluar : = contra :


pg. 8 pg. 9
Econometra Aplicada Prof. Edson Apaza Mamani Econometra Aplicada Prof. Edson Apaza Mamani
eapaza@unap.edu.pe eapaza@unap.edu.pe

Referencias ECONOMETRA APLICADA

Libros introductorios
Prof. Edson Apaza Mamani
Stock, James H. and Mark W. Watson (2007), Introduction to Econometrics, 2nd ed., Pearson
Addison-Wesley. Captulos 4 - 9. REGRESIN CON VARIABLES DEPENDIENTES E
Wooldridge, Jefrey M. (2009), Introductory Econometrics: A Modern Approach, 4th ed.,
INDEPENDIENTES DISCRETAS (2)
South-Western Cengage Learning. Captulos 2 - 8.

Libros Avanzados 2. Modelo Lineal General 2

Cameron, A. Colin and Pravin K. Trivedi (2005), Microeconometrics:Methods and La especificacin inicial permite ver una relacin lineal entre la variable dependiente
Applications, Cambridge University Press. Secciones 4.1-4.4. (continua) y variables explicativas (continuas). Si a esta ltima relacin de variables se
incluyen variables binarias (dummy), de tal forma que tengamos la siguiente
Wooldridge, Jefrey M. (2002), Econometric Analysis of Cross Section and Panel Data, MIT representacin:
Press. Captulos 4.1 - 4.23.
ln( )= + + + + +
Libros adicionales
Donde es igual a uno si la el individuo es hombre y cero si es mujer, el uso de una
Angrist, Joshua D. and Jorn-Steffen Pischke (2009), Mostly Harmless Econometrics: An variable dicotmica permite identificar la presencia o ausencia de un atributo, este tipo de
Empiricist's Companion, Princeton University Press. Captulo 3. variables tiene varias aplicaciones. Grficamente podemos suponer que:

Figura Nro. 1 Representacin de una variable ficticia

Note que el efecto marginal para los dos grupos (implcitamente definido por la variable
dummy) es igual pero diferente en el trmino constante.

i) Prueba de hiptesis de relevancia (t) y de dependencia (F)

pg. 10 pg. 11
Econometra Aplicada Prof. Edson Apaza Mamani Econometra Aplicada Prof. Edson Apaza Mamani
eapaza@unap.edu.pe eapaza@unap.edu.pe

Es importante evaluar la significancia individual y en todo el cojunto de variables probabilidades y las esperanzas condicionales son llamados parmetros asociativos
explicativas, tanto pruebas de multicolinealidad y heterocedasticidad. los cuales han sido utilizados como pieza clave en el anlisis economtrico. Estos
parmetros no son determinantes para establecer relaciones causales entre las
ii) Aplicacin: Ecuacin de Mincer para Per (gnero) variables. La presencia de variables asociadas sin mayor sentido, como en el caso de las
ln( )= + + + + + conocidas regresiones espurias o la presencia de los llamados confounders, presenta
una limitacin importante para el anlisis de inferencia causal con base en parmetros
asociativos

3. Estrategia de Identificacin ii) Interacciones

En los ltimos veinte aos, el Enfoque Causal o de efectos de un tratamiento se ha De la forma functional
convertido en un complemento sustancial al anterior. Esto se debe a que ofrece una
estrategia de identificacin de los efectos causales de una poltica pblica a partir, sobre ln( )= + + + + + +
todo, de datos adecuados para contestar a cada pregunta concreta, ms que del soporte Efectos marginales para educ y exp:
estricto de un determinado modelo econmico. Este enfoque, ms concentrado en los
datos y menos necesitado de modelos tericos o economtricos muy sofisticados, ha ln( )
= +
generado contribuciones notables en la evaluacin de polticas tan relevantes como la
formacin, los subsidios a la contratacin, los efectos de cambios fiscales sobre la oferta de
ln( )
trabajo o la inversin, etc. = +2 +

As, la evaluacin de polticas pblicas constituye hoy un campo de indudable crecimiento,
donde el inters cientfico se ha centrado en campos tan diversos como las finanzas La interpretacin de estos efectos y de los parmetros individuales es muy especfico al
pblicas, las polticas de empleo y formacin o las subvenciones pblicas. Existen modelo terico detrs de la relacin.
numerosos ejemplos en la literatura reciente sobre este tipo de evaluaciones. En particular, Un caso especial, la interaccin con la variable dummy :
sobre el mercado de trabajo han aparecido numerosas contribuciones muy importantes
para el desarrollo de esta tcnica de evaluacin. ln( )= + + + + + +
i) Causalidad y Correlacin Figura Nro. 2. Cambio en pendiente por una variable ficticia

El inters por hacer un estudio acerca de la relacin causal entre las variables. Este
estudio empieza con la pregunta inicial de cualquier estudio de impacto: cul es el
efecto causal de una variable X sobre otra variable Y? Responderla puede ser un asunto
no tan trivial ni desde el punto de vista analtico ni desde los datos. Pues para tener una
idea de este efecto, deberamos tener alguna idea sobre la existencia de una relacin
causal entre estas variables.

La aceptacin de la frase que la correlacin no implica causalidad ha significado el


lmite que la estadstica se ha puesto a si misma en su contribucin a este anlisis. Esto
se debe a que tradicionalmente la estadstica inferencial ha estudiado la manera como
los datos aparecen en el mundo real. Tal inters conlleva al estudio de la distribucin
de probabilidad conjunta de estas variables, la cual entrega las probabilidades de
ocurrencia de ellas. Luego, contando con una muestra de observaciones de estas
variables y haciendo algunos supuestos simplificadores sobre la estructura de este
proceso generador de datos, la estadstica inferencial obtiene estimadores de los
parmetros que configuran a tal proceso. Algunos de estos parmetros como las

pg. 12 pg. 13
Econometra Aplicada Prof. Edson Apaza Mamani Econometra Aplicada Prof. Edson Apaza Mamani
eapaza@unap.edu.pe eapaza@unap.edu.pe

iii) Aplicacin: Ecuacin de Mincer 3 (Impacto) ECONOMETRA APLICADA


Vale la pena el esfuerzo?
Prof. Edson Apaza Mamani
Estimacin por MCO.
use mincer_peru.dta REGRESIN CON VARIABLES DEPENDIENTES DISCRETAS
regress wage educ exper expersq

Actividades: 4. Modelos de regresin con variables discretas en la variable dependiente

La estrategia de identificacin Esta situacin se presenta cuando una variable dummy (ficticia) exgena en un modelo, en
Relacin causal y correlacin realidad es endgena debido a causas del estudio. Esto origina un problema de
autoselectividad o autoseleccin en la muestra. Un ejemplo de esto puede ser el caso en
Regresin lineal general que se necesite estimar el efecto de las uniones sindicales (pertenecer a un sindicato) sobre
el salario de los trabajadores. Otro ejemplo sera los estudiantes que solicitan el servicio de
generate hijos=( kidslt6!=0 & kidsge6!=0)
comedor o de residencia de la universidad, as como estos existen varios casos donde se
regress wage educ exper expersq hijos, vce(robust)
pueden utilizar la variable dependiente discreta.

Muchas variables dependientes de inters en economa y otras ciencias sociales pueden


Se puede utilizar el comando postestimacin test para estimar las pruebas de
tomar slo dos valores. Los dos posibles valores estn denotados usualmente por 0 y 1.
dependencia, prueba F, para una o ms restricciones. Por ejemplo:
Tales variables son llamadas variables dummy o variables dicotmicas.
test hijos
El valor esperado de una variable dicotmica {0,1} es la probabilidad que toma el valor
la prueba consiste en evaluar : = 0 contra : 0, de 1:

test educ exper hijos ( )=0 ( = 0) + 1 ( = 1) = ( = 1)

la prueba consiste en evaluar : = 0, =0y = 0 contra : 0o 0 El modelo de regresin lineal,


o 0.
= + , ( | )=0
xi: regress inlf educ exper expersq i.kidslt6, vce(robust)
xi: regress inlf educ exper expersq i.kidslt6*educ, vce(robust) Es llamado el modelo de probabilidad lineal en este contexto. Este modelo no es un modelo
estadstico adecuado como el valor esperado de ( | ) = puede sobrepasar los
lmites de [0,1] y no representan una probabilidad. Adems el trmino de error es
heterocedastico como:

Tabla 2. Estimacin del Modelo de Probabilidad Lineal

Error Probabilidad de Ocurrencia del Evento


( )
1
1

( )= (1 )

( ) = ( | )[1 ( | )]

pg. 14 pg. 15
Econometra Aplicada Prof. Edson Apaza Mamani Econometra Aplicada Prof. Edson Apaza Mamani
eapaza@unap.edu.pe eapaza@unap.edu.pe

4.1. Modelos de Eleccin Discreta ii) Bondad de ajuste

Sea la utilidad de obtener el comedor universitario y la utilidad de estar pensionado. Los habituales, y sus desventajas.
La decisin observada revela cual de las alternativas proporciona ms utilidad o mayor
beneficio (el cual es no observable). Por tanto, la variable que se observa vale 1 si >
y 0 si . iii) Interpretacin

La formulacin habitual es: = + y = + . La interpretacin de los parmetros estimados es directa como efectos
marginales sobre la variable dependiente . En general, se puede representar
Si denotamos a = 1, es decir que el consumidor escoja la alternativa a, obtenemos que: como:

( = 1| ) = [ > ] ( | )
=
( = 1| ) = [ + > + | ]
Este resultado explica la unidad de medida de los estimadores, como los cambios
( = 1| ) = [ + > 0] marginales.

( = 1| ) = [ ]

Para la ltima representacin, se puede asumir diferentes distribuciones para el trmino de 4.3. Modelo Probabilstico
error, por ejemplo, la funcin de transformacin para definir la especificacin del Los modelos de eleccin discreta, binaria, describe la respuesta de
modelo no lineal a estimar. As se puede tener una distribucin normal con media cero y probabilidades ( = 1) de la variable dependiente .
varianza constante e igual a uno pero no logstica, o puede tener una distribucin logstica
Considere una muestra de N ( = 1,2, , ) observaciones i.i.d. (independiente e
con media cero y varianza constante logstica. En el primer caso se puede aplicar el modelo idnticamente distribuida) de la variable dependiente dummy y un vector de dimensin
Probit tambin llamada Normit y en el segundo el modelo Logit. ( + 1) variables explicativas incluyendo el trmino constante. La probabilidad que la
variable dependiente toma el valor de 1 es modelado como:
4.2. Modelo de Probabilidad Lineal (MPL)
( = 1| ) = ( ) = ( )
Es la representacin ms bsica, el cual permite estimar las primeras aproximaciones a los
resultados. Como se vi antes, a pesar de tener problemas asociados con las varianzas, Donde es un vector columna de parmetros de dimensin ( + 1), y
emprcamente son vlidos los resultados.
=
i) Estimadores: MCO
Es un ndice lineal simple. La transformacin de la funcin muestra un ndice dentro del
=( ) rango [0,1] y en general satisface:

En este tipo de modelos es habitual el uso del estimador por el mtodo de mnimos ( )
() = 0, () = 1, >0
cuadrados ordinarios, por su simplicidad, se requiere evaluar la consistencia de los
resultados, robustez y dems pruebas para informacin de corte transversal. A pesar de
El modelo probit asume que la transformacin de la funcin es la funcin de densidad
su poca aplicacin, los resultados son una primera aproximacin a los resultados
acumulativa (cdf) de la distribucin normal estndar. La respuesta de probabilidad es:
obtenidos con los modelos no lineales como son el logit, probit o cloglog. Sin embargo
el uso de los modelos lineales con la variable dependiente binomial trae consigo riesgos
de la presencia del problema de heterocedasticidad. 1
( = 1| ) = ( )= () =
2

pg. 16 pg. 17
Econometra Aplicada Prof. Edson Apaza Mamani Econometra Aplicada Prof. Edson Apaza Mamani
eapaza@unap.edu.pe eapaza@unap.edu.pe

Donde (. ) es la funcin de densidad de probabilidad (pdf) y (. ) la funcin de distribucin


acumulativa (cdf) de la distribucin normal estndar.
Figura Nro. 3. Funcin de transformacin en el modelo Logit y Probit

i) Estimadores: MV

= [Prob( = 1| )] [Prob( = 1| )]

= [( )] [1 ( )]

= ln[( )] + (1 ) [1 ( )]

( ) ( )
= + (1 ) =0
( ) [1 ( )]

ii) Interpretacin de los parmetros Nota: el modelo Logit y Probit son casi idntico y el modelo de eleccin es usualmente
arbitrario. Sin embargo, los parmetros de los modelos son escalados de manera
A diferencia del modelo lineal, los parmetros estimados no se pueden diferente. Multiplicando los parmetros del modelo Probit por 1.6 son aproximadamente
interpretar directamente como efectos marginales sobre la variable iguales al modelo Logit estimado.
dependiente. En algunas situaciones, la funcin ndice = tiene una clara
interpretacin en el modelo terico y el efecto marginal, del cambio de sobre
.
i) Estimadores: MV
En general, estamos interesados en estimar el efecto marginal del cambio de
sobre .

( | ) ( = 1| ) ( ) = [F( )] [1 F( )]
= = = ( )

4.4. Modelo Logstico
= ln[F( )] + (1 ) [1 F( )]
En el modelo Logit, la transformacin de la funcin es la funcin logstica. La respuesta de
probabilidades son:
f( ) f( )
= + (1 ) =0
1 F( ) [1 F( )]
( = 1| ) = =
1+ 1+
La siguiente figura muestra la funcin de transformacin de para los dos modelos.
ii) Interpretacin de los parmetros

pg. 18 pg. 19
Econometra Aplicada Prof. Edson Apaza Mamani Econometra Aplicada Prof. Edson Apaza Mamani
eapaza@unap.edu.pe eapaza@unap.edu.pe

Como antes, los parmetros estimados no se interpretan directamente como


efectos marginales. Este efecto marginal depende de las caractersticas de todas
las para la observacin . Adems, cualquier individuo tiene un efecto 4.6. Medidas de bondad de ajuste (fitstat)
marginal diferente. Para los modelos de variables dependientes discretas y limitadas, los estadsticos
habituales de bondad de ajuste ahora son diferentes. Algunos de ellos son
modificaciones de la medida de bondad de ajuste de McFadden, a continuacin listo
( | ) ( = 1| ) algunos de estos:
= =
(1 + )

4.5. Modelo de doble complementariedad logartmica Coeficiente de correlacin : 2 y , y

n yi yi
2
Los modelos Logit y Probit, son las tcnicas ms comunes para la estimacin de modelos
con una variable dependiente dicotmica, impone el supuesto de que los individuos tienen Medida de Effron :1
n1n2
una probabilidad de 0.5 de elegir cualquiera de las dos alternativas, sin embargo ambas son
muy sensibles a los cambios en las variables independientes. Este supuesto es impuesta por 2/ N
L
la tcnica de estimacin porque las dos funciones de densidad logstica y normal son Ratio de LR. : 1 R
simtricas con respecto a cero. Ante cambios en la probabilidad de elegir una de dos LNR
alternativas de manera desproporcional 30 y 70 o 70 y 30 los modelos habituales ya no son
2/ N
consistentes, ante ello propongo una distribucin alternativa para los errores en la L
distribucin normal o logstica. El estimador resultante, se demuestra que es apropiado Cragg-Uhler (1) : 1 R
donde los individuos con alguna probabilidad inicial de elegir cualquiera de las dos LNR
alternativas son ms sensibles a los cambios en las variables independientes. 2 2
LNRN LRN
Cragg-Uhler (2) : 1
( = 1| ) = 1 1 L2 N
N
L2 N
R
i) Estimadores: MV
ln LNR
McFadden : 1
ln LR
= [Prob( = 1| )] [Prob( = 1| )]
2ln LNR ln LR
Aderish-Nelson :
2ln LNR ln LR n

2ln LNR ln LR 2 ln LNR n


=0 Veal-Zimmerman : .
2ln LNR ln LR n 2 ln LR

2
ln LR
ln LNR N
ii) Interpretacin Arturo Estrella : 1
ln LR
( | )
Cada investigador puede especificar el uso del estadstico de bondad de ajuste.

pg. 20 pg. 21
Econometra Aplicada Prof. Edson Apaza Mamani Econometra Aplicada Prof. Edson Apaza Mamani
eapaza@unap.edu.pe eapaza@unap.edu.pe

ECONOMETRA APLICADA
Tabla 3. Resumen de modelos de eleccin discreta
Prof. Edson Apaza Mamani
Modelo Probabilidad = ( = 1| ) Efecto Marginal:
Valoracin Econmica
Logit ( ){1 ( )}
( ) =
1+ La baha de Puno se encuentra dentro de la reserva nacional del Titicaca con 36,180
Probit ( ) hectreas. La ciudad de Puno es uno de los departamentos con un flujo de turismo
( ) = ( )
considerable, por sus diversos atractivos tursticos, siendo uno de estos el lago Titicaca en
Cloglog ( ) =1 ( ) cuyas aguas se encuentra la isla flotante de los Uros, que constituye uno de los atractivos
Probabilidad Lineal ( )= ms singulares del turismo mundial, ubicada a 6 kilmetros de la baha de Puno, adems de
las islas de Taquile y Amantan en el lado peruano y las islas del Sol y de la Luna en el lado
boliviano. En la actualidad la baha de Puno enfrenta problemas de contaminacin del agua
derivados de la disposicin de aguas servidas provenientes de diversas actividades
econmicas desarrolladas por las poblaciones aledaas a esta. En la actualidad los hogares
no estn de acuerdo con la disposicin de las aguas servidas y sus inconveniencias asociadas
con las inundaciones en pocas de lluvia y riesgos de contraer enfermedades asociadas con
el agua contaminada.

Dadas los antecedentes anteriores surgen una serie de preguntas de mucho inters en
torno al manejo de este recurso natural. Es posible la implementacin de una poltica de
descontaminacin de la baha y la regulacin de las fuentes generadoras de la
contaminacin?, cul sera el mecanismo ms adecuado de implementacin de esta
poltica?, cul sera la disponibilidad a pagar de los habitantes de Puno por una mejora en
la calidad ambiental de la baha?, cul sera el valor de no uso que estaran dispuesto a
asignar estas personas a la reserva natural de Titicaca?.

Las variables incluidas dentro de este estudio fueron:

- PROB: Variable dependiente discreta que toma el valor de 1 si la persona responde


afirmativamente a la pregunta de disponibilidad a pagar y 0 si no.
- POSTURA: Variable dependiente que representa los precios revelados bajo una
pregunta de formato abierto, para el valor de existencia.
- PH: Variable independiente que representa el precio hipottico propuesto en soles para
financiar el plan de saneamiento ambiental.
- Y: Variable independiente que representa el ingreso familiar mensual en soles.
- EDAD: Variable independiente contina que representa la edad del jefe o responsable
de la familia.
- SEXO: Variable independiente discreta que toma el valor de 1 si el entrevistado es del
genero masculino y 0 si es del genero femenino.

La variable nivel de educacin del entrevistado fue presentada en tres variables discretas a
como sigue:

pg. 22 pg. 23
Econometra Aplicada Prof. Edson Apaza Mamani Econometra Aplicada Prof. Edson Apaza Mamani
eapaza@unap.edu.pe eapaza@unap.edu.pe

- ED1: Toma el valor de 1 si el entrevistado tiene educacin superior completa y 0 los Especificacin de los Cambios marginales:
dems. Interpretacin de los coeficientes estimados:
- ED2: Toma el valor de 1 si el entrevistado tiene educacin secundaria completa y 0 los Bondad de ajuste:
dems. iii) Especificacin economtrica
- ED3: Toma el valor de 1 si el entrevistado tiene educacin primaria completa y 0 los
stepwise, pr(0.2): reg prob ph y edad sexo ed1 ed2 ed3 np oc1
dems. oc2 oc3 oc4 oc5 enti mcon nhab valor enf uso, robust
- NP: Variable independiente que representa el nmero de personas por familia.
- La variable independiente ocupacin del entrevistado fue representada a partir de cinco stepwise, pr(0.2): probit prob ph y edad sexo ed1 ed2 ed3 np oc1
oc2 oc3 oc4 oc5 enti mcon nhab valor enf uso, robust
variables.
- OC1: Toma el valor de 1 si el entrevistado es empleado del sector pblico y 0 los dems. stepwise, pr(0.2): logit prob ph y edad sexo ed1 ed2 ed3 np oc1
- OC2: Toma el valor de 1 si el entrevistado es comerciante y 0 los dems. oc2 oc3 oc4 oc5 enti mcon nhab valor enf uso, robust
- OC3: Toma el valor de 1 si el entrevistado es obrero o vendedor ambulante y 0 los
stepwise, pr(0.2): cloglog prob ph y edad sexo ed1 ed2 ed3 np
dems. oc1 oc2 oc3 oc4 oc5 enti mcon nhab valor enf, r
- OC4: Toma el valor de 1 si el entrevistado es jubilado rentista y 0 los dems.
- OC5: Toma el valor de 1 si el entrevistado esta sin trabajo o es ama de casa y 0 los dems. iv) Estimacin del beneficios social del proyecto de descontaminacin
- ENTI: Variable independiente discreta que la preferencia por el tipo de identidad que
ejecute el plan de saneamiento, 1 si es una entidad pblica y 0 si es una entidad privada. logit prob ph y sexo ed1 ed2 np enf, robust
gen ECL=-(_b[_cons]+_b[y]*y + _b[sexo]*sexo + _b[ed1]*ed1
- MCON: Variable independiente que representa el tipo de material con que esta
+ _b[ed2]*ed2 + _b[np]*np + _b[enf]*enf)/(_b[ph])
construida la casa del entrevistado, 1 si es noble, 0 si es adobe.
- NHAB: Variable independiente que representa el nmero de habitaciones de la vivienda probit prob ph y sexo ed1 ed2 np enf, r
del entrevistado. gen ECP=-(_b[_cons]+_b[y]*y + _b[sexo]*sexo + _b[ed1]*ed1
- VALOR: Variable independiente que representa la ponderacin que asigna a la baha si + _b[ed2]*ed2 + _b[np]*np + _b[enf]*enf)/(_b[ph])
se descontaminara, 3 = mucho, 2 = poco, 1 = ninguno.
cloglog prob ph y sexo ed1 ed2 np enf, r
- ENF: Variable independiente que representa la presencia de enfermedades gen ECCL=-(_b[_cons]+_b[y]*y + _b[sexo]*sexo + _b[ed1]*ed1
relacionadas con la contaminacin del agua de la baha, 1 si hay presencia y 0 si no hay. + _b[ed2]*ed2 + _b[np]*np + _b[enf]*enf)/(_b[ph])
i) Realice las estadsticas bsicas de la muestra e interprete.
ii) Especifique diferentes formas funcionales del modelo de eleccin discreta y summarize ECLO ECPR ECCL
concluya una especificacin final, realice pruebas de robutez. Interprete.
iii) Utilizando el comando stepwise de Stata, compruebe sus resultados del punto
ii)
iv) Estime la disponibilidad media a pagar (Excedente del consumidor) de los
habitantes de la ciudad de Puno por el plan de Saneamiento Ambiente de la
Baha.

Solucin: valoracin econmica


i) Importando datos y Estadisticas descriptivas:
insheet using "TITICACA.txt"
describe
summarize
tabulate prob

ii) Comparacin de modelos de eleccin discreta


Especificacin de los modelos de eleccin discreta: Probit, Logit, Cloglog

pg. 24 pg. 25
Econometra Aplicada Prof. Edson Apaza Mamani Econometra Aplicada Prof. Edson Apaza Mamani
eapaza@unap.edu.pe eapaza@unap.edu.pe

Referencias Anexo: Estimador de Mxima Verosimilitud


1. Halle el estimador del parmetro por el mtodo de MV a partir de una muestra de
Libros introductorios tamao n. considere una v.a. que tiene la siguiente f.d.p.:

Stock, James H. and Mark W. Watson (2007), Introduction to Econometrics, 2nd ed., Pearson 2
( ; )= ,0 1; >0
Addison-Wesley. Captulos 4 - 9. 1

Wooldridge, Jefrey M. (2009), Introductory Econometrics: A Modern Approach, 4th ed., Sea la muestra aleatoria de tamao n: ( ,, ). La funcin de verosimilitud ser:
South-Western Cengage Learning. Captulos 2 - 8.
( | )= ( ; ) ( ; ) ( ; )= ( ; )
Libros Avanzados

Cameron, A. Colin and Pravin K. Trivedi (2005), Microeconometrics:Methods and 2 2 2 2


Applications, Cambridge University Press. Secciones 4.1-4.4. ( | )= =
1 1 1 1
Wooldridge, Jefrey M. (2002), Econometric Analysis of Cross Section and Panel Data, MIT
Press. Captulos 4.1 - 4.23. 0 1; 0 1; ,0 1; >0

Libros adicionales Tomando logaritmos en la ltima expresin:


Angrist, Joshua D. and Jorn-Steffen Pischke (2009), Mostly Harmless Econometrics: An 2 3 1
( | )= +
Empiricist's Companion, Princeton University Press. Captulo 3. 1 1
3 1
= [ 2 (1 )] +
1
3 1
= 2+ (1 ) +
1
Derivando respecto de , e igualando a cero, se obtiene:
( | ) (1) 3(1 ) + (3 1)
= + =0
1 (1 )
2
= + + =0
1 (1 )

Por lo tanto:
2 (1 ) +
= =
(1 ) 1 (1 )
2 +
= =
(1 ) (1 ) (1 )

1 (1 )
=
2 (1 )

pg. 26 pg. 27
Econometra Aplicada Prof. Edson Apaza Mamani Econometra Aplicada Prof. Edson Apaza Mamani
eapaza@unap.edu.pe eapaza@unap.edu.pe

1 (1 ) 1
= , ; ,, = (2 ) ( ) ( )
2 2 2 2

2 = (1 ) 1
max = (2 ) ( ) ( )
, 2 2 2

2 = + Condiciones de primer orden

, ; ,, 1
2 + =0 = 2( )(1) = 0
2

1
2 + =0 = = 0; =

, ; ,, 2 1(2)
2 = = + ( ) =0
2 2

= 1
2 = ( )
=
2

3. Sea el modelo = + y Sea ~ , . Encuentre el estimador de MV de


El estimador de MV es:
= = (04 puntos)
2
1 ( ) ( )
( , , )=
2. Sea { } i.i.d., donde ~ ( , ). Encontrar los estimadores de mxima 2

verosimilitud de: = . ( ) I ( )
( , , ) = (2 ) ( )

( )( )
( , , ) = (2 )
( , ) ,, ( ,, | , )
( , ; ): x(0, )
,, ( ,, | , )= ( | , ) ( | , ) ( | , )
( )( )
Multiplicacin por independencia de xi ( , ; ) = (2 )

( ) ( ) ( ) 1
1 1 1 ( , ; )= (2 ) ( )( )
,, ( ,, | , )= 2 2
2 2 2
1 1
( ,, )=
( ) max (2 ) ( )( )
,, | , , ( , ) 2 2
(2 )
Condiciones de primer orden
Distribucin conjunta, ahora en trminos de funcin de verosimilitud

pg. 28 pg. 29
Econometra Aplicada Prof. Edson Apaza Mamani Econometra Aplicada Prof. Edson Apaza Mamani
eapaza@unap.edu.pe eapaza@unap.edu.pe

( , ; ) 1 ECONOMETRA APLICADA
=0= ( + + )
2

2 +2 =0 Prof. Edson Apaza Mamani


+ =0
AUTOSELECCION
=( )
5. Modelo de Autoseleccin
( , ; ) 2
=0= ( )( ) Ahora analizaremos qu factores determinan el salario de las mujeres casadas. Para ello
2
utilizaremos una especificacin que en la literatura mundial se conoce como minceriana, en
1 honor a Mincer (1974), la cual seala que el logaritmo del ingreso es funcin de la
=
escolaridad, la experiencia laboral y el cuadrado de sta. Formalmente se tiene:
Estimadores sesgados, comn en MV )=
ln( + + + + (1)

Donde ln( ) representa el logaritmo del ingreso del individuo , son los aos de
educacin, es la experiencia laboral, y es el cuadrado de la experiencia laboral.

La especificacin anterior tiene el problema de que no toma en cuenta si las mujeres han
decidido autoseleccionarse a no participar en el mercado de trabajo. Si esto sucede, las
estimaciones con este mtodo pueden ser sesgadas. 1

Con el mtodo de dos etapas de Heckman se busca eliminar los posibles sesgos que surgen
debido a que en las encuestas nicamente se puede observar el ingreso de aquellos
individuos cuyo salario de reserva es inferior al salario de mercado. Aquellos con un salario
de reserva superior al de mercado no aparecen en la estimacin. De acuerdo con Heckman
(1979) esta situacin puede introducir sesgos en los estimadores de los parmetros de la
ecuacin de ingresos similares a los generados por la omisin de variables relevantes en el
modelo.

i) Modelo de Heckman

Para ilustrar este mtodo se plantean dos ecuaciones:



= + (2)

= + (3)

En este caso son la ecuacin de participacin de las ocupadas asalariadas y la funcin


de Mincer (1), respectivamente. Donde es la propensin a trabajar, es un vector
de variables explicativas observadas y es un trmino de error en la ecuacin de
decisin, no observado, es el nivel de ingreso potencial de un determinado individuo,

1
Este tipo de problema se conoce en la literatura como sesgo por autoseleccin. Para una explicacin
detallada, vase Heckman (1979) y Lewis (1974).

pg. 30 pg. 31
Econometra Aplicada Prof. Edson Apaza Mamani Econometra Aplicada Prof. Edson Apaza Mamani
eapaza@unap.edu.pe eapaza@unap.edu.pe

es un vector de variables que influyen en el nivel de ingreso potencial, es otro Para hacer esta estimacin escribimos:
trmino de error en la ecuacin de inters, que tampoco se observa.

reg lwage educ exp expsq
As, es observado si > 0. Esto es:

( | )= ( |
> 0) (4) Procedimiento manual:

Para las mujeres que no trabajan se tiene que


0 y en consecuencia es igual a Modelo Probit:
cero. El problema de autoseleccin surge si la parte no observada de la decisin de probit inlf kidslt6 kidsge6 faminc age agesq
trabajar ( ) se correlaciona con la parte no observada del resultado ( ). lsens
Empricamente, en la primera etapa de este mtodo se estima un modelo probit en la Estimando el IMR ( ):
ecuacin de decisin con el cual se calcula el inverso de la razn de Mills ( ), el cual se
incluye como regresor en la ecuacin de inters, que se estima por el Mtodo de predict y_hat, xb
Mxima Verosimilitud en la segunda etapa. gen imr = normalden(y_hat)/normprob(y_hat)

Para corregir el sesgo de seleccin, de la primera etapa, se obtienen el ratio inversa de


Modelo Lineal con :
Mills para cada grupo de hogares, restringido o no restringido del crdito, de la siguiente
manera: reg lwage educ exper expersq imr, robust

( )
=
( )
Procedimiento directo:
( )
= Modelo HECKIT
1 ( )
Para aplicar el modelo Heckit en STATA se deber emplear el comando heckman.
As la ecuacin final que se estima es:
La sintaxis es la siguiente:
| >0= + + (5)

Donde es el coeficiente asociado al inverso de la razn de Mills evaluado en la heckman depvar [indepvars], select(varlist_s) [twostep]
ecuacin de decisin. Si el valor estimado de es distinto a cero se puede concluir que
existe autoseleccin.
Donde depvar es la variable independiente. En nuestro caso es lwage.
La decisin individual de incorporarse al mercado laboral puede estar afectada por
diferentes factores. En este caso utilizaremos las variables siguientes: hijos menores a 6 indepvars representa las variables independientes. En nuestro caso
aos, hijos entre 6 y 18 a0s, ingreso familiar, y edad.
select(varlist_s). varlist_s representa el grupo de variables que se incluyen en la
ii) Aplicacin: inlf
ecuacin de decisin. En nuestro caso son: hijo5, hijo611, hijo1218, ingfam, eda, eda2,
Estimacin por MCO
norte, y sur
Aunque sabemos que si estimamos por MCO podemos tener un sesgo por variable
omitid. A continuacin se presenta la estimacin por este mtodo. twostep indica que es una estimacin en dos etapas.
Primero generamos la variable del logaritmo de los salarios:
As se deber escribir el comando siguiente:
gen lwage=log( salario)

pg. 32 pg. 33
Econometra Aplicada Prof. Edson Apaza Mamani Econometra Aplicada Prof. Edson Apaza Mamani
eapaza@unap.edu.pe eapaza@unap.edu.pe

heckman lwage educ exper expersq, select(kidslt6 kidsge6 faminc Referencias


age agesq) twostep

heckman lwage educ exper expersq, select(kidslt6 kidsge6 faminc


Heckman, J. (1979), Sample selection bias as a specification error, Econometrica, vol. 47, N
age agesq) first twostep
1, pp. 153-161.
El valor de lambda indica si existe o no autoseleccin. Mroz, T. A. (1987), The Sensitivity of an Empirical Model of Married Womens Hours of Work
to Economic and Statistical Assumptions Econometrica 55, 765799.

Mincer, J. (1974), Schooling Experience and Earnings, National Bureau of Economic


Research, Columbia University Press.

Woolwridge, Jeffrey M. (2002), Econometric Analysis of Cross-Section and Panel Data, MIT
Press

pg. 34 pg. 35
Econometra Aplicada Prof. Edson Apaza Mamani Econometra Aplicada Prof. Edson Apaza Mamani
eapaza@unap.edu.pe eapaza@unap.edu.pe

ECONOMETRA APLICADA >

Prof. Edson Apaza Mamani donde F es una funcin acumulativa de distribucin normal, f es la funcin de densidad de
distribucin normal, es un ponderador opcional para la observacin .

CAMBIO DE REGRESIN: SWITCHING REGRESSION Luego de estimar los parmetros del modelo, se debe calcular las esperanzas condicional y
no condicional.

6. Modelo de Switching Regression La esperanza no condicional:

Considere el siguiente modelo, el cual describe el comportamiento de un agente con dos =( | )= (3)
ecuaciones de regresin y una funcin de criterio, , que determina que rgimen enfrenta =( | )= (4)
el agente 2:
La esperanza condicional:
=1 + >0
( )
=0 + 0 _ =( | = 1, )= + 1 (5)
( )
Rgimen 1: = + =1 (1) ( )
_ =( | = 0, )= 1 (6)
1 ( )
Rgimen 2: = + =0 (2)
( )
Donde, son las variables dependientes en las ecuaciones continuas; y son los _ =( | = 1, )= + 2 (7)
( )
vectores de variables dbilmente exgenas; y y , y son los vectores de parmetros.
Se asume que , y tienen una distribucin normal (trivariada) con el vector de media ( )
igual cero y una matriz de convarianzas: _ =( | = 0, )= 2 (8)
1 ( )
Donde:
=
a) y son los errores estndar de y ;
b) es el coeficiente de correlacin entre y ;
c) es el coeficiente de correlacin entre y ;
d) f(.) es la funcin de densidad normal, y F[.] es la distribucin normal acumulativa.
a) es la varianza del termino de error en la ecuacin de seleccin,
b) y son las varianzas de los trminos de error en las ecuaciones continuas.
c) es la covarianza de y .
d) es la covarianza de , y .
e) La covarianza entre y no est definido, porque y no se observan
simultneamente. Asumiendo = 1 ( es estimable solo como un factor de escala).
f) El modelo est identificado por construccin a travs de no linealidades.
g) Dado el supuesto con respecto a la distribucin de los trminos de error, el logaritmo
de la funcin de verosimilitud para el sistema de ecuaciones (1-2) es:

2
La discusin en esta seccin es tomado de Maddala (1983, 223-225)

pg. 36 pg. 37
Econometra Aplicada Prof. Edson Apaza Mamani Econometra Aplicada Prof. Edson Apaza Mamani
eapaza@unap.edu.pe eapaza@unap.edu.pe

ECONOMETRA APLICADA - La estimacin simultnea de (9-12) por ML corrige el sesgo de seleccin en el salario
sectorial estimado.
Prof. Edson Apaza Mamani
El indicador de eleccin del sector privado=1 si el individuo est empleado en el sector
SWITCHING REGRESSION: APLICACIN privado y 0 si est en el sector pblico.

La variable endgena, de (9-10), el logaritmo del salario individual mensual, lsalario.


Aplicacin. A continuacin realizaremos la estimacin emprica pada determinar los
factores que determinan la decisin de trabajar en el sector pblico o privado, utilizando la Las variables exgenas en la regresin de salario (9-10) se basan en Mincer (Mincer y
ecuacin de Mincer, determinamos el problema de estimacin de salario individual en los Polacheck, 1974).
sectores pblico y privado. Una especificacin habitual se puede representar de la siguiente
- Incluye las caractersticas individuales como: edad, edad2, educacion, y dummies
forma:
regionales.
= + =1 (9) - Adems, la ecuacin de eleccin del sector de empleo (11) incluye dos variables para
mejorar la identificacin. El estado civil del individuo y el nmero de miembros
= + =0 (10) empelados en el hogar que se cree que afecta la eleccin de un individuo del sector de
La funcin de criterio de decisin de trabajar en el sector pblico o privado esta dado por: empleo, pero no afecta el salario.
- La estimacin por ML:
)+
= ( + (11)
Regresin de decisin de participacin en el sector privado:
- es la variable latente que determina el sector en el cual el individuo est empleado
- es el salario del individuo en el sector ;
regress privado edad edad2 prima secun univer puno aqp otros
- es un vector de caractersticas que afectan la decisin respecto al sector de empleo. soltero, robust
- es un vector de caractersticas individuales que se piensa que afecta el salario
individual. Regresin de salarios.
- , , y son vectores de parmetros,
- , y son los trminos de error. regress lsalario edad edad2 prima secun univer puno aqp otros
nempleados privado, robust

Las realizaciones observadas dictomas de la variable latente


de si el individuo est Regresin de autoseleccin.
empleado en un sector particular tiene la siguiente forma: heckman lsalario edad edad2 prima secun univer puno aqp otros

nempleados, select(privado=edad edad2 prima secun univer puno
=1 >0 . . + >0 aqp otros soltero nempleados ) first twostep

=0 0 . . + 0 (12) Regresin de intercambio.
El supuesto que se hace con frecuencia en este tipo de modelos: movestay lsalario edad edad2 prima secun univer puno aqp otros
nempleados, select(privado=edad edad2 prima secun univer puno
- Que el sector de empleo es endgeno para el salario. aqp otros soltero nempleados)
- Algunas caractersticas no observadas que afecta la probabilidad de elegir un sector en
particular de empleo adems podran influenciar al salario que recibe el individuo una
vez que l este empleado. Los resultados de la ecuacin de seleccin del sector son reportados en el panel
- Omitiendo este efecto de selectividad es probable tener una imagen falsa de la relativa select/privado.
posicin de ganancia tanto en el sector pblico y privado. Los resultados de la regresin de salarios en el sector privado son reportados en el panel
lsalario_1, y la regresin de salario en el sector pblico es reportada en el panel lsalario_0.

pg. 38 pg. 39
Econometra Aplicada Prof. Edson Apaza Mamani Econometra Aplicada Prof. Edson Apaza Mamani
eapaza@unap.edu.pe eapaza@unap.edu.pe

El coeficiente de correlacin rho_1 y rho_2 ambos son positivos pero solo es significativo Referencias
para la correlacin entre la ecuacin de eleccin y la ecuacin de salario del sector pblico.

Ya que rho_2 es positivo y estadsticamente diferente de cero, el modelo sugiere que un Heckman, J. 1979. Sample selection bias as a specification error. Econometrica 47(1): 153
individuo quien elige trabajar en el sector pblico ganan un salario menor en ese sector, 162.
que cualquier individuo de la muestra habra ganado, y aquellos que trabajan en el sector
privado no estn mejor o peor que un individuo cualquiera. Maddala, G., (1983) Limited-Dependent and Qualitative Variables in Econometric,
La prueba de razn de verosimilitud para la independencia conjunta de las tres ecuaciones Econometric Society Monographs No. 3, Cambridge University Press, New York.
se reporta en la ltima lnea de la salida.
Mincer Jacob and Solomon Polachek. 1974. Family Investments in Human Capital: Earnings
La variable sigma, /lns1, /lns2, /r1, y /r2 son parmetros auxiliares utilizando en el of Women. The Journal of Political Economy, Vol. 82, No. 2, Part 2: Marriage, Family Human
procedimiento de mxima verosimilitud. sigma_1 y sigma_2 son las races cuadradas de las Capital, and Fertility (Mar. - Apr., 1974), pp. S76-S108
varianzas de los errores del modelo de regresin. /r1 y /r2 son la transformacin de la
correlacin entre los errores de las dos ecuaciones. Winship Christopher and Robert D. Mare. 1992. Models for Sample Selection Bias. Annual
Review of Sociology, Vol. 18, (1992), pp. 327-350

pg. 40 pg. 41
Econometra Aplicada Prof. Edson Apaza Mamani Econometra Aplicada Prof. Edson Apaza Mamani
eapaza@unap.edu.pe eapaza@unap.edu.pe

ECONOMETRA APLICADA La observacin es slo observado si est por encima de cierto limite/umbral
conocido, es decir:
Prof. Edson Apaza Mamani
>
=
. .
MODELOS TRUNCADOS Y CENSURADOS La funcin de densidad de la variable truncada observada es por tanto la funcin de
densidad de probabilidad de la variable latente condicional sobre sus valores
observados, es decir3:
7. Modelos censurados y truncados
( | )
( | )= ( | > , )=
La existencia de informacin omitida o no cuantificada en las encuestas, puede dar logar a
> |
la inconsistencia en la estimacin de los modelos economtricos. As por ejemplo, se
presentan casos en las cuales existe disponible, para una submuestra, de informacin de 1
salario muchos de los cuales estn considerados como cero o no es disponible, sin ( | )=

embargo todas la dems datos si estn disponibles tanto para los que reportan salarios cero 1
o no disponible. Para este caso el modelo a utilizar es un modelo truncado.

En otros casos, es posible que el investigador est interesado en un rango de informacin, 1
( | )=
por ejemplo, un cierto nivel de estudios, o un cierto rango de edades, rango de ingresos etc.

Esta informacin permitir definir el modelo economtrico a estimar como un modelo
censurado. donde (. ) es la funcin de densidad de probabilidad y (. ) La distribucin normal
acumulativa.
7.1. Introduccin
Note que el valor esperado de la variable observada no es lineal en (intente derivar la
La estimacin de modelos economtricos con informacin faltante o con un inters ecuacin de abajo).
particular de una submuestra, nos permitir definir un modelo censurado o truncado. En
estos modelos, los puestos del modelo lineal general ya no se cumplen. Por ello, el mtodo
[( )/ ]
de estimacin ms apropiado es el estimador de mxima verosimilitud. ( | )= ( | > , )= + +
[( )/ ]
7.2. Modelos TRUNCADOS donde ( )/( ) y = ( )/ . La siguiente figura muestra el modelo de
regresin truncada en un ejemplo con = 30, = 2 (un termino constante y una
Los efectos del trucamiento ocurre cuando los datos observados en la muestra slo se 2
agrupan a una submuestra de una gran poblacin. La muestra de este subconjunto se basa variable dependiente) con un punto de truncamiento = 0, = y = 1.
0.5
en el valor de la variable dependiente.

Un ejemplo, un estudio de los determinantes del ingreso de los pobres. nicamente


hogares con ingreso debajo de una cierta lnea de pobreza son parte de la muestra.

i) Especificacin del modelo (Regresin Truncada) 3


Note cmo la funcin de densidad de probabilidad de una variable normalmente distribuida con media
Considere la variable aleatoria latente
que depende linealmente de , es decir: y varianza puede ser escrita utilizando la funcin de densidad de probabilidad (. ) De la normal estndar
(0,1)

= + ~ (0, ) 1 ( )
( )=
2 2
El trmino de error es independiente y normalmente distribuido con media cero y 1 1 ( )
( )=
varianza constante. La distribucin de dado es por lo tanto normal: 2 2

| ~ ( , ). El valor esperado de la variable latente es = . ( )=

pg. 42 pg. 43
Econometra Aplicada Prof. Edson Apaza Mamani Econometra Aplicada Prof. Edson Apaza Mamani
eapaza@unap.edu.pe eapaza@unap.edu.pe

Sin embargo, si el investigador slo est interesado en el efecto del valor esperado de l
subpoblacin, estimar el efecto marginal es ms complicado, de hecho se debe estimar:

( | ) ( | > , )
=

= +

= (1 )

Estos efectos marginales dependen de las caractersticas individuales y slo pueden


ser reportados para tipos especficos o como efectos promedio en la muestra
poblacional (ver ejemplo de aplicacin para cambios marginales).

iv) Aplicaciones

Stata estima el modelo de regresin truncada por el comando


Figura 1: Modelo de regresin truncada
truncreg depvar [indepvars] [, ll(#)]
ii) Estimadores: MV
donde ll(#) define el punto de truncamiento . Podemos estimar un modelo general
La regresin lineal simple por MCO para la variable observada sobre . con un punto de truncamiento por arriba o por encima.
= + truncreg depvar [indepvars] [if] [in] [weight] [, ll(varname) lu(varname)]

Obteniendo estimadores sesgados de , como el trmino de error es: donde la opcin umbral arriba ll y abajo lu puede ser referido a observaciones
especficas y sus valores estn definidor por varname.
=( | > )
podemos utilizar los comandos post-estimacin predict y mfx para obtener
que est correlacionado con y ( )= ( | > )= > 0.
predicciones y efectos marginales. Por ejemplo:
La regresin truncada adems es usualmente por el mtodo de mxima verosimilitud
truncreg wage age educ, ll(1.5)
(ML). La funcin de mxima verosimilitud es: predict wage_hat, e(.,1.5)
mfx compute, predict(e(.,1.5)) at(age=40,educ=12)

= 1
truncreg lwage age educ, ll(1.2)
predict lwage_hat, e(.,1.2)
y permite estimar tanto y por una procedimiento numrico iterativo. La funcin de mfx compute, predict(e(.,1.2)) at(age=40,educ=12)
verosimilitud aplica las propiedades de consistencia, eficiencia asinttica y normalidad, etc.
estima un modelo de regresin truncada debajo del nivel de ingreso (wage) 1.5 dlares
iii) Interpretacin de los parmetros la hora, calcula el valor proyectado de ( | ) = ( | > , ) en esta submuestra
La interpretacin de los parmetros depende mucho de la pregunta de investigacin. Si y calcula los efectos marginales de edad y educacin sobre el valor esperado del ingreso
el investigador est interesado en el promedio de toda la poblacin, los coeficientes ( | ) para personas con 45 aos de edad y con escolaridad de 12 aos de educacin.
simplemente se interpretan como los efectos marginales.

( | )
=

pg. 44 pg. 45
Econometra Aplicada Prof. Edson Apaza Mamani Econometra Aplicada Prof. Edson Apaza Mamani
eapaza@unap.edu.pe eapaza@unap.edu.pe

7.3. Modelos CENSURADOS La siguiente figura representa el modelo de regresin truncada en un ejemplo con =
30, = 2 (una constante y una variable independiente) un punto de truncamiento
El censuramiento ocurre cuando los valores de la variable dependientes estn restringidos 2
a un rango de valores. Como veremos ms adelante, para el caso de truncamiento la debajo = y = 1.
0.5
variable dependiente la informacin slo es observable para una bus muestra. Sin embargo,
existe informacin (para las variables independientes) de la muestra completa.

Algunos ejemplos.

Tickets vendidos para un encuentro deportivo, no puede exceder la capacidad del estadio.

Gasto en bienes durables son tanto valores positivos como ceros (este es el ejemplo
utilizado en Tobin (1958) en su paper original.

El nmero de aventuras extramatrimoniales son no negativos. (Observe que aunque el


famoso paper de Fair (1978) utiliza un modelo Tobit, los modelos de datos de conteo
pueden ser ms apropiados.

i) Especificacin

Considere la variable latente aleatoria que depende linealmente de , es decir:
)
= + ~ (0,

El trmino de error es independiente y normalmente distribuido con media cero y Figura 2: El modelo Tobit estndar (tipo 1).
varianza constante. La distribucin de dado es por lo tanto normal:

| ~ ( , ). El valor esperado de la variable latente es = .

El valor observado de est censurada por abajo por 0, es decir: ii) Estimadores: MV
La regresin por MCO para la variable observada sobre .
>0
=
0 0
= +
La variable observada es una variable aleatoria mezclada con una probabilidad de masa
Obteniendo estimadores sesgados de , como
( = 0| ) = ( < 0| ) = ( / ) sobre 0 y un valor continuo sobre
0 con densidad ( | ) = [( )/ ]. ( | )= ( / ) + ( / )
El valor esperado de la variable observada es: no es una funcin lineal de .

( | )=0 ( 0| ) + ( | > 0, ) ( > 0| ) Note que existe una muestra restringida de todas las observaciones observadas,
( recolectadas, es decir, donde > 0, no resuelve el problema como sera en el caso de
/ )
( | )= + ( / ) un modelo de regresin truncada hacia arriba.
( / )
La regresin truncada usualmente se estima por el mtodo de mxima verosimilitud.
( | )= ( / ) + ( / ) Asumiendo independencia entre las observaciones, la funcin de mxima verosimilitud
(log likelihood) es:

pg. 46 pg. 47
Econometra Aplicada Prof. Edson Apaza Mamani Econometra Aplicada Prof. Edson Apaza Mamani
eapaza@unap.edu.pe eapaza@unap.edu.pe


( > 0) ( / ) 1
= + 1 = =
{| } { | }

esta funcin puede estimar tanto y por una procedimiento numrico iterativo. La funcin donde
de verosimilitud hacia arriba es una funcin combinada de componentes discreta y continua y
una funcin de mxima verosimilitud estndar, se deja al lector la demostracin del mismo.
=
Sin embargo, este puede ser mostrado que el estimador tiene propiedades usuales de 1
mxima verosimilitud. Aunque la funcin de mxima verosimilitud del modelo Tobit no
es globalmente cncava este tiene un mximo nico. El estimador es inconsistente ante y
la presencia de heterocedasticidad. Greene (2004, seccion 22.3.3.) muestra cmo se
realiza la prueba de heterocedasticidad.
=
La estimacin por ML de los modelos de regresin censurada descansa fuertemente de
los supuestos fuertes de que el trmino de error est normalmente distribuido. Existen Estos efectos marginales dependen de las caractersticas individuales y slo pueden
varias estrategias de estimacin semi-paramtrico, estrategias que han sido propuestas ser reportados para tipos especficos o como efectos promedio en la muestra
que relaja la distribucin del trmino de error. Vea Chay y Powell (2001) para una poblacional (ver ejemplo de aplicacin para cambios marginales).
introduccin. iv) Aplicaciones
iii) Interpretacin de los Parmetros
El programa Stata, estima el modelo Tobit estndar (tipo 1) mediante el comando:
La interpretacin de los parmetros depende mucho de la pregunta de investigacin. Si tobit depvar [indepvars], ll[(0)]
el investigador est interesado en el promedio de toda la poblacin, los coeficientes
se interpretan como los efectos marginales. Asimismo, se puede estimar modelos ms generales con censuramiento para arriba (ll)
y para abajo (lu).

( | )
= tobit depvar [indepvars] [if] [in] [weight] , ll[(#)] ul[(#)] [options]

luego es posible utilizar los comandos post-estimacin predict y mfx para obtener
Sin embargo, si el investigador est interesado en el efecto del valor esperado de los predicciones y efectos marginales. Por ejemplo:
valores observados (censurado), el efecto marginal es (dervelo!):
tobit faminc age educ, ll(2000)
( | ) predict faminc_hat, ystar(2000,.)
= ( / ) mfx compute, predict(ystar(2000,.)) at(age=40,educ=12)

Hay una descomposicin interesante de este efecto marginal (McDonald y Moffit,


1980): (1) el efecto sobre la expectativa de todos los valores completamente observados estima ( | ) = ( | > 0, ) ( > 0| ) y calcula los efectos marginales
y (2) el efecto sobre la probabilidad de ser completamente observado: de la edad y educacin sobre el nivel de ingresos ( | ) para personas de 45 aos de

edad con escolaridad de 12 aos alcanzados.
( | ) ( | > 0, )
( > 0)
= ( > 0) + ( | > 0, )
( ) ( )

con

( |
> 0, )
= (1 )

pg. 48 pg. 49
Econometra Aplicada Prof. Edson Apaza Mamani Econometra Aplicada Prof. Edson Apaza Mamani
eapaza@unap.edu.pe eapaza@unap.edu.pe

ECONOMETRA APLICADA 1 >0
=
0
Prof. Edson Apaza Mamani
=1
=
. .

MODELOS DE HECKMAN DE AUTOSELECCION En otras palabras, la primera ecuacin (la ecuacin de decisin, ) explica qi una
observacin est en la muestra o no. La segunda ecuacin (ecuacin de regresin de
inters, ) determina el valor de . Note que el modelo estndar tobit es un caso
8. Modelos Seleccin especial de esta especificacin con = , = , = y = 1.

El problema de seleccin muestral ocurre cuando la muestra observada no es una muestra La siguiente figura muestra un ejemplo de un modelo de seleccin con = 30, =
aleatoria pero sistemticamente se eligen de una poblacin. El truncamiento y 1.5 2
, = , = 1, = 0.8 y correlacin entre y explica porqu la
censuramiento como casos especiales de seleccin muestral o truncamiento incidental. 1 0.5
probabilidad de ser observada incrementa con .
El ejemplo clsico: el ingreso slo se observa para personas empleadas pero no para
aquellos que deciden estar en casa (histricamente se mantienen para el caso de las
mujeres).

Otros ejemplos, en estudios de migracin, solamente se observan aquella que decidieron


hacer el cambio de residencia por diferentes factores. Hogares que realmente tienen acceso
al crdito. No se pueden ver los otros casos, losque deciden quedarse en sus lugares de
origen y los que no recibieron el crdito. Por tanto, es posible que al momento de estimar
los determinantes de la migracin o los factores que determinan el acceso al microcrdito,
tengan el problema de seleccin muestral.

i) Especificacin del modelo (Modelo de Seleccin de Heckman, Tobit tipo 2)

Considere un modelo con dos variables latentes y que dependen linealmente de


variables observables y respectivamente, es decir:

= +

= +

con

0 1
( , )~ ,
0

Los trminos de error y son independientemente (entre observaciones) y


conjuntamente normalmente distribuidos con covarianza . Note que la varianza de
es fijado a la unidad ya que en la estimacin no est identificada.

Las dos variables latentes no son observadas por el investigador. Estas se observan
nicamente en un indicador cuando la variable latente es positiva. El valor de la
variable = slo se observa si el indicador es 1.

pg. 50 pg. 51
Econometra Aplicada Prof. Edson Apaza Mamani Econometra Aplicada Prof. Edson Apaza Mamani
eapaza@unap.edu.pe eapaza@unap.edu.pe

( )
( )
se omite y se convierte parte del trmino de error.

El trmino de error adems est correlacionada con si 0 y est


correlacionada con . El resultado sesgado es llamado sesgo de seleccin o sesgo de
seleccin muestral. (Demostracin en Stata).

Note que no existe sesgo si los componentes no observables estn no correlacionados


( = 0) incluso cuando la muestra observada es altamente selectiva (slo inlf, solo
migrantes, slo con crditos, etc.), es decir, incluso cuando y estn correlacionadas
y as algunos valores de son ms probables a ser observadas que otras. La siguiente
figura muestra esta situacin.

Figura 3: modelo de seleccin con correlacin observable y caractersticas no


observables.

Como = 0.8, indica que se tiene una correlacin positiva del error explica por qu,
para un y , puntos de por encima del valor esperado (por ejemplo, el punto 6) es
ms probable para ser observado.

El valor esperado de la variable es la esperanza condicional de condicionado a que
sea observado ( = 1), en trminos economtricos:
( )
( | , ) = ( | = 1, , )= + = + ( )
( )
Figura 4: el modelo de seleccin con correlacin de caractersticas observables pero
donde ( ) ( )/( ) es el indicador conocido como el ratio inversa de Mills. caractersticas no observables no correlacionados.

Note que ( | , ) = si los dos trminos de errores no estn correlacionados, es No es necesario decir que no existe sesgo si las caractersticas observables y no
decir que = 0. Esto es aun cierto cuando y estn correlacionados, como por observables entre la decisin y la ecuacin de regresin no esta correlacioandas. Este
ejemplo en el caso usual cuando alguna variable independiente aparece en y en . es el caso de una representacin de muestra aleatoria pura, la cual se observa en la
siguiente figura.
ii) Estimacin

La regresin por MCO para la variable observada sobre .

= +
Obteniendo estimadores sesgados de , ya que el f actor:

pg. 52 pg. 53
Econometra Aplicada Prof. Edson Apaza Mamani Econometra Aplicada Prof. Edson Apaza Mamani
eapaza@unap.edu.pe eapaza@unap.edu.pe

La estimacin por ML del modelo de seleccin tienen las propiedades estndar de ML


(consistencia, eficiencia, normalidad asinttica, etc.). En la prctica es difcil para
encontrar numricamente el mximo valor, ya que el valor inicial es muy importante.
Adems, la estimacin con el procedimiento de dos etapas que analizaremos en la
siguiente seccin es a menudo utilizado como valor inicial. La estimacin por ML es slo
necesario cuando la prueba de = 0 es rechazado en la estimacin de dos etapas.

La estimacin por ML del modelo de seleccin de Heckman descansa fuertemente en el


supuesto de que el trminos de errores estn conjuntamente normalmente
distribuidos. Hay un supuesto muy fuerte y a menudo no realista. Muchas estrategias
de estimacin semi paramtricas han sido propuestos donde relajan los supuestos
distributivos sobre el trmino de error. Vea Vella 81998) para una introduccin.

iv) Estimacin con el Procedimiento de Dos Etapas de Heckman

Figura 5: el modelo de seleccin tanto con caractersticas observables y caractersticas Heckman propuso un estimador de dos etapas que slo considera la estimacin de un
no observables no correlacionadas, es decir, muestras aleatorias. modelo probit estndar y un modelo de regresin lineal. El procedimiento de dos etapas
se define sobre la media condicional:
iii) Estimacin con el Mtodo de Mxima Verosimilitud
( )
( | , )= + = + ( )
Las ecuaciones de decisin y regresin pueden ser estimados simultneamente por el ( )
mtodo de mxima verosimilitud bajo el supuesto distribucional de los errores. La
funcin de mxima verosimilitud consiste en dos partes: (1) la contribucin de de todas las s observadas
probabilidad de las observaciones con = 0, es decir, la probabilidad de no ser La primera etapa es la estimacin consistente de por el mtodo de ML utilizando todo
observado en la ecuacin de regresin. (2) La contribucin de probabilidad de las el conjunto de observaciones en el modelo probit estndar:
observaciones con = 1, es decir la probabilidad de ser observada multiplicada con la
densidad condicional del valor observado:
= +

= [ = 0] + [ = 1] | =1 = 1 si > 0, 0 en otro caso
=0 =1
Podemos utilizar para esta estimacin consistente, el ratio inversa de Mills , para todas las
= [ = 0] + = 1| observaciones.
=0 =1
( ) ( )
=
= [ = 0] + + = 1| 1 ( ) ( )
=0 =1 =1 Segunda etapa; es la estimacin de la ecuacin de regresin con el ratio inversa de Mills como
+ una variable adicional:
= [( )] + + /
(1 )
=0 =1 =1 = + +

Para la submuestra de todas las observaciones. El modelo de regresin de MCO obtiene , ,


y as la correlacin = .
Note que esta funcin de mxima verosimilitud identifica , , , pero no la varianza
de el cual fue fijado a la unidad. En el caso de = 0, las funciones de probabilidad se El estimador de dos etapas de Heckman es consistente per no eficiente. Adems, la matriz de
reduce a la suma de un modelo probit y un modelo regresin lineal que puede ser covarianzas del estimador de la segunda etapa proporcionado por MCO estndar es incorrecto
estimado por separado. con el regresor adicional (el ratio inversa de Mills), el cual esta medido con error y el trmino de

pg. 54 pg. 55
Econometra Aplicada Prof. Edson Apaza Mamani Econometra Aplicada Prof. Edson Apaza Mamani
eapaza@unap.edu.pe eapaza@unap.edu.pe

error es hetorocedastico. Adems el error estndar necesita ser corregido. Para ms donde depvar = , indepvars= , depvar_s = y varlist_s= . Stata
detalles Greene (2003, 22.4.3.) sobre cmo hacerlo. La pruena de la hiptesis nula = calcula los parmetros de inters por el mtodo de ML por dos etapas, agregando la
0 es una prueba optima de = 0 y puede ser realizado utilizando los errores estndar opcin twostep.
incorrectos de MCO (como ellos son correctos bajo la hiptesis nula).
Estimacin de la primera etapa:
Existe a menudo un problema prctico de identificacin (casi multicolinealidad) cuando
probit inlf kidslt6 kidsge6 faminc age agesq
las variables de ambas ecuaciones son las mismas, es decir, cuando = , vea Vella predict y_hat, xb
(1998). Los parmetros y estn tericamente identificados por la nolinealidad del gen imr = normalden(y_hat)/normprob(y_hat)
ratio inversa de Mills (. ). Sin embargo, como puede verse en la siguiente figura, es caso
lineal para una gran rango de valores de . Este es adems fuertemente aconsejable
para incluir variables en que no estn incluidos en aunque esto es con frecuencia Estimacin de la segunda etapa:
difcil encontrar tales variables.
regress lwage educ exper expersq imr, r

Estimacin del modelo de Heckman en dos etapas


heckman lwage educ exper expersq, select(kidslt6 kidsge6 faminc
age agesq) twostep

heckman lwage educ exper expersq, select(kidslt6 kidsge6 faminc


age agesq) first twostep

heckman lwage educ exper expersq, select(kidslt6 kidsge6 faminc


age agesq) first twostep mills(mymills)

Referencias:
Figura 6: El ratio inversa de Mills y las observaciones de la Figura 3.

Greene, William H. (2003), Econometric Analysis, Prentice Hall, section 22.1-22.4.


v) Interpretacin de los parmetros Davidson and MacKinnon (1993), Estimation and Inference in Econometrics, Oxford
University Press, sections 15.6-15.8.
En la mayora de los casos, nosotros estamos interesados en el efecto de las variables
independientes en toda la poblacin. Adems nos gustara obtener los estimadores Davidson and MacKinnon (2004), Econometric Theory and Methods, Oxford University
insesgados y consistentes de que es interpretado directamente como efecto marginal. Press, chapter 11.6-11.7.
En algunos casos, sin embargo, los investigadores estn interesados en el efecto sobre
la poblacin observada. Para los regresores que aparecen en el lado izquierdo tanto en Amemiya, Takeshi (1994), Introduction to Statistics and Econometrics, Cambridge: Harvard

y , el efecto marginal depende no slo de sino tambin de a travs de la University Press, section 13.6.
probabilidad de estar en la muestra. Vea Greene 2003, seccin 22.4.2.).
Amemiya, Takeshi (1985), Advanced Econometrics, Cambridge: Harvard University Press,
vi) Aplicacin chapter 10.

Stata calcula por el mtodo de ML, con el comando heckman: Chay, Kenneth Y. and James L. Powell (2001), Semiparametric Censored Regression Models,
Journal of Economic Perspectives, 15(4), 29-42.
heckman depvar [indepvars], select(depvar_s = varlist_s) [twostep]

pg. 56 pg. 57
Econometra Aplicada Prof. Edson Apaza Mamani Econometra Aplicada Prof. Edson Apaza Mamani
eapaza@unap.edu.pe eapaza@unap.edu.pe

Vella, F. (1998) Estimating Models with Sample Selection Bias: A Survey, Journal of Human ECONOMETRA APLICADA
Resources, 33, 127-169
Prof. Edson Apaza Mamani

MODELOS DE ELECCIN MULTIPLE

9. Modelos de eleccin mltiple

En muchas ocasiones, el agente econmico debe elegir entre ms de dos alternativas


posibles. Los modelos presentados anteriormente pueden adaptarse, sin mucha dificultad,
a este tipo de problemas de decisin. A modo de ejemplo, supongamos que cada individuo
de una muestra puede escoger una entre tres alternativas posibles, y denotaremos por
una variable que toma el valor de 1 si el individuo escoge la opcin , mientras que toma
el valor de 0 si el individuo escoge otra de las opciones.

En esta seccin analizaremos los modelos ms conocidos de eleccin mltiple: probit


ordenado, logit ordenado y modelo logit multinomial.

9.1. Probit Ordenado

La variable dependiente a menudo toma nmeros valores contables, por ejemplo:

{1,2, , }
Esto aplica en contextos donde un agente (individuo, hogar, empresa, tomador de
decisiones, ) elige de un conjunto de alternativas.

Algunas veces tales valores/categoras de tales variables discretas pueden ser naturalmente
ordenados, es decir, valores grandes se asumen a su correspondiente mayor resultado. El
modelo probit ordenado es un modelo de variable latente que ofrece un proceso generador
de datos para este tipo de variables dependientes. Algunos ejemplos:

Escala en las encuestas de opinin: 1 = "Totalmente en desacuerdo", 2 = "Algo en


desacuerdo", 3 = "Indeciso", 4 = "Algo de acuerdo ", 5 =" totalmente de acuerdo".
Estado de Empleo: 1 = "sin empleo", 2 = "tiempo parcial", 3 = "tiempo completo".
(Aunque a menudo se utiliza como ejemplo cabe preguntarse el orden "natural" en
este caso y aplicar los modelos sin ordenar.)

i) Especificacin del Modelo Economtrico

Considere la variable latente aleatoria para los individuos = 1,2, ,


= + ~ (0, )

pg. 58 pg. 59
Econometra Aplicada Prof. Edson Apaza Mamani Econometra Aplicada Prof. Edson Apaza Mamani
eapaza@unap.edu.pe eapaza@unap.edu.pe

que depende linealmente de . El trmino de error es independiente y estimadores de la funcin de mxima verosimilitud y son consistentes,
normalmente distribuido con media 0 y varianza . La distribucin de dado es asintticamente eficiente y distribuidos normalmente.
adems normal: | ~ ( , ). El valor esperado de la variable latente es
=
. iv) Interpretacin de los Parmetros

La eleccin observada es nicamente si el ndice del individuo indica la eleccin dentro [el ndice del individuo es omitida en esta seccin] el signo del parmetros estimados
de una categora (que elige previamente) = 1,2, , que se define a travs de sus puede ser interpretado directamente: un signo positivo nos dice si la probabilidad de
lmites inferior y superiores , es decir, la eleccin observada es: respuesta/eleccin cambia a una categora mayor cuando la variable independiente
incrementa. La hiptesis nula = 0 implica que la variable , no tiene influencia
1 sobre la probabilidad de eleccin. Tenga en cuenta, sin embargo, que la magnitud
2 <
absoluta de los parmetros no tiene sentido, ya que es arbitrariamente escalado por el
= 3 < supuesto = 1. Lo cual puede abarcar, por ejemplo, no comparar directamente las
estimaciones de los parmetros de la misma variable en diferentes subgrupos.

<
A menudo es interesante predecir las probabilidades de eleccin ( = | ) para
La probabilidad que un individuo elija la alternativa es fcilmente derivada con la ciertos tipos de y para inspeccionar el efecto marginal de una variable independiente
ayuda de la siguiente figura: en las probabilidades de eleccin (suponiendo = 1 y = 1).
[( )/ ] =1 ( = | )
= ( )
[( )/ ] [( )/ ] =2
= [( )/ ] [( )/ ] =3
( = 2| )
=[ ( ) ( )]
1 / =

donde (. ) Es la distribucin acumulativa normal estndar. ( = 3| )


=[ ( ) ( )]
ii) Identificacin

La probabilidad de eleccin permite slo para identificar los ratios / y / pero
no , y individualmente. Adems, uno usualmente asume = 1. ( = | )
=
Suponfa que la funcin ndice contiene una constante, es decir = + ++
. Entonces y , , no estn identificadas como slo diferencias Tenga en cuenta que los efectos marginales slo pueden ser reportados para tipos
aparecen en las probabilidades de eleccin . El modelo es usualmente identificado especificados . Cuando es positivo, entonces la probabilidad de elegir la primera
tanto por la definicin de =0o = 0. categora ( = 1) disminuye con y la probabilidad de que los ltima categora
( = ) aumenta. Sin embargo, el efecto en las categoras medias es ambiguo y
iii) Estimacin depende de .

El modelo probit ordenado puede ser estimado utilizando el mtodo de ML. La funcin v) Aplicaciones
de ML es:
El comando de Stata

= oprobit depvar [indepvars] [if] [in] [weight] [, options]

estima los parmetros y el umbral en el modelo probit ordenado. Stata no asume la


donde = 1 si el elije la alternativa y = 0 en caso contrario. La funcin de constante, es decir, = 0. depvar es una variable categrica que es ms favorable
verosimilitud es numricamente maximizado sujeto a < << . Los pero no necesariamente codificado como 1,2, , .

pg. 60 pg. 61
Econometra Aplicada Prof. Edson Apaza Mamani Econometra Aplicada Prof. Edson Apaza Mamani
eapaza@unap.edu.pe eapaza@unap.edu.pe

El comando post estimacin. 9.2. Logit Condicional


predict [type] {stub* | newvar | newvarlist} [if] [in] [, statistic En la mayora de los casos, las variables dependientes discretas
outcome(outcome) nooffset]

predict p1, p outcome(1) {1,2, , }

predice la probabilidad de elegir, por ejemplo, la alternativa con valor = 1, en no tienen un orden natural. Esto se aplica a menudo a un contexto en el que un agente
nuestra notacin ( = | ), para todos los individuos de la muestra. Usted (individuo, familia, empresa, toma de decisiones,...) elige a partir de un conjunto
directamente puede predecir las probabilidades de eleccin para todas las alternativas. desordenado de alternativas.
Para = 3 alternativas, el commando El modelo logit condicional requiere que las variables que varan entre alternativas y,
predict p1 p2 p3, p posiblemente, a travs de los individuos. Algunos ejemplos:

asigna las probabilidades estimada ( = 1| ), ( = 2| )y ( = Los viajeros eligen entre un conjunto de modos de transporte: "bus", "tren",
2| ) en las respectivas nuevas variables p1, p2 y p3. "coche", "avin". Puede haber una variable "tiempo de viaje", que es especfica a
una alternativa y una variable "gastos de viaje" que depende del medio de
Los efectos marginales sobre la probabilidad de elegir la alternativa con valor 1 se transporte y el ingreso personal a travs de los costos de oportunidad, que es el
calcula como mismo para todas las alternativas.
mfx compute, predict(outcome(1)) Los compradores de coches escogen entre ciertos tipos de vehculos: " Sedn 4
puertas", " coup 2 puertas", "Station Wagons", "Convertibles", " Auto Deportivo",
para un individuo con caractersticas medias . La opcin at se utiliza para evaluar los "Mini vans", "Todo terreno", "Camiones Tractor" , "Vans".
tipos . Los compradores de papel higinico tienen que elegir entre diferentes marcas.
Las empresas deben elegir entre diferentes tecnologas.

i) Especificacin del Modelo Economtrico

La eleccin de una de las alternativas desordenadas es impulsada por una variable


latente, a menudo interpretada como utilidad indirecta. La utilidad indirecta de un
individuo elegir la alternativa = 1,2, , es:

= +

Hay trminos errores para cualquier individuo . Las variables exgenas =


, , se puede dividir en variables que dependen de un slo individuo, ,
slo en la alternativa, , o en ambos .

Un individuo elije la alternativa , siempre que ofrezca el mayor valor de utilidad


indirecta. La eleccin observada de un individuo es por lo tanto

1

2

= 3


pg. 62 pg. 63
Econometra Aplicada Prof. Edson Apaza Mamani Econometra Aplicada Prof. Edson Apaza Mamani
eapaza@unap.edu.pe eapaza@unap.edu.pe

Tenga en cuenta que esto implica que la eleccin slo depende de la diferencia de probabilidad de eleccin . Tenga en cuenta que para la identificacin del efecto fijo,
utilidad y no sobre el nivel. una alternativa acta como referencia y su constante se fija en cero.

El modelo logit condicional supone que los trminos de error siguen una distribucin iii) Estimacin
independiente e idnticamente un valor extremo. La funcin de distribucin
acumulativa es: El modelo condicional puede ser estimado utilizando mxima verosimilitud (ML). La
funcin de verosimilitud es
=

Esta especificacin aparentemente arbitrario del trmino de error tiene dos =


caractersticas importantes: (1) La diferencia de dos trminos de error sigue una
distribucin logstica (como en el modelo logit). (2) La probabilidad de que un individuo donde = 1 si el individuo elije la alternativa y = 0 de lo contrario. El
elige la alternativa es una expresin simple (que no es trivial derivar): estimador de mxima verosimilitud es consistente, asintticamente eficiente y
normalmente distribuida.
= ( = | )=
iv) Interpretacin de los Parmetros

La independencia del trmino de error a travs de alternativas es un supuesto fuerte. [El ndice de individuo se omite en esta seccin] En algunas aplicaciones existe una
Esto implica que la estocstica de un individuo, es decir, la preferencia no observada, la interpretacin natural de la variable latente . En estas situaciones, el signo de un
preferencia por una determinada alternativa es independiente de su preferencia parmetro se puede interpretar como la direccin de la influencia de la variable ,
estocstico para otras alternativas. Las fuertes y desagradables consecuencias de esta = , , ,, para todo . Tenga en cuenta que la magnitud absoluta de los
suposicin se discuten en la literatura como independencia de alternativas irrelevantes parmetros no tiene sentido o intepretacin dirrecta.
(IIA).
A veces es interesante examinar el efecto marginal de una variable independiente
ii) Identificacin en las probabilidades de eleccin:
En el modelo logit condicional, las personas slo se preocupan por las diferencias de ( = | )
servicios pblicos a travs de alternativas. Los factores que influyen en el nivel de = 1
utilidad dependen de todas las alternativas, por lo tanto no se puede explicar la decisin
del individuo. Las variables independientes individuales especficas por lo tanto se ( = | )
cancela en la probabilidad eleccin =

Tenga en cuenta que los efectos marginales dependen de que pasa por y para ello
= = =
slo puede ser reportado para tipos especificados.

y el correspondiente no est identificado. Un trmino constante que no varan con A menudo es ms interesante utilizar el modelo estimado para predecir probabilidades
los individuos ni las alternativas es, por supuesto, no identificado por el mismo de eleccin para los tipos de hogares especficos descritos por
argumento. La caracterstica individual comienza a jugar un papel cuando
interactan con las caractersticas de las alternativas (forman los efectos fijos). = ( = | )=

A menudo es beneficioso incluir el trmino constante de la alternativa especfica .
Estos efectos fijos de la alternativa capturan todas las caractersticas observadas y no Sin embargo slo se puede inspeccionar los cambios de las caractersticas individuales
observadas que describen la alternativa que son idnticos entre los individuos. En este en el resultado predicho como toda la informacin sobre las alternativas est encerrado
en el estimado j alternativa parmetros especficos. Adems, no es posible simular la
caso, el coeficiente de la variable de alternativa especfica no es identificado:
adicin o supresin de alternativas de eleccin.
cualquier vector aade = + y = se cancela dentro de la

pg. 64 pg. 65
Econometra Aplicada Prof. Edson Apaza Mamani Econometra Aplicada Prof. Edson Apaza Mamani
eapaza@unap.edu.pe eapaza@unap.edu.pe

v) Aplicaciones numricamente muy exigente. Por otra parte, todava no muchos entienden
completamente los problemas prcticos que surgen de la identificacin.
Los modelos logit multinomiales slo utiliza las caractersticas individuales especficas.
Los datos se almacenan como los datos habituales de corte transversal: una lnea por Referencias
cada individuo. La variable dependiente (vardep = ) es una variable categrica para
el individuo que elige la alternativa . Las variables independientes (varindeps = )
no varan entre las alternativas. Stata estima el modelo logit multinomial utilizando el Train, Kenneth E. (2003), Discrete Choice Methods with Simulation, Cambridge
siguiente comando: University Press. Chapter 1 and 2.

mlogit vardep varindeps, basecategory (#) Greene, William H. (2003), Econometric Analysis, Prentice Hall. Sections 21.7.1-21.7.3,
21.8.
donde # indica la alternativa para el cual el parmetro = 0 para su identificacin
(valor de la variable dependiente como base o punto de referencia). De manera general Amemiya, Takeshi (1994), Introduction to Statistics and Econometrics, Harvard
el comando mlogit es de la forma: University Press. Section 13.5.2.

mlogit depvar [indepvars] [if] [in] [weight] [, options] Amemiya, Takeshi (1985), Advanced Econometrics, Harvard University Press. Chapter
9.3.1-9.3.4.
El comando post-estimacin
Davidson and MacKinnon (2004), Econometric Theory and Methods, Oxford University
predict p1, p outcome(1)
Press, chapter 11.4.
predice la probabilidad de elegir la alternativa con valor = 1, en nuestra
notacin ( = 1| ), para todos los individuos en la muestra. Usted puede
proyectar directamente las probabilidades de eleccin para todas las alternativas. Por
ejemplo, para 3 alternativas, el comando es:
predict p1 p2 p3, p

bsicamente asigna las probabilidades estimadas ( = 1| ), ( = 2| )


y ( = 2| ) en las respectivas nuevas variables p1, p2 y p3.

Los efectos marginales sobre la probabilidad de elegir por ejemplo, la alternativa con
valor 1 se calcula mediante
mfx compute, predict(outcome(1))

para un individuo con caractersticas medias . La opcin at se utiliza para evaluar


otros tipos ms, .

vi) Vea otros temas relacionados ...

La propiedad de independencia de alternativas irrelevantes (IIA) de los modelos logit


condicional y el modelo logit multinomial es, en la mayora de las aplicaciones de un
supuesto muy poco realista. Los estimadores de los parmetros y en especial las
predicciones contrafactuales de ambos modelos son incompatibles si el IIA no se
sostiene. Los modelos ms flexibles que se han propuestos son el logit anidado (nested
logit), logit mixto (kernel) o probit multinomial tanto. La flexibilidad del probit
multinomial y el modelo logit mixto, sin embargo, tiene un precio: la estimacin es

pg. 66 pg. 67
Econometra Aplicada Prof. Edson Apaza Mamani Econometra Aplicada Prof. Edson Apaza Mamani
eapaza@unap.edu.pe eapaza@unap.edu.pe

Las partes restantes son como en el modelo logit condicional: la eleccin observada
de un individuo es
ECONOMETRA APLICADA
1

Prof. Edson Apaza Mamani 2

= 3


MODELOS DE ELECCIN MULTIPLE

los trminos de error continan como independiente e idnticamente una distribucin


9.3. Logit Multinomial de valor extremo

El modelo logit multinomial se utiliza para el mismo tipo de situaciones de eleccin como =
el logit condicional:
y la probabilidad de que un individuo elige la alternativa es:
{1,2, , }
= ( = | )=
donde el valor de no tienen un orden natural.
Sin embargo, el logit multinomial utiliza slo las variables que describen las caractersticas Una caracterstica interesante del modelo logit multinomial es que el ratio de
de los individuos y no de las alternativas. Esto limita la utilidad del modelo para las probabilidad /odds ratio) ( / ) depende log-linealmente de .
predicciones hipotticas. Algunos ejemplos:

Los viajeros eligen entre un conjunto de modos de transporte: "bus", "tren", =


"coche", "avin". Hay variables que describen al viajero, como sus ingresos. No hay
informacin sobre los modos de viaje. ii) Identificacin
Los compradores de coches escoger entre ciertos tipos de vehculos:
Los compradores de coches escogen entre ciertos tipos de vehculos: " Sedn 4 El vector de parmetros , = 1,2, , no tienen una nunca definicin: cualquier
puertas", " coup 2 puertas", "Station Wagons", "Convertibles", " Auto Deportivo", vector se aade a todos los vectores de = + cancela en las probabilidades de
"Mini vans", "Todo terreno", "Camiones Tractor" , "Vans". Slo se utiliza informacin eleccin
sobre el comprador.
Los compradores de papel higinico eligen entre diferentes marcas. Como en el caso = = =
( )
anterior, slo se utiliza informacin sobre el comprador.
Las empresas deben elegir entre diferentes tecnologas. Slo se utiliza Informacin
de la empresa. Los s se identifican generalmente mediante el establecimiento de la = 0 para una
alternativa de referencia.
i) Especificacin del Modelo Economtrico iii) Estimacin
El modelo logit multinomial difiere del modelo logit condicional slo en la especificacin El modelo condicional puede ser estimado utilizando mxima verosimilitud (ML). La
de la parte determinstica de la utilidad indirecta, . funcin de verosimilitud es

= +
=
Las variables exgenas describen nicamente los individuos y son idnticos entre las
alternativas. Sin embargo el parmetro difiere entre las alternativas.

pg. 68 pg. 69
Econometra Aplicada Prof. Edson Apaza Mamani Econometra Aplicada Prof. Edson Apaza Mamani
eapaza@unap.edu.pe eapaza@unap.edu.pe

donde = 1 si el individuo elije la alternativa y = 0 de lo contrario. El Sin embargo slo se puede inspeccionar los cambios de las caractersticas individuales
estimador de mxima verosimilitud es consistente, asintticamente eficiente y en el resultado proyectado, como toda la informacin sobre las alternativas est
normalmente distribuida. encerrada en los parmetros especficos estimado de la alternativa . Adems, no es
posible simular la adicin o supresin de alternativas de eleccin.
iv) Interpretacin de los Parmetros
v) Aplicaciones
[El ndice individual se omite en esta seccin] Los parmetros del modelo logit
multinomial son difciles de interpretar. Ni el signo (vase la seccin de identificacin Los modelos logit multinomiales slo utiliza las caractersticas individuales especficas.
anteriormente) ni la magnitud del parmetro tiene un significado intuitivo directa. Las Los datos se almacenan tanto como es usual en formato de corte transversal: una lnea
pruebas de hiptesis deben, pues, ser muy cuidadosamente formuladas en trminos de por cada individuo. La variable dependiente (depvar = ) es una variable categrica
los parmetros estimados. con la persona que elige la alternativa . Las variables independientes
(indepvar= ) no varan entre las alternativas. Stata estima el modelo logit
El efecto marginal de una variable independiente en la probabilidad de eleccin para multinomial con el comando
la alternativa
mlogit depvar indepvars, basecategory(#)
( = | )
=
donde # indica la alternativa para el cual el parmetro = 0 para su identificacin
(valor de la variable dependiente como base o punto de referencia).
depende no slo de los parmetros sino tambin en la media de todas las dems
alternativas = 1/ El comando post-estimacin
predict p1, p outcome(1)
Una posible interpretacin ms directa de las estimaciones de los parmetros se puede
se ha subido al ver el registro de la razn de posibilidades: predice la probabilidad de elegir la alternativa con valor = 1, en nuestra
notacin ( = 1| ), para todos los individuos en la muestra. Usted puede
Una posible interpretacin ms directa de las estimaciones de los parmetros se puede
proyectar directamente las probabilidades de eleccin para todas las alternativas. Por
obtener viendo el logaritmo del ratio de probabilidades:
ejemplo, para 3 alternativas, el comando es:
/ predict p1 p2 p3, p
=
bsicamente asigna las probabilidades estimadas ( = 1| ), ( = 2| )
que se reduce a: y ( = 2| ) en las respectivas nuevas variables p1, p2 y p3.
/ Los efectos marginales sobre la probabilidad de elegir por ejemplo, la alternativa con
=
valor 1 se calcula mediante

para las comparaciones con la categora de referencia . Un parmetro positivo mfx compute, predict(outcome(1))
significa por lo tanto que la probabilidad relativa de elegir aumenta la probabilidad
para un individuo con caractersticas medias . La opcin at se utiliza para evaluar
relativa de elegir .
otros tipos ms, .
El modelo logit multinomial tambin se puede utilizar para predecir probabilidades de
eleccin para determinados tipos de hogares
References
= ( = | )=

Train, Kenneth E. (2003), Discrete Choice Methods with Simulation, Cambridge
University Press. Chapter 1 and 2.

pg. 70 pg. 71
Econometra Aplicada Prof. Edson Apaza Mamani
eapaza@unap.edu.pe

Greene, William H. (2003), Econometric Analysis, Prentice Hall. Sections 21.7.1-21.7.3,


21.8.

Amemiya, Takeshi (1994), Introduction to Statistics and Econometrics, Harvard


University Press. Section 13.5.2.

Amemiya, Takeshi (1985), Advanced Econometrics, Harvard University Press. Chapter


9.3.1-9.3.4.

Davidson and MacKinnon (2004), Econometric Theory and Methods, Oxford University
Press, chapter 11.4.

pg. 72

Vous aimerez peut-être aussi