Académique Documents
Professionnel Documents
Culture Documents
Avanzado
Modelos Factoriales, Análisis de
Sobrevivencia, Regresión no Parametrica
26 de marzo de 2014
2
1. Técnicas de Muestreo 5
1.1. Muestreo Sin Reemplazo y Con Reemplazo . . . . . . . . . . . 5
1.1.1. Muestreo sin Reemplazo . . . . . . . . . . . . . . . . . 5
1.1.2. Muestreo con Reemplazo . . . . . . . . . . . . . . . . . 6
1.2. Diseños Muéstrales . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.3. Técnicas de Muestreo . . . . . . . . . . . . . . . . . . . . . . . . 8
1.3.1. Muestreo Aleatorio Simple . . . . . . . . . . . . . . . . 8
1.3.2. Muestreo Aleatorio Estratificado . . . . . . . . . . . . . 10
1.3.3. Muestreo Sistemático . . . . . . . . . . . . . . . . . . . 12
1.3.4. Muestreo por Conglomerado en Una Etapa . . . . . . 14
1.3.5. Estratificación con Muestreo de Cluster en Dos Etapas 17
1.4. Inspeccionando la ENAHO . . . . . . . . . . . . . . . . . . . . 21
2. Análisis de Impácto 25
2.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
2.2. Evaluación de Impacto . . . . . . . . . . . . . . . . . . . . . . . 25
2.3. Sesgo de Selección . . . . . . . . . . . . . . . . . . . . . . . . . 27
2.4. Requicitos de las bases de datos . . . . . . . . . . . . . . . . . 29
2.5. Efecto Tratamiento Promedio ATE . . . . . . . . . . . . . . . . 29
2.6. Efecto Tratamiento sobre los Tratados ATET . . . . . . . . . . 31
2.7. Propensity Score Matching PSM . . . . . . . . . . . . . . . . . 32
2.8. Algoritmos de Matching . . . . . . . . . . . . . . . . . . . . . . 33
2.9. Aplicación 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
2.10. Aplicación 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
3. Modelos de Duración 39
3.1. Tiempo de Falla . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
3.2. Censura . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
3.3. Función de Riesgo . . . . . . . . . . . . . . . . . . . . . . . . . 41
3.4. La función de supervivencia (survivor) . . . . . . . . . . . . . 42
3.5. Relación entre la función de supervivencia y riesgo . . . . . . 42
3.6. La Función de Riesgo Acumulado . . . . . . . . . . . . . . . . 43
3.6.1. Distribución Exponencial . . . . . . . . . . . . . . . . . 44
3
4 ÍNDICE GENERAL
5. Análisis Multivariante 73
5.1. Análisis Multivariante de Varianza y Covarianza . . . . . . . . 73
5.1.1. Análisis Multivariante de Varianza: MANOVA . . . . 73
5.2. Análisis Cluster . . . . . . . . . . . . . . . . . . . . . . . . . . . 74
5.3. Análisis Discriminante . . . . . . . . . . . . . . . . . . . . . . . 78
5.4. Análisis de Componentes . . . . . . . . . . . . . . . . . . . . . 79
6. Bootstrap y Montecarlo 81
6.1. Monte Carlo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81
6.2. Bootstrap . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88
6.2.1. Algoritmo de remuestreo . . . . . . . . . . . . . . . . . 88
Existen dos comandos que pueden ser útiles para tomar muestreos alea-
torios. El comando “sample” para realizar un muestreo sin reemplazo (una
vez que alguna observación ha sido elegida de la muestra, esta no vuelve
a estar disponible para una futura selección). Y el “bsample” si uno desea
una muestra con reemplazo. Si la base de datos es muy extensa, probable-
mente los resultados de ambos comandos no se diferencien, dado que la
probabilidad de seleccionar un dato de una base inmensa, por una segunda
vez es muy baja. (La probabilidad de selección de un dato de la muestra
no cambia si es que la observación ha sido previamente seleccionada).
5
6 1. Técnicas de Muestreo
count
by prog: sample 15
count
by prog: count
Weights: Son muchos tipos de pesos que pueden ser asociados con las
encuestas, quizá el más común de los pesos muestrales, es el pweight, que
es usado para denotar la inversa de la probabilidad de ser incluida en
la muestra conduciéndonos al diseño muestral (exceptuando las PSU). El
pweight es calculado como N/n, donde N es el número de elementos po-
blacionales y n es el número de elementos muestrales. Por ejemplo, si una
población tiene 10 elementos y 3 son muestreados aleatoriamente con re-
emplazo, entonces el pweight podría ser 10/3=0.33. En un diseño de dos
etapas, el pweight es calculado como f1f2, lo cual significa que la inversa de
la fracción muestral para la primera etapa es multiplicada por la inversa de
la fracción muestral de la segunda etapa. Bajo muchos planes muestrales,
la suma de los pesos es igual a la población muestral.
gen pw = 6194/310
Luego, nosotros consideraremos cuan largo es nuestra muestra relativa-
mente a nuestra población para determinar si nosotros necesitamos usar un
corrector de población finita. Nosotros necesitamos dar la población total,
y Stata realizara los cálculos necesarios para obtener el FPC.
gen fpc = 6194
Cuando las estimaciones son hechas para cada estrato, son hechas in-
dependientemente de los otros estratos, en otras palabras las estimaciones
de yr_rnd para el estrato 1 fueron hechas de manera independiente de las
estimaciones del estrato 2. También note que la suma de las estimaciones
de los estratos uno y dos iguala el valor anterior
sort snum
drop if _n < 2
gen newsno = _n - 1
gen y = mod(newsno,13)
drop if y != 0
count
di 6194/13
gen pw = 6194/477
gen fpc = 6194
Note que el efecto de diseño para las variables es uno. Esto no es por-
que estamos en un muestreo sistemático necesariamente, simplemente es
un eficiente MAS. El efecto de diseño es influenciado por la estratificación
y la PUS. En ambos, MAS y MS, nosotros dejamos los estratos o PSU. Aquí
el software, nos dice que no podemos muestrear los dos planes muéstrales
separados, porque la especificación del diseño muestral es exactamente el
mismo que el MAS, el efecto diseño es uno. Sin embargo, uno puede cal-
cular el efecto diseño por un lado, dividiendo la varianza de la variable de
interés bajo el diseño muestral actual por la varianza de la misma variable
bajo el MAS. Nosotros hacemos esto y encontramos que el diseño mues-
tral es cercano a uno. Nosotros encontramos que para api00 es 0.96 y para
growth es 0.93 y 1.2 para yr_rnd.
Mostramos el uso del comando “svy:tab” que puede ser usado para
hace una o dos cruces de tablas. Aquí nosotros hacemos el cruce de both y
awards. Los valores en las celdas son proporciones. Se puede usar la opción
“count” para obtener el total de cada celda. El comando “svy:tab” también
nos da el test chi cuadrado para estas dos variables. Nosotros podemos ver
que la relación entre ellas es estadísticamente significativas.
Se aplica cuando es difícil tener una lista de todos los individuos que
forman parte de la población de estudio, pero sin embargo sabemos que se
encuentran agrupados naturalmente en grupos.
Nosotros necesitamos crear una nueva data, dejando solo una fila pa-
ra cada distrito (dnum) y asi realizar el muestreo. Nosotros usaremos el
comando “contract” para esto. Conseguiremos el total del número de dis-
tritos, para usarlo en el cálculo de los “pweight” luego. Después, crearemos
una nueva variable, x, con valores aleatorios, ordenando la data sobre x, fi-
jando el “seed”, seleccionamos la muestra y vemos como los distritos son
contract dnum
count
sort dnum
keep dnum
save oscs.dta, replace
Ahora que sabemos que distritos han sido seleccionados, para hacer
nuestro muestreo, necesitamos poner la información en el total de la data.
Ordenamos el archivo en función de “dnum” y hacemos un “merge” de los
dos files. Borramos todos los casos que no son análogos y vemos que 1461
casos fueron seleccionados.
gen pw = (757/189)
gen fpc = 757
Trabajando en el estrato 1
contract dnum
count
sample 25
count
sort dnum
save oscss1.dta, replace
use apipops1.dta, clear
sort dnum
merge dnum using oscss1.dta
drop if _merge != 3
count
sort dnum
by dnum: gen n = _n
summ n
Ahora seleccionamos las escuelas de cada distrito. Hemos decidido se-
leccionar tres escuelas de cada distrito. Si un distrito tiene tres o menos
escuelas, seleccionaremos la muestra de todas las escuelas. Para hacer esto,
crearemos una nueva variable aleatoria, “xx” por “dnum” y ordenandolo.
Luego creamos nuevas variables que nos digan el número de escuelas con
cada distrito (number) y el número total de escuelas con cada distrito (N).
Luego de borrar las escuelas con un número mayor a 3 ordenamos la data
en función a “dnum” y “number”. Finalmente, generamos “nn”, la cual es
el numero total de escuelas seleccionadas en cada distrito.
by dnum: gen xx = uniform()
sort dnum xx
by dnum: gen number = _n
by dnum: gen N = _N
drop if number > 3
count
sort dnum number
by dnum: gen nn = _N
Ahora estamos listos para crear los “pweight” y los “fpc”. Para una
muestra en dos etapas, la formula de pweights es f1*f2, donde f1 es la
inverse de la fracción muestral para el primer nivel (selección de los con-
glomerados) and f2 es la inversa de la fracción muestral para el segundo
nivel (selección de los elementos.
gen p1 = 377/94
gen p2 = N/nn
gen pwt = p1*p2
gen fpc = 377
save strata1.dta, replace
Trabajando el 2
contract dnum
count
sample 25
count
sort dnum
save oscss2.dta, replace
use apipops2.dta, clear
sort dnum
merge dnum using oscss2.dta
drop if _merge != 3
count
sort dnum
by dnum: gen n = _n
summ n
Selección de escuelas dentro de los distritos
use sumaria-2006
tab mes
use sumaria-2007
tab mes
use sumaria-2008
tab mes
clear
use sumaria-2006
append using sumaria-2008
tab aÑo
append using sumaria-2007
sort aÑo
tab aÑo
tab mieperho
d p201
tab mieperho
Esta variable considera todos aquellos que sean miembros del hogar,
salvo aquellos que sean pensionistas o trabajadores del hogar
tab pobreza
tab pobreza if aÑo=="2006"
tab pobreza if aÑo=="2006", su( mieperho)
svy:prop pobreza
svy:prop pobreza if estrato==1
svy:prop pobreza, over(estrato)
svy: tab estrato pobreza
El índice de Pearson nos indicara si las medias son parecidas entre gru-
po o no
2.1. Introducción
Una gran parte de estudios de evaluación son cuasi-experimentales y se
basan en la aplicación de tecnicas microeconométricas aplicadas a la infor-
mación proporcionada por fuentes secundarias.
Entre las técnicas cuasi-experimentales el Propensity Score Matching (PSM)
se aplica cada vez más en la comunidad de evaluación de políticas. Se ex-
plica de qué modo, en base al supuesto de independencia condicional junto
con la hipótesis de soporte común, puede reducirse el sesgo de selección
cuando la participación en un programa se determina a través de un mo-
delo de participación especificado con variables que miden características
observables. Se contemplan los principales aspectos técnicos de forma sen-
cilla, abordándolos desde una perspectiva conceptual, que permita la com-
prensión de la metodología y su aplicación al trabajo empírico.
25
26 2. Análisis de Impácto
puede observar.
Esto ocurriria bajo el supuesto de que los resultados potenciales sean esta-
dísticamente independientes de d.
Sin embargo, no es necesario un supuesto tan fuerte, como el de inde-
pendencia, para que se cumpla este resultado. Una condicion mas de-
bil que es implicada por el supuesto de independencia es que y0 y y1
son independientes en medias de d si E(y j |d)=E(y j ), para j = 1, 0. Equivalente,
E(y j |d = 1)=E(y j |d = 0).
Y bajo esta condición se cumple también que el ATE coincide con la
diferencia E(y|d=1) = E(y|d=0).
0 < Pr (d = 1| x ) < 1
Con lo que se tendría que:
exclusivamente.
2.9. Aplicación 1
PROJoven es un programa de capacitación laboral juvenil cuyo objeti-
vo es mejorar el acceso al mercado laboral formal de jóvenes de 16 a 24
años de edad y de escasos recursos económicos en situación de pobreza,
con bajos niveles de escolaridad y que se encuentren desempleados o sub-
empleados. A los jóvenes seleccionados (se aplica una ficha de evaluación
socioeconómica), se les brinda cursos de capacitación técnica básica de al-
rededor de 3 meses y se suscribe convenios para que realicen pasantías en
empresas.
logit grupo hijo1 labsec1 edum curso ingfrp1 sexo secomp exp soltero1 colest1
predict psp
*o alternativamente
pscore grupo hijo1 labsec1 edum curso ingfrp1 sexo secomp exp soltero1 colest1, ///
pscore(myscore) blockid(myblock) logit
attnd ingh2 grupo hijo1 labsec1 edum curso ingfrp1 sexo secomp exp soltero1
comsup logit
attk ingh2 grupo hijo1 labsec1 edum curso ingfrp1 sexo secomp exp soltero1 c
comsup dots logit
*Comparando las distribuciones de los valores del propensity score una vez
emparejados los beneficiarios y controles.
2.10. Aplicación 2
Se asume un programa de microcreditos para asignar villas de manera
aleatoria y asumiendo que no existe diferencia entre las villas del grupo de
control y de tratamiento. Se desea evaluar si el impacto del programa de
colocación sobre el gasto anual percapita por hogar. Se usará los datos de
hogares de 1998.
gen vill=thanaid*10+villid
egen progvillm=max(dmmfd), by(vill)
egen progvillf=max(dfmfd), by(vill)
*Matching
pscore dmmfd sexhead agehead educhead lnland vaccess pcirr rice wheat milk oil egg
pscore(ps98) blockid(blockf1) comsup level(0.001)
*ATT
attnd lexptot dfmfd [pw=weight], pscore(ps98) comsup
nnmatch lexptot dfmfd sexhead agehead educhead lnland vaccess pcirr rice wh
39
40 3. Modelos de Duración
La escala temporal debe ser precisa y común para todos los indivi-
duos. Normalmente se utiliza tiempo real: minutos, horas, días, sema-
nas, meses, años, décadas. Sin embargo existen otras opciones (algún
vector dimensión que reemplace al tiempo) dependiendo de la apli-
cación. En estadística aplicada, por ejemplo, una escala podría ser el
número de re-muestreos necesarios para que un determinado pará-
metro converja o en la industria automovilística se ha utilizado los
kilómetros que recorre un auto antes que una pieza falle. En econo-
mía normalmente es el tiempo real y el investigador solo debe tener
cuidado en que sea la misma escala para cada individuo y que no
cambie a lo largo de todo el experimento.
3.2. Censura
Los datos económicos utilizados en los modelos de duración por na-
turaleza están censurados. De este modo, en la modelación y en las esti-
maciones resultantes estarán presentes las consecuencias econométricas de
este problema (sesgo) si es que no se resuelve adecuadamente. El problema
Pr [t ≤ T ≤ t + ∆t| T ≥ t]
Es decir interesa investigar la probabilidad que el tiempo de falla sea
entre t y t + ∆t (t ≤ T ≤ t + ∆t) condicionado a que el individuo continua
en el estado inicial al momento t (T ≥ t). Es simple, la condición implica
que el individuo no ha “salido” antes de t. Es posible dividir esta probabi-
lidad entre ∆t para obtener la probabilidad promedio de salida por unidad
de tiempo luego de t. Además interesa que esta unidad de tiempo sea muy
pequeña para introducir el concepto “instantaneo”. Así se calcula:
Pr (t ≤ T ≤ t + ∆t| T ≥ t)
Θ(t) = lı́m
∆t→0 ∆t
donde Θ(t) se conoce como la función de riesgo (hazard function) o
ratio de riesgo (hazard rate) y se define como el ratio instantáneo de salida
por unidad de tiempo en el momento t. Luego Θ(t)∆t, es la probabilidad
S(t) = 1 − F (t)
Pr [t ≤ T ≤ t + ∆t, T ≥ t]
Pr [t ≤ T ≤ t + ∆t| T ≥ t] =
Pr [ T ≥ t]
Donde:
Pr [t ≤ T ≤ t + ∆t]
Pr [t ≤ T ≤ t + ∆t| T ≥ t] =
Pr [ T ≥ t]
F (t + ∆t) − F (t)
Pr [t ≤ T ≤ t + ∆t| T ≥ t] =
1 − F (t)
Por lo que la función de riesgo seria:
f (t) f (t)
Θ(t) = =
1 − F (t) S(t)
Siendo esta una versión mas corta de la función de riesgo.
dlog[S(t)]
Θ(t) = −
dt
Por lo tanto se puede definir una función Λ(t) como la integral de Θ(t)
que dará como resultado:
Z t
Λ(t) = Θ(t)dt = −log[S(t)]
0
Donde Λ(t) sigue una distribución de valor extremo.
Para efectos del análisis econométrico más interesante que analizar la
función de supervivencia o la densidad es realizar estimaciones sobre la
función de riesgo. Es decir, se intenta estimar la probabilidad de salida
del estado inicial en un intervalo de tiempo corto condicionado a que el
individuo continua en el estado inicial. Así, la primera pregunta que se
hace el investigador es respecto a la relación de dependencia que existe
entre la probabilidad de salida y la duración en el estado inicial (es decir,
el tiempo). A la naturaleza de esta relación se le conoce como dependencia
de la duración y pueden darse tres casos:
F (t) = 1 − e−θt
Siendo la función de supervivencia:
α > 1, implica que ∂Θ/∂t > 0 y sugiere que el ratio de riesgo respon-
de de manera positiva al periodo de duración.
α < 1, implica que ∂Θ/∂t < 0 y sugiere que el ratio de riesgo respon-
de de manera negativa al periodo de duración.
α = 1, implica que ∂Θ/∂t = 0 y sugiere que el ratio de riesgo no
responde al periodo de duración.
(λt)α
F (t) =
1 + (λt)α
y por extensión la función de supervivencia sería
1
S(t) =
1 + (λt)α
y la función de riesgo sería
αλα tα−1 2
f (t) f (t) [1+(λt)α
] αλα tα−1
Θ(t) = = = 1
=
1 − F (t) S(t) 1 + (λt)α
1+(λt)α
De este modo, el numerador de la función de riesgo en el caso de la
log-logística es idéntico al de la Weibull, pero resulta mas flexible debido
al denominador. En tales casos, se puede demostrar que cuando
L= ∏ f (t|χ) ∏ S(t|χ)
Luego, en logaritmos es posible encontrar la función log-verosímil
Θ( x |t) = αe βx tα−1
donde se ha reemplazado λ = e βx , siendo x una matriz que incluye la
constante y el set de variables que se utilizarán como explicativas asumien-
do que no varían en todo el periodo de duración. Es decir, no varían desde
T = 0 hasta T = t (covariables invariantes en el tiempo). Hacer que λ de-
penda de las covariables es equivalente a cambiar las unidades de medida
en el vector del tiempo. De este modo, el rol de las covariables es la de
acelerar (o desacelerar) el tiempo de falla. Esto ocurre en contraste con un
modelo de riesgo proporcional donde el rol de la covariable es cambiar el
ratio de riesgo (más adelante se discuten estos modelos).
ω1 ( xβ) = e xβ
Lo que hace que la influencia de las covariables tengan efectos multipli-
cativos sobre el riesgo original. Esto último se demuestra considerando la
expresión:
ω1 ( xβ) = e xβ ω2 (t)
y derivandola respecto a x j se obtiene
∂θ ( x |t)
= ω2 (t) β j e xβ = β j θ ( x |t)
∂x j
Es decir, el efecto marginal de la covariable x j es el parámetro asocia-
do a ella multiplicada por la función de riesgo original. Luego es posible
especificar (cambiando la notación de la derivada)
dθ ( x |t)
= β j dx j
θ ( x |t)
Es decir, el modelo puede ser fácilmente interpretable en términos del
cambio proporcional del riesgo. Es importante tomar en cuenta que e β j ≈
1 + β j que es la expresión utilizada por algunos paquetes estadísticos. En
todo caso, la mayoría de estos paquetes normalmente reportan resultados
y desviaciones estándar para ambas versiones.
Θ( x |t) = e xβ αtα−1
En este caso la derivación se compone de:
ω1 ( xβ) = e xβ
y
ω2 (t) = αtα−1
El modelo estima principalmente el efecto que tiene una determinada
covariable en el ratio de riesgo y no de la duración (como en el caso de los
modelos AFT). En tal contexto, la elección de la forma funcional es con-
veniente ya que permite una interpretación log-lineal de los efectos. Sin
embargo, esta estimación también puede ser usada para derivar el efecto
que tiene sobre la duración; fundamentalmente en el efecto que tiene cierta
covariable en la duración esperada (promedio) de cierto estado. La deri-
vación de estos efectos a partir de la Weibull es complicada, pero puede
demostrarse rápidamente que la duración promedio se expresa como:
1 βx
E( T ) = Γ( + 1)e(− α )
α
donde se obtendria tomando logaritmos:
Ln( E( T )) = − βx cuando α = 1
− βx
Ln( E( T )) = α + k cuando α 6= 1
Nótese que la primera opción es la expresión de la regresión lineal del
modelo AFT discutido antes y la segunda sería la expresión alternativa en
el caso que α 6= 1 . En este último caso conviene utilizar la alternativa:
αLn( T ) = − βx + µ
donde µ es el término de error y α es el parámetro de la relación de de-
pendencia de la duración de la Weibull (el cual también se estima). Nótese
que el valor esperado de µ no es cero ya que depende del operador Gam-
ma, sin embargo es independiente de x. El efecto marginal con respecto a
la duración seria:
∂Ln( T ) β
=−
∂x α
Este es un resultado intuitivo. Primero, porque si la covariable x tie-
ne un efecto positivo (negativo) en el ratio de riesgo (es decir, en el ratio
instantáneo de salida), luego es de esperar que esta variable tenga un efec-
to negativo (positivo) en la duración. Es fácil analizarlo en términos de la
educación: un individuo más educado tendrá una mayor probabilidad de
encontrar trabajo, por lo que la duración del desempleo para este individuo
será menor.
Segundo, porque realizar el ajuste por α resulta relevante. Así, cuando
existe una dependencia negativa α < 1 (en la medida que pasa el tiempo
la probabilidad de salida es menor) el efecto de un cambio en x sobre la
duración deberá incrementarse respecto al caso en que no existe relación
de dependencia (α = 1). Lo mismo ocurre cuando α > 1 (en la medi-
da que tiempo pasa la probabilidad de salida es mayor) ya que el efecto
de un cambio en x sobre la duración deberá reducirse respecto al caso en
que no existe relación de dependencia (α = 1). Por ejemplo, el desempleo
muestra una relación de dependencia negativa (en la medida que el tiem-
po pasa la probabilidad de encontrar empleo es menor) y el efecto de la
ei ( x, t) = vi θi ( x, t)
donde vi es una variable aleatoria i.i.d como Gamma(1,σ2 ) la cual repre-
senta una proxy de todos los factores no observables en la aplicación. De
este modo, la manera de incluir la heterogeneidad no observada es muy
similar a la inclusión de un término de error en la regresión. Operando
podemos expresar la funcioón de riesgos como:
2
θ ∗ ( x, t) = θ (t)[1 − F ( x, t)]σ
en esta expresión θ ∗ es la función de riesgo ajustada por heterogenei-
dad no observada, donde F(x,t) es el valor esperado de la función de dis-
2
tribución acumulada condicional en v. Se observa que [1 − F ( x, t)]σ es una
k
ni − k i
S( Tk ) = ∏ ni
i =1
hk
Θ(ˆTk ) =
nk
3.11. Aplicación 1
Se realizó una investigación sobre la base de datos de la ENAHO en
1996, a diferencia de otros estudios, se busco realizar un análisis de la di-
námica del desempleo en zonas urbanas a lo largo del año. La hipótesis
que se plantea es que existe una combinación de altas tasas de rotación y
baja duración del desempleo urbano en el Perú, lo que provoca que gran
cantidad de personas sufran episodios de desempleo alguna vez durante el
año. Así, a diferencia de las hipótesis estáticas, se plantea que la dinámica
del desempleo es la causa principal para que la falta de empleo sea consi-
derada como el problema más importante del país.
mayor deterioro del capital humano de los desempleados. Así, modelar es-
ta probabilidad para distintos grupos (de género, edad, nivel de educación,
etc.) permitirá distinguir patrones específicos para cada uno de ellos.
*-------------------------------*
* Test de riesgos proporcionales
*-------------------------------*
* Test log-log
stphplot, by(educ) c(lll) adj(cesante age lnavging)
*-------------------------------------------------
* Test para los Modelos de Riesgos Proporcionales
*-------------------------------------------------
* Test de ajuste modelo Weibull
*******************************
use base96 , clear
* Configuración de los datos
rename semanas t
stset t, failure(salio) id(id) noshow
gen lnt=ln(t)
ρ = E(yx )
Pero esto no es suficiente para entender el efecto “causal” de x en y, así
como tampoco podemos predecir. Cuando queramos ver el valor promedio
de y condicial a x usamos la función de regresión poblacional:
FRP = E(y| x )
59
60 4. Modelos Semi y No Paramétricos
y = H ( x, u)
Lo que implica una expresión para la esperanza condicional:
E(y| x, u) = H ( x, u)
Dado que u no es observable, tenemos que hacer supuestos para iden-
tificar parámetros o funciones de interés.
H ( x, u) = xβ + u
y = xβ + u
que constituye un modelo parámetrico lineal, luego:
E(y| x ) = xβ + E(u| x )
E(y| x ) = xβ
suponiendo que E(u| x ) = 0, podemos identificar la media condicional
y sus derivadas fácilmente. Sin embargo si:
H ( x, u) = f ( x ) + u
y = f (x) + u
Se tiene un modelo no paramétrico y un problema de dimensionalidad.
Si:
y = f ( xβ) + u
y = m( x ) + u
p( x, y)
Z Z
m( x ) = yp(y| x )dy = y dy
p( x )
el análogo muestral será:
p̂( x, y)
Z
hatm ( x ) == y dy
p̂( x )
siendo necesario un estimador de p(x,y) y p(y), por lo que nuestra tarea
es encontrar un estimador para estas densidades. Una forma usual para
estimar una probabilidad es el método de Kernels.
1 n
n i∑
Pr ( X ≤ x ) = F ( x ) = I<−∞,x]
=1
donde I<−∞,x] es una función indicatriz que es igual a 1 si −∞ < X ≤ x.
Este método es No Paramétrico puesto que no debemos estimar ningún pa-
rámetro. Se le conoce como la distribución empírica.
1 n
2hn i∑
f (x) = [ I x − h ≤ Xi ≤ x + h ]
=1
1 n 1
hn i∑
f (x) = [ I ]
=1
2 x − h ≤ Xi ≤ x + h
1 n 1
hn i∑
f (x) = [ I ]
=1
2 − h ≤ Xi − x ≤ h
1 n 1
hn i∑
f (x) = [ I X −x ]
2 −1≤ ih ≤1
=1
1 n 1
hn i∑
f (x) = [ I X −x ]
=1
2 | ih |≤1
1 n
hn i∑
f (x) = [ k ( Xi − x ) ]
=1 h
donde
(
1
2, si |u| ≤ 1
k(u) =
0, de otra forma
o
1
k(u) = 1|u|≤1
2
La cual es conocida como la función Kernel Rectangular, Uniforme o
Naive. El estimador de densidad de probabilidad puede usar otras funcio-
nes Kernel con las cuales mejoran las propiedades de éste.
1
k(u) = √ exp(−u2 )
2π
Kernel Epanechnikov
3
k(u) = (1 − u2 )1|u|≤1
4
Kernel Triangular
k (u) = (1 − |u|)1|u|≤1
y = m( x ) + u
donde E(y| x ) = m( x ) si suponemos que E(u| x ) = 0 y se intenta estimar:
p̂( x, y)
Z
m̂( x ) == y dy
p̂( x )
siendo:
1 n
hn i∑
p̂( x ) = [ k ( Xi − x ) ]
=1 h
1 n
h2 n i∑
p̂(y.x ) = [ k ( Yi −y ) k ( Xi −x ) ]
=1 h h
por lo tanto
Z 1
[ n k
h2 n ∑i =1 ( Yi −y ) ( Xih− x )
k ]
h
m̂( x ) = y 1 n
dy
hn [ ∑i =1 k ( Xi − x ) ]
h
R
Resolviendo la expresión anterior (básicamente usando uk (u)du = 0)
se obtiene el estimaror de Nadaraya y Watson (1964)
∑in=1 k ( Xi −x ) yi
h
m̂( x ) =
∑in=1 k ( Xi −x )
h
kdensity price
tw (hist price)(kdensity price), title("Precio del auto")
hist price, title("Precio del auto")
/*Uniforme*/
kernreg price mpg, b(2.4) k(1) np(100) gen(k_1 x1_1) nog
tw (sc price mpg)(line k_1 x1_1)
/*Triangular*/
kernreg price mpg, bw(2.4) k(2) np(100) gen(k_2 x1_2) nog
tw (sc price mpg)(line k_2 x1_2)
/*Epanechnikov*/
kernreg price mpg, bw(2.4) k(3) np(100) gen(k_3 x1_3) nog
tw (sc price mpg)(line k_3 x1_3)
/*Quartic - Biweight*/
kernreg price mpg, bw(2.4) k(4) np(100) gen(k_4 x1_4) nog
tw (sc price mpg)(line k_4 x1_4)
/*Rectangular*/
kernreg price mpg, bw(2.4) k(5) np(100) gen(k_5 x1_5) nog
tw (sc price mpg)(line k_5 x1_5)
/*Gaussian*/
kernreg price mpg, bw(2.4) k(6) np(100) gen(k_6 x1_6) nog
tw (sc price mpg)(line k_6 x1_6)
tw (sc price mpg)(line k_1 x1_1)(line k_2 x1_2)(line k_3 x1_3) ///
(line k_4 x1_4)(line k_5 x1_5)(line k_6 x1_6), ///
yi = y1i di + y0i (1 − di )
yi = y0i + αi di
Ahora bien, existen dos tipos de diseños de Regresión Discontinua. El
primero es el Sharp Design, en el cual di = f ( xi ) es una función determi-
nística de xi y continua excepto en x0 . El otro tipo de diseño es el Fuzzy
Design, en el cual la probabilidad de tratamiento es discontinua en x0 por
ejemplo Pr (di = 1| x ) es discontinua en x0 .
lı́m E(di | xi = x )
x → x0+
lı́m E(di | xi = x )
x → x0−
Siendo independiente del tipo de diseño (Sharp o Fuzzy). Hay que notar
que cuando se tiene Sharp Design:
lı́m E(di | xi = x ) = 1
x → x0+
lı́m E(di | xi = x ) = 0
x → x0−
Luego:
4.2.1. Estimación
La alternativa que proponen Hahn, Todd y van der Klaaww (2001) es
asumir que:
y0i = y0 + vi
Luego, como yi = y0i + αi di , entonces:
y i = y0 + α i d i + v i
Si se asume que y0 = c por simplicidad, se puede estimar esta regresión
como una regresión lineal local, con más peso en las observaciones cerca a
la discontinuidad así:
αi = α =⇒ yi = c + αdi + vi
Cuyos parámetros son obtenidos al optimizar una suma de cuadrados
residual ponderada:
n
minc,α ∑ [yi − c − α( xi − x0 )]2 k ( xi −x0 )
h
i =1
con lo cual se puede estimar:
lı́m E(yi | xi = x )
x → x0+
lı́m E(yi | xi = x )
x → x0−
yi = y0i + αi di + vi
E ( yi | x ) = m ( x ) + E ( αi di | x )
si αi ⊥di | x, entonces:
E ( yi | x ) = m ( x ) + E ( αi | x ) E ( di | x )
y = m( x ) + αd + e
Porter (2003) propone estimar los límites mediante polinomios locales
de x̃i = xi − x0 :
1 x̃
mn
n ∑ k ( i )di (yi − α − b1 x̃i − b2 x̃i2 − ... − b p x̃ p )2
h
1 x̃
mn
n ∑ k ( i )(1 − di )(yi − α − b1 x̃i − b2 x̃i2 − ... − b p x̃ p )2
h
Luego α̂ p = α̂+ −
p − α̂ p
4.2.2. Aplicación
Nos interesa el efecto de tener un representante demócrata en el Con-
greso de EEUU sobre el gasto federal en el distrito electoral. En este caso
la variable “tener un representante demócrata” puede ser considerado un
tratamiento aplicado a un distrito electoral, y la variable de asignación Z
es la proporción de votos que obtiene el candidato demócrata. En el nivel
Z=50 %, la probabilidad de recibir el tratamiento cambia de 0 a 1. Además,
se puede asumir que aquellos distritos con una votación ligeramente infe-
rior de 50 % por el candidato demócrata no son muy distintos de aquellos
con una votación de 50 % o ligeramente superior.
tw (line ul0 ll0 s0 x0, lcolor(blue blue blue) lpattern(dash dash solid)) ///
(line ul1 ll1 s1 x1, lcolor(red red red) lpattern(dash dash solid)), legend(off)
rd lne d, gr mbw(100)
rd lne d, gr mbw(100) line(`"xla(-.2 "Repub" 0 .3 "Democ", noticks)"')
rd lne d, gr ddens
rd lne d, mbw(25(25)300) bdep ox
rd lne d, x(pop-vet)
Ê[yi | xi ] = α̂ + β̂xi
Sin embargo, en muchos casos puede que nuestro interés no sea sola-
mente la media de la variable dependiente, sino por ejemplo la mediana o
cuantiles de la misma.
En MCO la función que se minimiza es la suma de los errores al cua-
drado. En la regresión de mediana lo que se minimiza es la suma de los
valores absolutos del error:
ˆ [yi | xi ] = α̂ M ed + β̂ M edxi
Med
N N
mnα,β ∑ |µi | ⇐⇒ mnα,β ∑ |yi − α − βxi |
i =1 i =1
En la regresión de cuantiles se minimiza la siguiente función objetivo:
N N
mnατ ,β τ ∑ τ | yi − α τ − β τ xi | + ∑ (1 − τ )|yi − ατ − β τ xi |
i:yi ≥ατ + β τ xi i:yi <ατ + β τ xi
gen tamaño=ventas/total_activos
gen tangibilidad=activosfijos/total_activos
gen rentabilidad=utilidad_neta/total_activos
gen deuact=deuda_total/total_activos
encode actividad, gen(actid)
tab actid
codebook actid
/*Regresión MCO*/
****************
su deuact tamaño tangibilidad
estimates table qt10 qt20 qt30 qt40 qt50 qt60 qt70 qt80 qt90 , ///
b(%7.4f) t(%7.4f) se(%7.4f)
*grafico de quantiles
********************
matrix Q=J(99,2,0)
local i=0.01
while `i'<1 {
quietly qreg deuact tamaño tangibilidad rentabilidad ,quantile(`i') nolog
matrix Q[`i'*100,1]=e(q)
matrix Q[`i'*100,2]=_b[rentabilidad]
local i=`i'+0.01
}
matrix list Q
svmat Q, name(quantile)
rename quantile1 quantile
rename quantile2 beta
Ninguno de los criterios paresen ser mas potentes contra hipótesis al-
ternativas. A veces, el test de Roy es más potente, cuando la hipótesis nula
de igualdad de vectores de media es violado, en otras situaciones el com-
portamiento del test de Roy es peor que los otros tres estadísticos. El test de
Pillai tiende a ser mas robusta ante la no normalidad y heterocedasticidad
en comparación de los otros tres.
73
74 5. Análisis Multivariante
patrones.
Aplicación 1
Trabajamos con los datos del club de mujeres. Treinta mujeres se les
hicieron 35 preguntas de sí o no. Nuestro interés esta en la agrupación
de las 30 mujeres para la colocación en las mesas de almuerzo. Aquí el
interés se centra en la comprensión de la relación entre las 35 variables.
¿Qué preguntas producen patrones de respuesta similares a partir de las
30 mujeres?
use jaw, clear
manova y1 y2 y3 = gender fracture gender#fracture
Aplicación 2
Los datos son recogidos por Colonel L.A. Waddell, y reportados por
Morant(1923). Los datos consisten en las medidas de 32 craneos encontra-
dos en el sud oeste y oeste del Tibet. Hay cinco medidas (todas en milime-
tros) que se recopilan
*Calculando el Cluster
cluster singlelinkage y1-y5, name(s1)
cluster dendrogram
*Analizando Clasificación
tab g5c1
table g5c1, c(mean y1 mean y2 mean y3 mean y4 mean y5) format(%4.1f)
Aplicación 1
Johnson y Wichern (2007) introducen los conceptos de análisis discri-
minante con dos grupos de datos. Una muestra de 12 propietarios de cor-
tadora de césped de campo de equitación y 12 no propietarios que son
*Predicción
input
. 90 20
. 110 20
. 130 20
end
Aplicación 1
Consideramos un conjunto de datos de las mediciones audiométricas
en 100 varones, de 9 años. Las mediciones son intensidades mínimas dis-
cernibles a cuatro frecuencias diferentes con la oreja izquierda y derecha
(Jackson 2003). El lft1000 variable se refiere a la oreja izquierda a 1.000 Hz.
screeplot, mean
screeplot, ci
loadingplot
loadingplot, comp(3) combined
Y = f ( X1 , X2 , ..., X p )
En este sistema de medición, los valores de entrada son las variables de
81
82 6. Bootstrap y Montecarlo
clear
capture program drop olssim
program olssim, rclass
version 9
syntax [, obs(integer 1) beta0(real 0) beta1(real 0) scale(real 1)]
drop _all
set obs `obs'
generate x = uniform()*10
generate e = invnormal(uniform())/sqrt(invchi2(1,uniform()))*`scale'
generate y = `beta0' + `beta1' * x + e
regress y x
return scalar t1 = (_coef[x]-`beta1')/_se[x]
end
simulate t1 = r(t1), reps(1000): olssim, obs(30) beta0(1) beta1(0.5)
sum t1
histogram t1, kdensity plot(function stdnorm = normalden(x,0,1), \\\
ra(-4 4) lpattern(dash))
use cc1
forv i=2/10 {
append using cc`i'
}
gen het_infl = se_mu2 / se_mu1
save cc_1_10,replace
variable homocedastica.
global true_mu 50
local reps 1000
forv i=1/10 {
qui webuse census2, clear
gen true_y = $true_mu
gen z_factor = region
sum z_factor, meanonly
scalar zmu = r(mean)
qui {
gen y1 = .
gen y2 = .
local c = `i'*10
simulate c=r(c) p1=r(p1) p2=r(p2), saving(ccc`i',replace) \\\
nodots reps(`reps'): mcsimul2, c(`c')
}
}
Luego de ejecutar este archivo do, otra vez combinamos los ficheros se-
parados creando un bucle con para un solo archivo, y generamos varios
variables para evaluar el poder del test.
6.2. Bootstrap
La calidad de un estimador está relacionada con la varianza de dicho
estimador. Esto implica que un estimador puntual de una cantidad de inte-
rés, debe ir acompañado por una estimación de su varianza, o una medida
de su incertidumbre como puede ser un intervalo de confianza de dicha
cantidad de interés. Algunas veces es difícil calcular la incertidumbre de
un estimador, debido a que no hay una expresión cerrada que permita cal-
cular la varianza del estimador, este es por ejemplo el caso de la mediana.
Existe una metodología, que fue desarrollada en 1979 por Efron , pa-
ra calcular la variabilidad de un estimador, conocida como bootstrap, que
consiste en tomar muestras aleatorias de la muestra que tenemos original-
mente, y para cada una de ellas calculamos nuestro estimador. Este proceso
lo repetimos un número grande B de veces y encontramos la distribución
empírica de las estimaciones, que utilizamos para estimar la incertidumbre
del estimador, ya sea como desviación estándar o intervalo de confianza.
use highschool
regress read female math write ses
bootstrap rmse=e(rmse), reps(100) seed(12345): \\\
regress read female math write ses
estat bootstrap, all
Uno puede estar ejecutando una regresión binomial negativa con una
muestra de 488 firmas. Por varias razones, uno decide usar el bootstrap.
¿Qué tan grande debería ser el muestreo del bootstrap respecto al número
total de casos en la base de datos para ser comparados?
program Accum
postfile results se bias n using sim, replace
forvalues n=20(20)4000{
noisily display " `n'" _c
clear
sysuse auto
set seed 12345
Accum
use sim, clear
scatter se n, xtitle("replicas") ytitle("errores estándar del bootstrap")
[7] J. Scott Long, Jeremy Freese - Regression Models for Categorical De-
pendent Variables Using Stata, 2nd Edition.
95