STATA

Stata
Avanzado
Modelos Factoriales, Análisis de
Sobrevivencia, Regresión no Parametrica
Juan Carlos Abanto Orihuela
26 de marzo de 2014
2
Stata Avanzado www.giddea.com

Modelos Factoriales, Análisis de Sobrevivencia administracion@giddea.com
Índice general
1. Técnicas de Muestreo 5
1.1. Muestreo Sin Reemplazo y Con Reemplazo . . . . . . . . . . . 5
1.1.1. Muestreo sin Reemplazo . . . . . . . . . . . . . . . . . 5
1.1.2. Muestreo con Reemplazo . . . . . . . . . . . . . . . . . 6
1.2. Diseños Muéstrales . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.3. Técnicas de Muestreo . . . . . . . . . . . . . . . . . . . . . . . . 8
1.3.1. Muestreo Aleatorio Simple . . . . . . . . . . . . . . . . 8
1.3.2. Muestreo Aleatorio Estratificado . . . . . . . . . . . . . 10
1.3.3. Muestreo Sistemático . . . . . . . . . . . . . . . . . . . 12
1.3.4. Muestreo por Conglomerado en Una Etapa . . . . . . 14
1.3.5. Estratificación con Muestreo de Cluster en Dos Etapas 17
1.4. Inspeccionando la ENAHO . . . . . . . . . . . . . . . . . . . . 21
2. Análisis de Impácto 25
2.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
2.2. Evaluación de Impacto . . . . . . . . . . . . . . . . . . . . . . . 25
2.3. Sesgo de Selección . . . . . . . . . . . . . . . . . . . . . . . . . 27
2.4. Requicitos de las bases de datos . . . . . . . . . . . . . . . . . 29
2.5. Efecto Tratamiento Promedio ATE . . . . . . . . . . . . . . . . 29
2.6. Efecto Tratamiento sobre los Tratados ATET . . . . . . . . . . 31
2.7. Propensity Score Matching PSM . . . . . . . . . . . . . . . . . 32
2.8. Algoritmos de Matching . . . . . . . . . . . . . . . . . . . . . . 33
2.9. Aplicación 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
2.10. Aplicación 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
3. Modelos de Duración 39
3.1. Tiempo de Falla . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
3.2. Censura . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
3.3. Función de Riesgo . . . . . . . . . . . . . . . . . . . . . . . . . 41
3.4. La función de supervivencia (survivor) . . . . . . . . . . . . . 42
3.5. Relación entre la función de supervivencia y riesgo . . . . . . 42
3.6. La Función de Riesgo Acumulado . . . . . . . . . . . . . . . . 43
3.6.1. Distribución Exponencial . . . . . . . . . . . . . . . . . 44
3
4 ÍNDICE GENERAL
3.6.2. Distribución Weibull . . . . . . . . . . . . . . . . . . . . 45

3.6.3. Distribución Log Logistica . . . . . . . . . . . . . . . . 46
3.7. Estimación por Máxima Verosimilitud . . . . . . . . . . . . . . 47
3.8. Estimación con Variables Exógenas . . . . . . . . . . . . . . . . 48
3.8.1. Modelos de tiempo de falla acelerado (AFT) . . . . . . 48
3.8.2. Modelo de riesgo proporcional . . . . . . . . . . . . . . 48
3.8.3. Modelo Weibull . . . . . . . . . . . . . . . . . . . . . . . 50
3.9. Heterogeneidad no observada . . . . . . . . . . . . . . . . . . . 52
3.10. Estimación en Tiempo Discreto . . . . . . . . . . . . . . . . . . 53
3.10.1. Estimador de Kaplan - Meier . . . . . . . . . . . . . . . 54
3.11. Aplicación 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
4. Modelos Semi y No Paramétricos 59

4.1. Estimación por Kernel . . . . . . . . . . . . . . . . . . . . . . . 59
4.1.1. Nadaraya y Watson (1964) . . . . . . . . . . . . . . . . . 63
4.2. Regresión Discontinua . . . . . . . . . . . . . . . . . . . . . . . 65
4.2.1. Estimación . . . . . . . . . . . . . . . . . . . . . . . . . . 67
4.2.2. Aplicación . . . . . . . . . . . . . . . . . . . . . . . . . . 68
4.3. Regresión por Cuantil . . . . . . . . . . . . . . . . . . . . . . . 69
5. Análisis Multivariante 73
5.1. Análisis Multivariante de Varianza y Covarianza . . . . . . . . 73
5.1.1. Análisis Multivariante de Varianza: MANOVA . . . . 73
5.2. Análisis Cluster . . . . . . . . . . . . . . . . . . . . . . . . . . . 74
5.3. Análisis Discriminante . . . . . . . . . . . . . . . . . . . . . . . 78
5.4. Análisis de Componentes . . . . . . . . . . . . . . . . . . . . . 79
6. Bootstrap y Montecarlo 81
6.1. Monte Carlo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81
6.2. Bootstrap . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88
6.2.1. Algoritmo de remuestreo . . . . . . . . . . . . . . . . . 88

Sesión 1
Técnicas de Muestreo
Existen muchas formas de tomar una muestra aleatoria de una base de

datos. Por ejemplo, uno podría tener una base muy grande y tratar de tra-
bajar con una sub - base, para ello se desearía tener un código claro para
analizar la data. Uno podría desear tomar solo los 100 primeros casos, o
tomar una muestra aleatoria más representativa.
Existen dos comandos que pueden ser útiles para tomar muestreos alea-
torios. El comando “sample” para realizar un muestreo sin reemplazo (una
vez que alguna observación ha sido elegida de la muestra, esta no vuelve
a estar disponible para una futura selección). Y el “bsample” si uno desea
una muestra con reemplazo. Si la base de datos es muy extensa, probable-
mente los resultados de ambos comandos no se diferencien, dado que la
probabilidad de seleccionar un dato de una base inmensa, por una segunda
vez es muy baja. (La probabilidad de selección de un dato de la muestra
no cambia si es que la observación ha sido previamente seleccionada).
1.1. Muestreo Sin Reemplazo y Con Reemplazo

1.1.1. Muestreo sin Reemplazo
Digamos que deseamos crear una muestra del 10 % de nuestra actual
base de datos. Luego de aperturar la base de datos, contamos los elementos
para compararlos con el número de elementos luego del muestreo:
use base1, clear

count
sample 10
count
use base1, clear

sample 50, count
5
6 1. Técnicas de Muestreo
count
use base1, clear

sample 250, count
count
use base1, clear

sort prog
by prog: count
by prog: sample 15
count
by prog: count
use base1, clear

sort prog
by prog: count
sample 12 if prog == 3
count
sort prog
by prog: count
use base1, clear

sample 12 if prog != 3
count
sort prog
by prog: count
1.1.2. Muestreo con Reemplazo

use base2, clear
bsample 5
list
use base2, clear

bsample 4, weight(wt)
list
use base2, clear

bsample 1, strata(estrato)
list

1.2. Diseños Muéstrales 7
use base2, clear

bsample 3, cluster(conglomerado)
list
1.2. Diseños Muéstrales

Muchas personas no conducen sus propias encuestas. Mas aún, ellos
usan data de encuestas, que algunas agencias o compañías recolectan y ha-
cen viables al público. La documentación debería ser leida cuidadosamente
para encontrar que clase de diseño muestral fue usado para recolectar la
data. Es muy importante porque muchas de las estimaciones y errores es-
tándar son calculados de manera distinta para los diversos diseños mues-
trales. Si uno sub-estima los diseños muestrales, las estimaciones puntuales
y los errores estándar serán erróneos.
Las ponderaciones para los procesos muestrales son:
Weights: Son muchos tipos de pesos que pueden ser asociados con las
encuestas, quizá el más común de los pesos muestrales, es el pweight, que
es usado para denotar la inversa de la probabilidad de ser incluida en
la muestra conduciéndonos al diseño muestral (exceptuando las PSU). El
pweight es calculado como N/n, donde N es el número de elementos po-
blacionales y n es el número de elementos muestrales. Por ejemplo, si una
población tiene 10 elementos y 3 son muestreados aleatoriamente con re-
emplazo, entonces el pweight podría ser 10/3=0.33. En un diseño de dos
etapas, el pweight es calculado como f1f2, lo cual significa que la inversa de
la fracción muestral para la primera etapa es multiplicada por la inversa de
la fracción muestral de la segunda etapa. Bajo muchos planes muestrales,
la suma de los pesos es igual a la población muestral.
PSU: Es la unidad muestral primaria. Es la primera unidad que es

muestreada en el diseño. Por ejemplo, los distritos de escuelas para Li-
ma, las escuelas dentro de los distritos serán muestreados. Los distritos
podrían ser las PSU. Si los departamentos de Perú son muestreados y los
distrios dentro de cada departamento y las escuelas dentro de cada dis-
trito, entonces los departamentos serán los PSU. No es necesario usar los
mismos métodos de muestreo para todos los niveles, por ejemplo la pro-
babilidad proporcional para el tamaño de la muestra puede ser un primer
nivel (para seleccionar el departamento), mientras un muestreo por cluster
o conglomerado es usado para el segundo nivel (para seleccionar los dis-
tritos).

Strata: La estratificación es un método para quebrar la población en di-

ferentes grupos, a menudo por variables demográficas tales como genero,
raza o sistema de evaluación. Una vez que estos grupos han sido definidos,
uno muestrea cada grupo como si fuera independiente de todos los otros
grupos. Por ejemplo, si una muestra esta siendo estratificada por género,
hombre y mujer, deberá ser muestreada independientemente por otra. Esto
significa que los pweights para hombres serán diferentes de los pweights
de las mujeres. En muchos casos, uno necesita tener dos o más PSU en ca-
da estrato. El propósito de la estratificación es proveer de una precisión de
los estimadores y trabajar las estratificaciones más efectivamente cuando
las varianzas de las variables dependientes son más pequeñas dentro del
estrato comparado con la muestra total.
FPC: La corrección de la población finita. Esto es usado cuando la frac-

ción muestral (el número de elementos o respuestas relativas muestreadas
para la población) llega a ser mayor de lo esperado. La FPC es usada en el
cálculo de los errores estándar estimados. Si el valor de la FPC es cercano a
uno, se tendrá pequeños impactos y podrán ser ignorados. La formula de
calculo CPF es (( N − n)/( N − 1))( 1/2), donde N es el numero de elemen-
tos en la población y n es el numero de elementos de la muestra.
En el siguiente ejemplo, nosotros trabajaremos con una data que repre-

senta a una población y discutiremos el análisis de esta data como si ellas
hubieran sido recogidas bajo cinco planes muestrales: Muestreo aleatorio
simple, Muestreo aleatorio estratificado, muestreo sistemático, muestreo
por cluster en una etapa, muestro por cluster en dos etapas con estratifica-
ción.
1.3. Técnicas de Muestreo

1.3.1. Muestreo Aleatorio Simple
Comenzaremos mostrando como puedes tomar un muestreo aleatorio
simple (MAS) de tu base de datos. Este muestreo es raramente usado en la
practica, sin embargo los investigadores a menudo obtienen un MAS de su
data y así se puede trabajar con una base mas pequeña.
use escuelas, clear

count
set seed 123456789
sample 5
count

1.3. Técnicas de Muestreo 9
gen pw = 6194/310
Luego, nosotros consideraremos cuan largo es nuestra muestra relativa-
mente a nuestra población para determinar si nosotros necesitamos usar un
corrector de población finita. Nosotros necesitamos dar la población total,
y Stata realizara los cálculos necesarios para obtener el FPC.
gen fpc = 6194
recode awards (1=0) (2=1)

Nosotros usaremos el comando “svyset” para decirle a STATA sobre
las características del diseño muestral que nosotros tenemos. En este caso,
nosotros solo necesitamos especificar el pweight y el FPC.
svyset [pweight=pw], fpc(fpc)
Luego usamos el comando “svydes” para mostrar la información que
STATA tiene respecto a nuestro plan muestral, como se observa el numero
de UMP y las observaciones son las mismas lo cual asegura que STATA
entiende que tenemos un MAS. Nosotros también vemos que hay solo una
estratificación, lo cual es corregido por este tipo de comandos (a menos
que tu desees cambiar algo). También, al guardar la data, STATA guardara
la información de la encuesta con la data, así que cuando se aperture la
base de datos, la información de la encuesta será usada cuando se digite el
comando “svy”.
Nosotros empezamos nuestro análisis de los datos con algunas estadís-

ticas descriptivas.
svy: mean api00 growth
svy: total yr_rnd

Ahora realizaremos una regresión multiple. La diferencia entre el co-
mando “svy:reg” y “reg” es como los errores estándar son calculados, el
primero toma en cuenta el plan de muestreo mientras que el segundo no.

svy: reg api00 awards meals
1.3.2. Muestreo Aleatorio Estratificado

Considera que al interior del universo existen estratos (subgrupos inter-
namente homogéneos pero cualitativa y cuantitativamente diferentes entre
sí), y que no se cumple la condición de selección aleatoria pues los miem-
bros del grupo mayoritario tienen una mayor probabilidad de ser seleccio-
nados en la muestra.
La diferencia entre este muestreo y el MAS, es que ahora se conside-

ra una estratificación en el diseño muestral. Por ejemplo, nosotros hemos
calculado la media de api99 y estratificamos escuelas basados en esta. Las
escuelas sobre la media fueron puestas en un estrato, y las escuelas que
están debajo de la media fueron puestas en otro.
use escuelas, clear

summ api99
gen estrato = 1
replace estrato = 2 if api99 > 631
sort estrato
by strat: count
set seed 123456789

bys estrato: sample 10
bys estrato: count
gen pw = 3099/310 if estrato == 1
replace pw = 3095/310 if estrato == 2
gen fpc = 3099 if estrato == 1
replace fpc = 3095 if estrato == 2

save estratificado, replace

svyset, clear
svyset [pweight = pw], strata(estrato) fpc(fpc)
svydes
Usamos el comando “svy:mean” para conseguir la estimación poblacio-

nal de la media de api00. Luego usamos el comando “estat effects” para
lograr el diseño del efecto. Note que el valor del efecto diseñado es etique-
tado con DEFF en las salidas. El efecto de diseño compara el diseño mues-
tral actual (en este caso, el muestreo aleatorio estratificado) con el muestreo
aleatorio simple. El efecto de diseño que son menores a uno indican que
el diseño corriente es mas eficiente que el MAS mientras que efectos de
diseño que son mayores a uno indican que el diseño muestral actual es
menos eficiente que el MAS. Aquí nosotros podemos ver el beneficio de la
estratificación.

estat effects
En los resultados de “svy: total” que se muestra se observa que el efecto

diseño no es menor a uno, en otras palabras nosotros logramos menores
beneficios de la estratificación. Esto es porque no hay mucha relación entre
api99 y yr_rnd. El punto aquí es, uno necesita estratificar variables rela-
tivamente cerca a las variables de interés. En muchos casos, esto significa
que la estratificación puede hacer algunas estimaciones más eficientes que
otras.
svy: total yr_rnd
Cuando las estimaciones son hechas para cada estrato, son hechas in-
dependientemente de los otros estratos, en otras palabras las estimaciones
de yr_rnd para el estrato 1 fueron hechas de manera independiente de las
estimaciones del estrato 2. También note que la suma de las estimaciones
de los estratos uno y dos iguala el valor anterior
svy: total yr_rnd, over(strat)
Ventajas del MAE sobre el MAS:
Seguridad de que todos los subgrupos de la población serán mues-

treados.
Análisis de cada subgrupo por separado y análisis global.
Limitantes del MAE:

Contar con la variable auxiliar para cada elemento de la población.

Cada elemento debe ser clasificado en un grupo.
Para definir el tamaño de muestra se requieren estimaciones iniciales.
Se supone que la estimación está centrada en la global y no en la de
subgrupos.
1.3.3. Muestreo Sistemático

El muestreo sistemático es quizá el procedimiento de selección que se
conoce mas ampliamente. Se utiliza comúnmente y es sencillo de aplicar;
consiste en tomar cada unidad k-ésima de muestreo después de un arran-
que aleatorio. Constituye una alternativa de la selección aleatoria e inde-
pendientes de unidades de muestreo y a veces se llama pseudoaleatorio. A
menudo se usa conjuntamente con la estratificación y con el muestreo de
conglomerados.
El muestreo consiste en abstraer una muestra de elementos que son or-

denados de manera sistemática, por ejemplo, tu puede tener una muestra
sistemática de libros seleccionando cada k-esimo libro de los libros en una
repisa. Por supuesto, primero necesitas determinar el tamaño de la muestra
que deseas seleccionar. Hay 6194 escuelas en nuestra muestra y nosotros
podríamos desear usar un muestreo sistemático para seleccionar un tama-
ño muestral de 500. Primero, necesitamos determinar la tasa con la cual
las escuelas serán seleccionadas. Haremos esto dividiendo el numero de
elementos por el numero deseado de muestra. Aquí k=6194/500=12.38, la
cual nosotros redondeamos a 13. De esta manera, nosotros seleccionamos
cada 13 escuelas.
use escuelas, clear
Para hacer la selección, tomamos la parte entera (obtenida con la fun-
ción int) y un número aleatorio. Multiplicamos por 13, porque deseamos
que 13 sea el límite superior de los números generados. Añadimos uno
para nuestro número aleatorio, porque el número retornado por la función
aleatorio tiene rango entre 0 y 12.9, si añadimos uno y tomamos la parte
entera del número, tendremos un número aleatorio entre 1 y 13. El alea-
torio seleccionado fue 4. Aquí empezamos a seleccionar nuestras muestras
cada 13va escuela, comenzando de la cuarta.

set seed 123456789

di int(uniform()*13)+1
Para seleccionar la muestra, nosotros ordenamos la data por el numero

de escuela (snum), borramos las primeras tres escuelas y generamos una
nueva variable, la cual llamaremos “y”, que es el modulo del numero de de
escuela dividido por 13. Nosotros borramos todos los casos para los cuales
“y” no es igual a cero y usamos el comando count, para determinar cuantas
escuelas están en nuestra muestra.
sort snum
drop if _n < 2
gen newsno = _n - 1
gen y = mod(newsno,13)
drop if y != 0
count
di 6194/13
gen pw = 6194/477
gen fpc = 6194

label define yesno 0 no 1 yes
label values awards yesno
svyset [pweight = pw], fpc(fpc)

svydes
estat effects
Note que el efecto de diseño para las variables es uno. Esto no es por-
que estamos en un muestreo sistemático necesariamente, simplemente es
un eficiente MAS. El efecto de diseño es influenciado por la estratificación
y la PUS. En ambos, MAS y MS, nosotros dejamos los estratos o PSU. Aquí
el software, nos dice que no podemos muestrear los dos planes muéstrales
separados, porque la especificación del diseño muestral es exactamente el
mismo que el MAS, el efecto diseño es uno. Sin embargo, uno puede cal-
cular el efecto diseño por un lado, dividiendo la varianza de la variable de
interés bajo el diseño muestral actual por la varianza de la misma variable
bajo el MAS. Nosotros hacemos esto y encontramos que el diseño mues-
tral es cercano a uno. Nosotros encontramos que para api00 es 0.96 y para
growth es 0.93 y 1.2 para yr_rnd.

svy: total yr_rnd
Mostramos el uso del comando “svy:tab” que puede ser usado para
hace una o dos cruces de tablas. Aquí nosotros hacemos el cruce de both y
awards. Los valores en las celdas son proporciones. Se puede usar la opción
“count” para obtener el total de cada celda. El comando “svy:tab” también
nos da el test chi cuadrado para estas dos variables. Nosotros podemos ver
que la relación entre ellas es estadísticamente significativas.
svy: tab both awards

svy: tab both awards, count
svy: reg api00 award meals
1.3.4. Muestreo por Conglomerado en Una Etapa

Este método de muestro es empleado para reducir el costo de mues-
trear una población cuando está dispersa sobre una gran área geográfica.
El muestreo por bloque consiste en dividir el área geográfica en sectores,
seleccionar una muestra aleatoria de esos sectores, y finalmente obtener
una muestra aleatoria de cada uno de los sectores seleccionados.
Se aplica cuando es difícil tener una lista de todos los individuos que
forman parte de la población de estudio, pero sin embargo sabemos que se
encuentran agrupados naturalmente en grupos.
Se realiza eligiendo varios de esos grupos al azar, y ya elegidos algu-

nos podemos estudiar a todos los individuos de los grupos elegidos o bien
seguir aplicando dentro de ellos más muestreos por grupos, por estratos,
aleatorios simples.

Para conocer la opinión de los médicos del sistema nacional de salud,

podemos elegir a varias regiones de Perú, dentro de ellas varias provincias,
y dentro de ellas varios centros de salud, y...
Al igual que en el muestreo estratificado, al extrapolar los resultados

a la población hay que tener en cuenta el tamaño relativo de unos grupos
con respecto a otros.
La idea es realizar conglomerados lo mas heterogéneos dentro de cada

uno de ellos y homogéneos entre sí.
En el muestreo por conglomerados, en lugar de considerar cada ele-

mento de la población, lo que consideramos son “conglomerados de ele-
mentos”. El proceso es elegir aleatoriamente uno o varios conglomerados y
la muestra estará formada por TODOS los elementos de los conglomerados.
En un muestreo de conglomerados de primera etapa, la data es dividida

en dos niveles, uno anidado en el otro. Al primer nivel, la data es agrupa-
da en conglomerados. Los conglomerados son seleccionados primero y son
llamados PSU. Todos los elementos de cada conglomerado seleccionado
son seleccionados en la muestra. Estos elementos representan el segundo
nivel de la data. En nuestra primera etapa de muestreo de conglomerados,
los distritos serán los conglomerados y las escuelas serán los elementos o
unidades muéstrales. Aquí, nosotros aleatorizamos la selección de distritos
y entonces seleccionamos todas las escuelas dentro de cada distrito selec-
cionado. Uno puede usar algún plan muestral para seleccionar los conglo-
merados, usaremos el MAE solo por simplicidad.
Típicamente los valores de un conglomeradoi son muy similares a al-

gún otro que los valores de la data en otros conglomerados. Por ejemplo,
si nosotros encuestamos personas en hogares, nosotros esperaríamos que
las personas en un hogar sean muy similar a alguna otra de otro hogar.
Desafortunadamente, esta peculiaridad hace que nuestros errores estándar
sean menos eficientes.
use escuelas, clear
Nosotros necesitamos crear una nueva data, dejando solo una fila pa-
ra cada distrito (dnum) y asi realizar el muestreo. Nosotros usaremos el
comando “contract” para esto. Conseguiremos el total del número de dis-
tritos, para usarlo en el cálculo de los “pweight” luego. Después, crearemos
una nueva variable, x, con valores aleatorios, ordenando la data sobre x, fi-
jando el “seed”, seleccionamos la muestra y vemos como los distritos son

seleccionados. Nosotros reordenamos la data sobre “dnum” y guardamos

la data fijada para usarla en una segunda parte de creación de la muestra.
contract dnum
count
set seed 1002

sample 25
count
sort dnum
keep dnum
save oscs.dta, replace
Ahora que sabemos que distritos han sido seleccionados, para hacer
nuestro muestreo, necesitamos poner la información en el total de la data.
Ordenamos el archivo en función de “dnum” y hacemos un “merge” de los
dos files. Borramos todos los casos que no son análogos y vemos que 1461
casos fueron seleccionados.
use escuelas, clear

sort dnum
merge dnum using oscs.dta
drop if _merge != 3
count
Luego creamos el pweight y el fpc, recordando que el pweight es basado

en el número de distritos en la población y el número de distrito seleccio-
nado en la muestra, no al número de casos (escuelas) en la muestra.
gen pw = (757/189)
gen fpc = 757
svyset [pweight = pw], fpc(fpc) psu(dnum)

svydes
svyset dnum [pweight = pw], fpc(fpc)

svydes
svy: total yr_rnd

1.3.5. Estratificación con Muestreo de Cluster en Dos Etapas

Ahora nosotros tomaremos un muestreo de Conglomerado en dos eta-
pas, también con el muestreo aleatorio estratificado ilustrado, el muestreo
para cada estrato será hecho de manera independiente para en cada es-
trato. Una segunda etapa en el muestreo del conglomerado significa que
los conglomerado serán muestreados y los elementos de cada uno de los
conglomerado seleccionados también serán muestreados.
Esto difiere del muestreo de conglomerado en una etapa, en que todos

los elementos en cada selección del conglomerado será seleccionada en la
muestra, en el muestreo de conglomerado en dos etapas solo algunos de los
elementos serán seleccionados en la muestra. En nuestro ejemplo nosotros
tomamos un MAS de los distritos (clusters) y entonces tomamos un MAS
de las escuelas (elementos). De la misma manera que uno pueda usar algu-
nos planes muestrales para seleccionar los conglomerado, uno puede usar
algunos planes muestrales para seleccionar los elementos dentro de los
conglomerado seleccionados; el plan muestral para seleccionar conglome-
rados no tienen que ser los mismos como los de la selección de elementos.
También se puede tener el uso del mismo plan muestral de un estrato como
para el siguiente, dado que estos estratos son independientes. Para obtener
la muestra usada, nosotros primero usamos la estratificación usada antes,
estratificando escuelas basadas en sus record promedio de api00. Luego
seleccionamos aleatoriamente el 25 % de los distritos de escuelas de ca-
da estrato. Finalmente, seleccionamos aleatoriamente tres escuelas de cada
distrito seleccionado. La elección de selección de tres escuelas, en oposición
de la selección de dos o cuatro escuelas, fue más arbitraria. Sin embargo,
cuando decidimos cuantos elementos seleccionar de un conglomerado, re-
cordamos que se necesita tener un numero suficiente de estimaciones esta-
blecidas, sin embargo, el hecho de que los valores de los datos de cada uno
de los conglomerados estén correlacionados tomando muchos de ellos es a
menudo una perdida de recursos, 200 elementos probablemente no serán
mas informativos que 100.
Para realizar este proceso, realizaremos cuatro pasos, primero creare-

mos el estrato, segundo, haremos el primer y segundo paso de muestreo
en el estrato 1 y tercero repetiremos el proceso en el estrato 2, cuarto con-
catenaremos los files para el estrato uno y el estrato dos, creando la data
para trabajar.
Primera parte: creando el estrato
Determinamos el punto de corte entre los dos estratos

use escuelas, clear

egen mean = mean(api99), by(dnum)
contract dnum mean
sum mean
histogram mean, xline(650) normal xlabel(350(50)950) freq
creamos la data para el estrato 1
use escuelas, clear

gen strata = 1
replace strata = 2 if mean > 650
drop if strata == 2
save apipops1.dta, replace
creamos la data para el estrato 2
use escuelas, clear

gen strata = 1
replace strata = 2 if mean > 650
drop if strata == 1
save apipops2.dta, replace
Ahora seleccionaremos nuestra muestra en el estrato 1, comenzaremos

determinando cuantos casos y clusters tenemos.
Trabajando en el estrato 1
use apipops1.dta, clear

count
codebook dnum
sort dnum
by dnum: gen n = _n
summ n
Seleccionaremos los conglomerados de la misma manera que hicimos

para la muestra de conglomerados de una etapa.

contract dnum
count
sample 25
count
sort dnum
save oscss1.dta, replace
sort dnum
merge dnum using oscss1.dta
drop if _merge != 3
count
sort dnum
by dnum: gen n = _n
summ n
Ahora seleccionamos las escuelas de cada distrito. Hemos decidido se-
leccionar tres escuelas de cada distrito. Si un distrito tiene tres o menos
escuelas, seleccionaremos la muestra de todas las escuelas. Para hacer esto,
crearemos una nueva variable aleatoria, “xx” por “dnum” y ordenandolo.
Luego creamos nuevas variables que nos digan el número de escuelas con
cada distrito (number) y el número total de escuelas con cada distrito (N).
Luego de borrar las escuelas con un número mayor a 3 ordenamos la data
en función a “dnum” y “number”. Finalmente, generamos “nn”, la cual es
el numero total de escuelas seleccionadas en cada distrito.
by dnum: gen xx = uniform()
sort dnum xx
by dnum: gen number = _n
by dnum: gen N = _N
drop if number > 3
count
sort dnum number
by dnum: gen nn = _N
Ahora estamos listos para crear los “pweight” y los “fpc”. Para una
muestra en dos etapas, la formula de pweights es f1*f2, donde f1 es la
inverse de la fracción muestral para el primer nivel (selección de los con-
glomerados) and f2 es la inversa de la fracción muestral para el segundo
nivel (selección de los elementos.
gen p1 = 377/94
gen p2 = N/nn
gen pwt = p1*p2
gen fpc = 377
save strata1.dta, replace

Luego realizamos el muestreo para el estrato 2. Aunque podríamos al-

terar el plan muestral en cualquier etapa 1, 2 o ambas, nosotros seguiremos
el mismo procedimiento que usamos en el estrato 1.
Trabajando el 2

count
codebook dnum
sort dnum
by dnum: gen n = _n
summ n
Seleccionando conglomerados
contract dnum
count
sample 25
count
sort dnum
save oscss2.dta, replace
sort dnum
merge dnum using oscss2.dta
drop if _merge != 3
count
sort dnum
by dnum: gen n = _n
summ n
Selección de escuelas dentro de los distritos
by dnum: gen xx = uniform()

sort dnum xx
by dnum: gen number = _n
by dnum: gen N = _N
drop if number > 3
count
sort dnum number
by dnum: gen nn = _N
gen p1 = 380/95
gen p2 = N/nn
gen pwt = p1*p2
gen fpc = 380
save strata2.dta, replace

1.4. Inspeccionando la ENAHO 21
Por ultimo concatenamos (stack) los datos con el estrato 2. También

creamos algunas variables que necesitamos para el análisis mostrado
append using strata1.dta

count
gen comp_imp1 = comp_imp - 1
recode awards (1 = 0) ( 2= 1)
gen meals3 = 2
replace meals3 = 1 if meals <= 33
replace meals3 = 3 if meals > 67
save strataboth.dta, replace
svyset [pweight = pwt], fpc(fpc) psu(dnum) strata(strata)
svydes
svyset dnum [pweight = pwt], fpc(fpc) strata(strata)

svydes
svy: total yr_rnd
svy: reg api00 awards meals
svy: logit comp_imp1 growth ell mobility
xi: svy: logit comp_imp1 growth ell mobility i.meals3
test _Imeals3_2 _Imeals3_3
1.4. Inspeccionando la ENAHO

Veamos algunas aplicaciones con la ENAHO, para ello usaremos las
bases de datos sumaria.
use sumaria-2006
tab mes
use sumaria-2007
tab mes
use sumaria-2008
tab mes
clear
use sumaria-2006
append using sumaria-2008
tab aÑo
append using sumaria-2007
sort aÑo
tab aÑo

save panel, replace
Iniciemos el proceso de muestreo.
use panel, clear

d
sum mieperho, detail
inspect mieperho
Existen 64284 observaciones
tab mieperho
d p201
tab mieperho
Esta variable considera todos aquellos que sean miembros del hogar,
salvo aquellos que sean pensionistas o trabajadores del hogar
tab aÑo pobreza
Se puede observar el nivel de pobreza por año
tab aÑo pobreza, row

tab pobreza
Quienes son pobres extremos, pobres no extremos, y no pobres
tab aÑo , sum(mieperho)
Dada la explosión demográfica se puede ver el incremento de personas

en el hogar por año
tab pobreza
tab pobreza if aÑo=="2006"
tab pobreza if aÑo=="2006", su( mieperho)
Podemos ver quienes son pobres extremos para el año 2006
tab aÑo pobreza, su(mieperho)

tab aÑo pobreza, su(mieperho) means
bys aÑo:tab pobreza
table aÑo pobreza, row col c(mean mieperho)
Especificamos el diseño muestral

1.4. Inspeccionando la ENAHO 23
svyset [pweight = factor]

svyset [pweight = factor], strata( estrato)
svyset [pweight = factor], strata( estrato) cluster( conglome)
svyset conglome [pweight = factor], strata( estrato)
svydes
tab estrato
svy: mean mieperho percepho

svy:mean mieperho percepho if(pobreza==3)
svy: mean mieperho, over(pobreza)
Aquí se estima la media de los miembros del hogar por clasificación de

pobreza
svy: mean mieperho, over( estrato)
Ahora estimaremos por proporciones
svy:prop pobreza
svy:prop pobreza if estrato==1
svy:prop pobreza, over(estrato)
svy: tab estrato pobreza
Se puede observar por celda la proporción de pobreza por estrato
svy: tab estrato pobreza if estrato==2
El índice de Pearson nos indicara si las medias son parecidas entre gru-
po o no
generate inghogm= inghog2d/12

gen gashogm= gashog2d/12
svy:reg gashogm inghogm
count
svy:reg, deft


Sesión 2
Análisis de Impácto
2.1. Introducción
Una gran parte de estudios de evaluación son cuasi-experimentales y se
basan en la aplicación de tecnicas microeconométricas aplicadas a la infor-
mación proporcionada por fuentes secundarias.
Entre las técnicas cuasi-experimentales el Propensity Score Matching (PSM)
se aplica cada vez más en la comunidad de evaluación de políticas. Se ex-
plica de qué modo, en base al supuesto de independencia condicional junto
con la hipótesis de soporte común, puede reducirse el sesgo de selección
cuando la participación en un programa se determina a través de un mo-
delo de participación especificado con variables que miden características
observables. Se contemplan los principales aspectos técnicos de forma sen-
cilla, abordándolos desde una perspectiva conceptual, que permita la com-
prensión de la metodología y su aplicación al trabajo empírico.
2.2. Evaluación de Impacto

En todas las actividades de evaluación de programas es de interés fun-
damental conocer si una intervención concreta, tal y como ha sido dise-
ñada, es eficaz en el logro de sus objetivos principales. Una intervención
bien diseñada (o “tratamiento”) generalmente se basa en la teoría y la evi-
dencia empírica, articulada en torno a los mecanismos de intervención del
colectivo implicado en el proyecto, que en la práctica suele ser complejo e
interdisciplinar, para lograr sus objetivos y producir los resultados desea-
dos.
El principal reto de la evaluación de impacto, para que sea creíble, es la
construcción de la hipótesis resultado, es decir, lo que habría sucedido a
los participantes en ausencia de tratamiento. Este fenómeno es inobserva-
ble por su propia definición, es lo que se denomina resultado contrafactual,
y tiene que ser estimado utilizando métodos estadísticos dado que no se
25
26 2. Análisis de Impácto
puede observar.
La pregunta relevante podría ser: ¿Existe alguna actuación deliberada,

a veces llamada tratamiento o variable independiente que causa un cambio
en determinados resultados o variables dependientes, con una vinculación
teórica entre ellos? Desde una perspectiva de evaluación de programas pú-
blicos, los tratamientos incluyen programas y políticas de gobierno, legis-
lación e innovaciones de la gestión pública.
Las unidades participantes pueden diferir en características medibles

y no medibles. Desde una perspectiva de evaluación, las diferencias me-
dibles (por ejemplo, edad, peso, altura, número de hijos, ingresos, nivel
de estudios) no son problemáticas, ya que pueden ser controladas en los
análisis estadísticos, si bien puede suponer un esfuerzo considerable reco-
pilar y disponer de los datos. Sin embargo, las diferencias imposibles de
medir (por ejemplo, la inteligencia, la motivación, el altruismo) son mucho
más problemáticas, porque si están relacionadas con las medidas de resul-
tado, pueden tener grandes efectos sobre las estimaciones de los impactos
del programa. Hacer caso omiso de características pertinentes no medidas,
normalmente sesga las estimaciones de los impactos del programa. Esta
fuente de sesgo se llama sesgo de selección o sesgo de auto-selección si los
participantes son voluntarios para el tratamiento.
A pesar de que la asignación aleatoria al tratamiento, que se realiza en la

evaluación experimental, es una herramienta extraordinariamente útil para
la evaluación, no siempre es factible ni a veces siquiera deseable su utili-
zación. Además de lo costosa que puede resultar obtener la cooperación
de los responsables y participantes en el proyecto en estudio que se trata
de evaluar, un diseño de asignación aleatoria exige que la planificación,
desarrollo e implementación se realice antes del inicio de la intervención.
Se trata en estos casos de evaluaciones “ex ante”. Pocos estudios de evalua-
ción han sido diseñados antes de la ejecución del programa, en estos casos
se pueden realizar diseños cuasi- experimentales para evaluar los progra-
mas.
La evaluación “ex post” también tiene ventajas, no exclusivamente de

costes. En muchos casos permite aprovechar una información que ya exis-
te, procedente de la gestión y puesta en marcha del programa que no se
tiene a priori, con lo que elementos desconocidos del proceso que puedan
producir disfunciones es factible que sean tenidos en cuenta introducién-
dolos como información adicional que permita una evaluación más realista
y certera. A menudo los métodos no experimentales son necesarios para
abordar las evaluaciones de forma más global y completa.

2.3. Sesgo de Selección 27
El PSM utiliza la información de un grupo de unidades que no parti-

cipan en la intervención y tienen características observables similares a los
que participan, para identificar lo que habría ocurrido a las unidades par-
ticipantes en ausencia de la intervención. La clave es buscar y construir un
grupo de comparación válido (contrafactual) para calcular la diferencia de
los resultados entre los participantes y los no participantes que son simila-
res desde el punto de vista observacional. De esta forma es posible estimar
los efectos de la intervención.
2.3. Sesgo de Selección

La idea general del procedimiento PSM es sencilla. En ausencia de un
diseño experimental la asignación al tratamiento es con frecuencia no alea-
toria, y por lo tanto, los participantes en el tratamiento y los excluidos
pueden variar no sólo en cuanto ser o no participantes, sino también en
otras características que afecten tanto a la participación como al resultado
de interés para la evaluación. Para evitar los sesgos que esto puede generar,
los métodos de emparejamiento (matching) tratan de encontrar una unidad
no tratada que sea “similar” a una unidad participante, lo que permite una
estimación del impacto de la intervención como la diferencia entre el resul-
tado de un participante y el caso de comparación emparejado. Calculando
la media de todos los participantes y la de los no participantes “empare-
jados”, el método proporciona, a través de la diferencia de medias, una
estimación del impacto medio del programa para los participantes.
El mayor reto en la evaluación de cualquier intervención o programa

es obtener una estimación fiable del denominado contrafactual es decir de
la situación contraria: ¿Qué habría sido de las unidades participantes si no
hubieran participado? Sin una respuesta creíble a esta pregunta, no es posi-
ble determinar si la intervención ha influido realmente en los resultados de
los participantes o no. Sin embargo, como su nombre indica, es imposible
observar la situación contraria que solamente puede ser estimada.
La evaluación del programa se enfrenta por tanto a un problema de

falta de datos, ausencia de información suficiente para el investigador, que
el estadístico Paul Holland1 considera el problema fundamental de la infe-
rencia causal: es imposible observar los resultados de la misma unidad en
condiciones de tratamiento y al mismo tiempo en condiciones de no recibir
el tratamiento (Holland 1986), no es factible observar al individuo que está
1 Véase Holland (1986).

en un programa y al mismo tiempo no está.
En principio, una posible solución a este problema consiste en calcular

un resultado hipotético basado en un grupo de no participantes y calcular
el impacto de la intervención como la diferencia en el resultado medio entre
los grupos: diferencia de medias entre el grupo de tratados y no tratados.
Sin embargo, este planteamiento sólo es válido en una situación muy preci-
sa: el grupo de comparación debe ser estadísticamente equivalente al grupo
tratado. En otras palabras, los grupos deben ser idénticos, excepto por el
hecho de que uno de ellos recibió el tratamiento. Por lo tanto, la principal
preocupación es cómo encontrar un grupo de comparación adecuado.
Sin tener un grupo de comparación válido, no es posible atribuir al
programa la causa de los efectos que se tratan de evaluar. Cuando existe
sesgo de selección porque no existe una asignación aleatoria de los parti-
cipantes a un programa, los grupos de participante y no participantes no
son comparables a efectos de resultados medibles u objetivos definidos por
indicadores. La ausencia de aleatoriedad genera sesgos dado que los gru-
pos no son comparables. Para eliminar o corregir estos sesgos, es preciso
construir un grupo de comparación válido acudiendo a técnicas cuasi ex-
perimentales como el PSM.
Con carácter general, los estudios cuasi-experimentales y no experimen-

tales que tratan de corregir estadísticamente el sesgo de selección, suelen
tener mayor credibilidad que los estudios en los que se ignora por comple-
to el sesgo de selección.
Uno de los temas críticos en la aplicación de técnicas de matching es

definir claramente y justificar lo que significa “similar”. Aunque puede ser
relativamente sencillo asignar una unidad de comparación basada en una
única característica observable, en la práctica, para que el proceso de mat-
ching logre eliminar el sesgo potencial, tiene que hacerse considerando una
amplia gama de variables observables y observadas en las que las unida-
des de tratamiento y de comparación pueden variar. Lo que introduce el
denominado problema de la dimensionalidad.
Cuando se trabaja con múltiples variables X, no está definida con clari-

dad la idea de proximidad. Rosembaum y Rubin resolvieron este problema
proponiendo el cálculo de una medida única el propensity score (PS), pro-
babilidad estimada de participación en el programa mediante un modelo
probit o logit16 con variables explicativas X. Los resultados de Rosembaum
y Rubin forman la base teórica del propensity score matching (PSM): la
probabilidad de participación en un programa estimada a través del PS re-
sume toda la información relevante contenida en las variables X. La idea

2.4. Requicitos de las bases de datos 29
de proximidad en PS se define con claridad proporcionando una solución

excelente al problema, cuya mayor ventaja consiste en la reducción de la
dimensionalidad, que permite emparejar por una única variable (PS) en lu-
gar de un conjunto completo de variables observadas X.
2.4. Requicitos de las bases de datos

Los datos necesarios para el PSM han de permitir que se cumpla el
supuesto de independencia condicional, es decir que una vez contro-
ladas todas las características observadas relevantes, las unidades de
comparación deberían tener, en promedio, el mismo resultado que las
unidades de tratamiento hubieran tenido en ausencia de la interven-
ción.
El investigador debe tener acceso a un gran número de variables con

suficiente calidad para realizar las estimaciones.
La investigación empírica realizada en evaluación de impacto ex post,

ha mostrado que también es importante que los datos de las unida-
des de tratamiento y los de las unidades de control procedan de las
mismas fuentes, con los mismos instrumentos de recogida, mismas
unidades de medida y mismas definiciones.
Es muy importante dar un tratamiento similar a los valores missing

para las unidades tratadas y no tratadas.
Es conveniente que los datos estén tomados en el mismo momento

de tiempo en lugar de que exista un desfase temporal que provoque
alteraciones importantes en los conceptos, definiciones, sistemas de
codificación etc., a efectos de validez de la comparación.
2.5. Efecto Tratamiento Promedio ATE

Con el fin de estudiar la identificación del efecto causal, formalicemos lo
expuesto por Neyman-Rubin concentrándonos en un caso especial. Supon-
gamos que deseamos conocer el efecto de un tratamiento d (por ejemplo
una política) sobre alguna variable de interés yi (un resultado).Aunque el
tratamiento podría ser en diferentes intensidades, y al mismo tiempo los
resultados podrían ser múltiples, vamos a simplificar el análisis conside-
rando que el tratamiento d es binario, tomando el valor 1 si la unidad
recibe el tratamiento y 0 si no la recibe.
Tenemos una población U de unidades, algunas de los cuales recibirá un

tratamiento. Cada unidad i puede ser descrita por el siguiente conjunto:
y0i = resultado potencial si la unidad i no recibio el tratamiento

y1i = resultado potencial si la unidad i recibio el tratamiento
xi = vector de caracteristicas observables de la unidad i
ei =vector de caracteristicas no observables de la unidad i
Cabe mencionar que la condición de observable o no observable de las

características se define desde el punto de vista del investigador o evalua-
dor de la política.
El efecto tratamiento individual para una unidad i, no esta identifica-

do pues uno de sus elementos no es observable. Sin embargo podría ser
más conveniente analizar el efecto tratamiento promedio para la población.
Omitiendo el subíndice i , el ATE es el parámetro poblacional:
δ = ATE = E(y1 − y0 ) = E(y1 ) − E(y0 )
El peligro de cometer un error con una estimación de esta manera se

basa en el conocido “problema de la selección”: la no observación de los
valores de i y0 y y1 para algunos individuos podría responder a una con-
ducta sistemática de los individuos o de los otorgantes del beneficio.
Supongamos que el tratamiento o política ha sido aplicado a los indi-

viduos de una manera muy particular. Digamos que se ha realizado un
sorteo en donde cada individuo tiene la misma probabilidad de recibir el
beneficio. En tal caso, el tratamiento d será independiente de los resultados
potenciales y j .
ATE = δ = E(y1 − y0 ) = E(y1 ) − E(y0 ) = E(y1 |d = 1) − E(y0 |d = 0)
ATE = δ = E(y|d = 1) − E(y|d = 0)
Esto ocurriria bajo el supuesto de que los resultados potenciales sean esta-
dísticamente independientes de d.
Sin embargo, no es necesario un supuesto tan fuerte, como el de inde-
pendencia, para que se cumpla este resultado. Una condicion mas de-
bil que es implicada por el supuesto de independencia es que y0 y y1
son independientes en medias de d si E(y j |d)=E(y j ), para j = 1, 0. Equivalente,
E(y j |d = 1)=E(y j |d = 0).
Y bajo esta condición se cumple también que el ATE coincide con la
diferencia E(y|d=1) = E(y|d=0).

2.6. Efecto Tratamiento sobre los Tratados ATET 31
2.6. Efecto Tratamiento sobre los Tratados ATET

Es frecuente que los programas no tengan aplicabilidad universal sino
solamente en parte de la población. En tal caso el impacto del programa
se mide únicamente en el grupo tratado, pues nos interesa comparar la
situación real del grupo beneficiario con la situación contrafactual de ellos
mismos en el caso hipotético de que no hubieran recibido el beneficio del
programa, sin importarnos mucho el efecto sobre los no tratados. A este
impacto se le llama el Efecto Tratamiento Promedio en los Tratados o ATET.
δT = ATET = E(y1 − y0 |d = 1) = E(y1 |d = 1) − E(y0 |d = 1)

Con la información disponible, el primer término de ATET está ple-
namente identificado pues es solamente la esperanza condicional del re-
sultado dado que los individuos participaron en el programa, es decir
E(y|d = 1). En cambio el segundo término no esta identificado pues no
disponemos de información del resultado potencial y0 cuando d = 1.
El termino será identificable si se supone que y0 es independiente en

media de d, es decir E(y0 |d = 1) = E(y0 |d = 0). En tal caso se pue-
de estimar el segundo componente de ATET con un análogo muestral de
E(y|d = 0). En términos intuitivos este supuesto quiere decir que el tra-
tamiento ha sido asignado entre los individuos de los grupos de benefi-
ciarios y no beneficiarios independientemente del resultado potencial que
ellos hubieran obtenido sin tratamiento, y0 .
Los resultados mencionados se pueden generalizar si se condicionan a

las características observables x, lo que podría entenderse como limitar el
análisis a una subpoblación con características x. Por ejemplo, se podría
calcular el efecto tratamiento promedio según el sexo de la persona, o su
nivel educativo, su estado civil, etc.
Las definiciones de ATE y ATET con condicionamiento a x son: ATE| x =

E(y1 − y0 | x ) y ATET | x = E(y1 − y0 |d = 1, x ). En tal caso los supuestos
identificadores de estos parámetros se generalizan como:
y j es estadísticamente independiente de d, dado x
y0 y y1 son independientes en media condicional de d dado x: E(y j |d, x ) =
E(y j | x ) para j=0,1.
Cuando se condiciona por x , es frecuente hacer un supuesto adicional so-
bre la existencia de individuos beneficiarios y no beneficiarios para cada
subpoblación x, al cual se le conoce como supuesto de matching o “over-
lapping”.

0 < Pr (d = 1| x ) < 1
Con lo que se tendría que:
E(y1 − y0 | x ) = E(y1 | x ) − E(y0 | x ) = E(y1 |d = 1, x ) − E(y0 |d = 0, x )
E(y1 − y0 | x ) = E(y|d = 1, x ) − E(y|d = 0, x )

Si asumimos que el tratamiento se asigna completamente al azar (me-
diante un sorteo simple), entonces el tratamiento d sera tambien indepen-
diente de las caracteristicas observables y no observables de los individuos
( xi , ei ), las cuales se encontraran balanceados entre los grupos de benefi-
ciados y de control.
La aleatorización del tratamiento d hace que la diferencia de promedios

sea un estimador consistente de ATE (y ATET). Pero, ¿de dónde proviene
la idea de la aleatorización del tratamiento? Existe en la ciencia un proce-
dimiento conocido como experimento aleatorio controlado, el cual se con-
sidera como el “gold standard” de la evaluación de impacto por cumplir
(casi) perfectamente la condición de aleatorización de d.
2.7. Propensity Score Matching PSM

El Propensity score matching (PSM), es un algoritmo que empareja par-
ticipantes y no participantes en un programa, en base a la probabilidad
condicional de participar (PS), dada una serie de características observa-
bles. Si los resultados son independientes de la participación, condiciona-
da en variables observables, utilizar el grupo de comparación obtenido de
esta forma, permite lograr un estimador no sesgado del impacto medio del
programa.
El PSM es una de las innovaciones más importantes en el desarrollo

aplicado de los métodos de emparejamiento, resuelve el problema de la
dimensionalidad sintetizando toda la información que proporcionan múl-
tiples variables en una variable única, permitiendo realizar el matching con
una sola dimensión. El PSM se define como la probabilidad de que una uni-
dad de la muestra combinada de participantes y no participantes reciba el
tratamiento, a partir de un conjunto de variables observadas. Si toda la in-
formación relevante para la participación y los resultados es observada por
el investigador, el PSM (probabilidad estimada de participación) produce
emparejamientos válidos para estimar el impacto de una intervención. Por
lo tanto, en lugar de intentar que coincidan en todos los valores de las va-
riables observadas, los casos pueden ser comparados sobre la base del PSM

2.8. Algoritmos de Matching 33
exclusivamente.
Existen fundamentalmente dos tipos de algoritmos de matching: el nea-

rest neighbor matchig (vecino más próximo) que empareja una unidad par-
ticipante con la unidad del grupo de comparación que tenga el PS más
parecido y los métodos basados en kernel que emparejan a cada partici-
pante con un resultado calculado como una media ponderada kernel de
resultados de todos los no participantes.
2.8. Algoritmos de Matching

Cuando hay que elegir entre los diferentes algoritmos mediante los que
se trata de emparejar, en base al PS, unidades tratadas con unidades del
grupo de control hay determinadas cuestiones que deben ser tenidas en
cuenta. En primer lugar si se realiza el matching con o sin reemplazamien-
to, además de establecer una medida de proximidad, establecer un sistema
de ponderación y decidir cuantas unidades de comparación se emparejan
con cada unidad de tratamiento.
Historicamente, el matching uno a uno es el primero que se ha utiliza-

do. Se realiza mediante un muestreo sin reemplazamiento en el grupo de
comparación, es decir cada unidad del grupo de comparación unicamente
se empareja una vez y cada unidad participante tiene un enlace en el gru-
po de control. Los problemas en este caso se presentan cuando la hipótesis
de soporte comun deja amplias zonas de la distribución del PS sin sola-
par, y también cuando el grupo de comparación es muy reducido. En estos
casos las unidades tratadas se emparejan con otras que no son similiares.
Por ello muchas veces se utiliza el muestreo con reemplazamiento, y una
misma unidad del grupo de comparación se utiliza como pareja de varios
casos.
Las especificaciones alternativas al mathing uno a uno son mas recien-

tes. Si en lugar de un elemento del grupo de comparación se utilizan todos
los que tienen un PS próximo, las estimaciones utilizan mejor la informa-
ción disponible y son mas estables. El punto en contra es que si un mismo
elemento del grupo de comparación se utiliza muchas veces podría aumen-
tar el error de muestreo.
Entre los algoritmos de matching mas utilizados en la práctica y uno

de los que produce mejores resultados es el denominado nearest neighbor
matching (vecino mas próximo). Consiste sencillamente en elegir del gru-
po de comparación el elemento con el PS mas proximo. El sistema puede

utilizarse con o sin reemplazamiento. En el último caso hay un matching

uno a uno, en el primero un elemento del grupo de control es utilizado
mas de una vez.
El radius matchig debe emplearse cuando existe riesgo de un matching

muy pobre por alguna de las razones ya aludidas. Consiste en especificar
una distancia máxima del PS (caliper) dentro de cuyo radio se busca el
enlace. La idea es que no solamente se utiliza el mas proximo dentro del
radio sinó todos los que existan en el grupo de comparación que estén den-
tro del radio, sin limitación de número, con lo que se asegura que son tan
similares como se quiera establecer al definir el caliper.
El kernel matching es un estimador de matching no paramétrico que

compara el resultado de cada unidad tratada con una media ponderada de
los resultados de todas las unidades del grupo de comparación, utilizando
las mayores ponderaciones para las unidades con PS mas parecido al que
se compara. Este enfoque tiene como ventaja una varianza menor, la contra-
partida es que algunos emparejamientos pueden producirse con unidades
que no son similares. Cuando se aplica este enfoque, hay que asegurarse
que el grado de cumplimiento de la hipótesis de soporte común es eleva-
do. La aplicación de este sistema necesita decidir sobre el tipo de kernel,
generalmente Gaussiano y Epanechnikov, y el intervalo.
Todos estos algoritmos de matching implican una elección entre sesgo

y precisión, sin que exista una regla clara de cual es el mas indicado en
cada contexto. Es evidente que el nearest neighbor uno a uno garantiza
que se está utilizando la unidad mas similar para construir el contrafactual
minimizando el sesgo, pero al no tener en cuenta una gran cantidad de in-
formación del grupo de comparación aumenta la varianza, lo que implica
una pérdida de precisión. Cuando se utiliza muestreo con reemplazamien-
to, el aumento de precisión se realiza a costa de un contrafactual menos
similar.
2.9. Aplicación 1
PROJoven es un programa de capacitación laboral juvenil cuyo objeti-
vo es mejorar el acceso al mercado laboral formal de jóvenes de 16 a 24
años de edad y de escasos recursos económicos en situación de pobreza,
con bajos niveles de escolaridad y que se encuentren desempleados o sub-
empleados. A los jóvenes seleccionados (se aplica una ficha de evaluación
socioeconómica), se les brinda cursos de capacitación técnica básica de al-
rededor de 3 meses y se suscribe convenios para que realicen pasantías en

2.9. Aplicación 1 35
empresas.
Como parte de su sistema de evaluación Projoven contrata la medica-

ción de las características y variables de resultados (ingreso laborales, horas
de trabajo, inserción laboral) de una muestra de los beneficiarios y de un
grupo de jóvenes similares (potenciales controles) antes de iniciarse los cur-
sos del programa (Línea de Base) y después de seis meses, 12 y 18 meses
de concluido el programa (en el caso de la Sexta Convocatoria).
*Comparamos los ingresos laborales por hora entre beneficiarios y no

beneficiarios
table grupo, c(mean ingh1)

table grupo, c(mean ingh2)
ttest ingh1, by(grupo)
ttest ingh2, by(grupo)
*Comparamos valores en medias de las variables que influyen en los

ingresos y la participación en el programa (experiencia laboral, género,
realización de cursos de capacitación anteriores, estado civil).
table grupo, c(mean sexo mean exp)

table grupo, c(mean curso mean soltero1)
ttest sexo, by(grupo)
ttest exp, by(grupo)
ttest curso, by(grupo)
ttest soltero1, by(grupo)
*Estimamos la probabilidad de participación en el programa (Propensity

Score)
logit grupo hijo1 labsec1 edum curso ingfrp1 sexo secomp exp soltero1 colest1
predict psp
*o alternativamente
pscore grupo hijo1 labsec1 edum curso ingfrp1 sexo secomp exp soltero1 colest1, ///
pscore(myscore) blockid(myblock) logit
*Comparamos las distribuciones del propensity entre beneficiarios y no

beneficiarios.
kdensity psp, gen(prk eje)

kdensity psp if grupo==1, gen(pspb) at(eje)

kdensity psp if grupo==0, gen(pspc) at(eje)
lab var pspb "Propensity beneficiarios"
lab var pspc "Propensity controles"
sort eje
tw line pspb pspc eje if eje<1, xtitle(Propensity) ytitle(Densidad)
*Realizamos el emparejamiento (Matching) a partir del valor del propensity p

estimar el efecto tratamiento promedio con el criterio del vecino más cercan
(Nearest neighbor matching).
attnd ingh2 grupo hijo1 labsec1 edum curso ingfrp1 sexo secomp exp soltero1
comsup logit
attk ingh2 grupo hijo1 labsec1 edum curso ingfrp1 sexo secomp exp soltero1 c
comsup dots logit
*Comparando las distribuciones de los valores del propensity score una vez
emparejados los beneficiarios y controles.
drop myscore myblock

pscore grupo hijo1 labsec1 edum curso ingfrp1 sexo secomp exp soltero1 coles
pscore(myscore) blockid(myblock) comsup logit
graph tw (kdensity myscore if grupo==1) (kdensity myscore if grupo==0)
2.10. Aplicación 2
Se asume un programa de microcreditos para asignar villas de manera
aleatoria y asumiendo que no existe diferencia entre las villas del grupo de
control y de tratamiento. Se desea evaluar si el impacto del programa de
colocación sobre el gasto anual percapita por hogar. Se usará los datos de
hogares de 1998.
*Evaluación de impacto aleatorio sobre microcreditos

****************************************************
use casas_98, clear
d exptot thanaid villid dmmfd dfmfd
br exptot thanaid villid
gen lexptot=log(1+exptot) /**/
gen lnland=log(1+hhland/100)

gen vill=thanaid*10+villid
egen progvillm=max(dmmfd), by(vill)
egen progvillf=max(dfmfd), by(vill)
*calculamos el ATE del programa de colocaciones de villas, con un ttest comparando

*villas en controles y tratadas. Se muestra el efecto del programa de colocacion de
ttest lexptot, by(progvillf) /*existe diferencia sifnificativa, el programa de colo
incrementa el gasto percapita*/
reg lexptot progvillf

reg lexptot progvillf sexhead agehead lnland vaccess pcirr rice wheat milk oil egg
reg lexptot progvillf sexhead agehead lnland vaccess pcirr rice wheat milk oil egg
*Impactos de participaciòn en el programa
ttest lexptot, by(dfmfd)

reg lexptot dfmfd
reg lexptot dfmfd sexhead agehead educhead lnland vaccess pcirr rice wheat milk oi
*Capturando ambos programas de colocaciòn y participaciòn

reg lexptot dfmfd progvillf sexhead agehead educhead lnland vaccess pcirr rice whe
milk oil egg [pw=weight]
*Impacto del programa de participacion en el programa de villas

reg lexptot dfmfd if progvillf==1 [pw=weight]
reg lexptot dfmfd sexhead agehead educhead lnland vaccess pcirr rice wheat milk oi
if progvillf==1 [pw=weight]
*Medida de los spillover sobre el programa de colocaciòn de microcreditos

reg lexptot progvillf if dfmfd==0 [pw=weight]
reg lexptot progvillf sexhead agehead educhead lnland vaccess pcirr rice wheat mil
if dfmfd==0 [pw=weight]
*Matching
pscore dmmfd sexhead agehead educhead lnland vaccess pcirr rice wheat milk oil egg
pscore(ps98) blockid(blockf1) comsup level(0.001)
drop ps98 blockf1

pscore dfmfd sexhead agehead educhead lnland vaccess pcirr rice wheat milk oil egg
pscore(ps98) blockid(blockf1) comsup level(0.001)
*ATT
attnd lexptot dfmfd [pw=weight], pscore(ps98) comsup

atts lexptot dfmfd, pscore(ps98) blockid(blockf1) comsup

attr lexptot dfmfd, pscore(ps98) radius(0.001) comsup
attk lexptot dfmfd, pscore(ps98) bootstrap comsup reps(50)
nnmatch lexptot dfmfd sexhead agehead educhead lnland vaccess pcirr rice wh

Sesión 3
Modelos de Duración
El objetivo general de estos modelos es estudiar el tiempo que tarda

un determinado fenómeno en ocurrir o el tiempo en que un determinado
individuo permanece en un determinado estado. Para ello, debe definirse
un grupo de individuos en un estado inicial para quienes un determinado
evento claramente definido puede ocurrir en el futuro. Dicho evento se co-
noce como falla (failure), el cual ocurre luego de un tiempo (failure time) y
puede darse una sola vez por individuo. El ejemplo típico en esta tradición
es el fallecimiento de un paciente luego de una determinada intervención
quirúrgica o procedimiento médico. Así, la falla sería la muerte del indivi-
duo y se trata de estudiar el tiempo que sobrevivió desde la intervención
realizada (duración). Este tipo de información resulta sumamente valiosa
para la medicina ya que permite predecir la esperanza de vida de los pa-
cientes o las consecuencias de ciertos procedimientos médicos.
En resumen, los modelos de duración tienen una amplia aplicabilidad

en economía ya que pueden considerarse una forma alternativa (y cier-
tamente complementaria) de analizar los fenómenos sociales frente a lo
que ofrecen los modelos de corte transversal tradicionales o aquellos de
series de tiempo. Así, en un modelo de corte transversal el investigador es-
tá interesado en estudiar los determinantes de “estar” en un determinado
estado. Su naturaleza estática permite estudiar los eventos tal y como apa-
recen en la realidad en un momento determinado en el tiempo a partir de
las diferencias “entre” individuos en diferentes estados. Mientras tanto, los
modelos de series de tiempo analizan los determinantes de los “cambios”
de estado que presenta un determinado individuo a lo largo del tiempo.
Su naturaleza dinámica le permite estudiar individuos en continuo movi-
miento. Por contraste, un modelo de duración estudia el tiempo en que un
individuo “permanece” en un determinado estado o dicho de otro modo la
probabilidad de que cambie de estado, condicionado a que ha permanecido
cierto tiempo en un estado diferente.
39
40 3. Modelos de Duración
3.1. Tiempo de Falla

El tiempo de falla es el tiempo en que un individuo se mantiene en un
determinado estado o lapso de tiempo en que un fenómeno toma lugar.
Existen tres requisitos para definirlo de manera precisa:
El origen debe estar bien definido o estar establecido sin ambigüe-

dades. Se considera que el origen es la entrada de un individuo al
estado de la naturaleza inicial. Por ejemplo, el momento en que pier-
de el trabajo, cuando la huelga se inicia o cuando el pobre comienza
a recibir ayuda estatal. Esta representado por un punto específico en
el calendario. No es necesario que el origen o entrada de cada indivi-
duo sea el mismo, pero para cada uno de ellos debe estar identificado
precisamente.
La escala temporal debe ser precisa y común para todos los indivi-
duos. Normalmente se utiliza tiempo real: minutos, horas, días, sema-
nas, meses, años, décadas. Sin embargo existen otras opciones (algún
vector dimensión que reemplace al tiempo) dependiendo de la apli-
cación. En estadística aplicada, por ejemplo, una escala podría ser el
número de re-muestreos necesarios para que un determinado pará-
metro converja o en la industria automovilística se ha utilizado los
kilómetros que recorre un auto antes que una pieza falle. En econo-
mía normalmente es el tiempo real y el investigador solo debe tener
cuidado en que sea la misma escala para cada individuo y que no
cambie a lo largo de todo el experimento.
El concepto de falla debe estar claramente establecido. Al igual que

en el caso del origen o entrada, las condiciones de falla o salida de-
ben ser precisas, claras y factibles para todo individuo en el estado
de la naturaleza original. Por ejemplo, en el caso de duración del des-
empleo, la salida puede darse porque el individuo encontró trabajo,
porque inicio estudios, porque falleció, porque se desanimó y se re-
tiró del mercado de trabajo. El investigador debe ser claro en que
categorías incluirá en su análisis de modo que sus resultados sean
interpretables.
3.2. Censura
Los datos económicos utilizados en los modelos de duración por na-
turaleza están censurados. De este modo, en la modelación y en las esti-
maciones resultantes estarán presentes las consecuencias econométricas de
este problema (sesgo) si es que no se resuelve adecuadamente. El problema

3.3. Función de Riesgo 41
surge porque la observación en este tipo de aplicaciones es la duración de

un evento y típicamente la data es recogida en un momento en el tiempo
cuando para algunos individuos el proceso estará completo (observaciones
no censuradas), pero para otros individuos no (observaciones censuradas).
Por ejemplo, en el caso de desempleo imaginemos que se dispone de

una encuesta en Lima Metropolitana que ha recogido información acerca
de la participación en el mercado laboral de 100 individuos desempleados
durante el año 2008. Luego, supongamos que 10 de estos individuos logran
encontrar empleo en marzo, 40 de ellos en julio y 20 en noviembre. Los 30
restantes continúan desempleados en diciembre cuando la encuesta dejó de
ser aplicada. De este modo, para 70 individuos el proceso completo puede
observarse (datos no censurados), pero para 30 de ellos no (datos censura-
dos). Analizar la duración de desempleo para los 100 individuos bajo estas
condiciones dará como resultado, estimadores sesgado; problema que debe
resolverse durante la estimación. Más adelante en el curso se discute la co-
rrección, la cual como ya intuyó el alumno es mediante un procedimiento
similar a los modelos Tobit o Heckman.
3.3. Función de Riesgo

Un determinado individuo “entra” a un estado inicial en el momento
(T = 0) siendo T el tiempo en que el individuo se mantiene en dicho estado.
Luego, es posible definir a una persona que ha venido perteneciendo al
estado inicial por un lapso de tiempo y que cambiará de estado en un
periodo de tiempo t muy pequeño definido como ∆t, luego de t. De este
modo interesa investigar la siguiente probabilidad:
Pr [t ≤ T ≤ t + ∆t| T ≥ t]
Es decir interesa investigar la probabilidad que el tiempo de falla sea
entre t y t + ∆t (t ≤ T ≤ t + ∆t) condicionado a que el individuo continua
en el estado inicial al momento t (T ≥ t). Es simple, la condición implica
que el individuo no ha “salido” antes de t. Es posible dividir esta probabi-
lidad entre ∆t para obtener la probabilidad promedio de salida por unidad
de tiempo luego de t. Además interesa que esta unidad de tiempo sea muy
pequeña para introducir el concepto “instantaneo”. Así se calcula:
Pr (t ≤ T ≤ t + ∆t| T ≥ t)
Θ(t) = lı́m
∆t→0 ∆t
donde Θ(t) se conoce como la función de riesgo (hazard function) o
ratio de riesgo (hazard rate) y se define como el ratio instantáneo de salida
por unidad de tiempo en el momento t. Luego Θ(t)∆t, es la probabilidad

de salida del estado inicial en un intervalo de tiempo corto ∆t luego de t

condicionado a que en t, el individuo continua en el estado inicial. Nótese
que es posible definir también una probabilidad no condicionada, si es que
se deja de lado la condición T ≥ t. Este concepto es claramente diferente a
la función de riesgo definida antes.
3.4. La función de supervivencia (survivor)

Definamos la probabilidad Pr [ T < t] = F (t), donde F(t) representa una
probabilidad acumulada, y Pr [ T ≥ t] = 1 − F (t). Esta última es conocida
como la función de supervivencia e indica la probabilidad de que un de-
terminado individuo se mantiene en el estado inicial al menos t periodos o
en términos de frecuencias indica la proporción de individuos que “sobre-
viven” al menos t periodos o que para el periodo t continúan “vivos”. Por
su significado, conviene darle la siguiente notación:
S(t) = 1 − F (t)
3.5. Relación entre la función de supervivencia y

riesgo
Por la regla de probabilidades:
Pr [t ≤ T ≤ t + ∆t, T ≥ t]
Pr [t ≤ T ≤ t + ∆t| T ≥ t] =
Pr [ T ≥ t]
Donde:
Pr [t ≤ T ≤ t + ∆t, T ≥ t] = Pr [ T ≥ t|t ≤ T ≤ t + ∆t] ∗ Pr [t ≤ T ≤ t + ∆t]

Pr [t ≤ T ≤ t + ∆t, T ≥ t] = 1 ∗ Pr [t ≤ T ≤ t + ∆t]
Entonces:
Pr [t ≤ T ≤ t + ∆t]
Pr [t ≤ T ≤ t + ∆t| T ≥ t] =
Pr [ T ≥ t]
F (t + ∆t) − F (t)
Pr [t ≤ T ≤ t + ∆t| T ≥ t] =
1 − F (t)
Por lo que la función de riesgo seria:
Pr (t ≤ T ≤ t + ∆t| T ≥ t) F (t + ∆t) − F (t) 1

Θ(t) = lı́m = lı́m
∆t→0 ∆t ∆t→0 ∆t 1 − F (t)

3.6. La Función de Riesgo Acumulado 43
f (t) f (t)
Θ(t) = =
1 − F (t) S(t)
Siendo esta una versión mas corta de la función de riesgo.
3.6. La Función de Riesgo Acumulado

Podemos definir el logaritmo de la función de supervivencia log[S(t)] y
dlog(1− F (t))
hallar su derivada con respecto al argumento t. Así, dt = 1−1F(t) [− f (t)] =
Θ(t) con lo que lleva a la expresión general.
dlog[S(t)]
Θ(t) = −
dt
Por lo tanto se puede definir una función Λ(t) como la integral de Θ(t)
que dará como resultado:
Z t
Λ(t) = Θ(t)dt = −log[S(t)]
0
Donde Λ(t) sigue una distribución de valor extremo.
Para efectos del análisis econométrico más interesante que analizar la
función de supervivencia o la densidad es realizar estimaciones sobre la
función de riesgo. Es decir, se intenta estimar la probabilidad de salida
del estado inicial en un intervalo de tiempo corto condicionado a que el
individuo continua en el estado inicial. Así, la primera pregunta que se
hace el investigador es respecto a la relación de dependencia que existe
entre la probabilidad de salida y la duración en el estado inicial (es decir,
el tiempo). A la naturaleza de esta relación se le conoce como dependencia
de la duración y pueden darse tres casos:
Neutra (∂θ/∂t = 0). En este caso, el ratio de riesgo es constante o

no reacciona al periodo de duración. En otras palabras, un resulta-
do como este en economía laboral sugeriría que la probabilidad de
encontrar de empleo no depende del tiempo en que el individuo se
encuentra desempleado.
Positiva (∂θ/∂t > 0). En este caso el ratio de riesgo responde de

manera positiva al periodo de duración. En otras palabras, un resul-
tado como este en economía laboral sugeriría que la probabilidad de
encontrar de empleo aumenta en la medida que mayor es la dura-
ción del desempleo. Al respecto, ciertos modelos (searching models)
sugieren que en la medida que el individuo permanece mas tiempo
desempleado afina sus estrategias de búsqueda de empleo (conoce

más el mercado) y ello le permite mejorar su probabilidad de em-

plearse frente aun desempleados nuevo. Sin embargo, podría ser un
resultado muy débil en plazos prolongados.
Negativa (∂θ/∂t < 0). En este caso el ratio de riesgo responde de

manera negativa al periodo de duración. En otras palabras, un re-
sultado como este en economía laboral sugeriría que la probabili-
dad de encontrar de empleo se reduce en la medida que mayor es
la duración del desempleo. Este es un resultado común y sugiere que
un individuo que permanece desempleado mucho tiempo reduce su
probabilidad de re-engancharse con el mercado laboral. Las razones
expuestas varían desde factores psicológicos como el desánimo o ex-
plicaciones en términos de productividad y competitivas: permane-
cer mucho tiempo sin trabajar “oxida” al trabajador reduciendo su
productividad. Asimismo, una duración de desempleo prolongada
es una mala señal para los empleadores. Un resultado como este es
más común en economía laboral.
Tal relación de dependencia deberá ser modelada de acuerdo a distri-

buciones que el investigador defina ex - ante. Para ello, una primera opción
bastante difundida en la literatura es utilizar distribuciones continuas, es
decir, aquellas que ven al tiempo como una variable continua. Entre las
más populares están la exponencial, Weibull y Log-Logística. Cada una
ellas con diferentes opciones respecto a la relación de dependencia respec-
to a la duración.
3.6.1. Distribución Exponencial

La distribución acumulada de la distribución exponencial está dada por:
F (t) = 1 − e−θt
Siendo la función de supervivencia:
S(t) = 1 − F (t) = e−θt

Y la función de riesgo sería:
f (t) f (t) θe−θt

Θ(t) = = = −θt = θ
1 − F (t) S(t) e
con lo que se concluye que la función exponencial asume una depen-
dencia neutra respecto a la duración (∂θ/∂t = 0 ). Por esta característica es
que se considera que la función exponencial es “desmemoriada” ya que la
probabilidad de salida no depende del tiempo de duración. No importa si

3.6. La Función de Riesgo Acumulado 45
es que el individuo ha pasado mucho o poco tiempo en el estado inicial,

en ambos casos la probabilidad que “salga” es igual. Este tipo de distribu-
ciones es útil en ciertos experimentos de ingeniería, por ejemplo, en el caso
de estudiar la probabilidad de falla de componentes eléctricos.
Con una distribución exponencial, la función de riesgo está comple-

tamente descrita por un único parámetro θ y cada valor describe a una
función exponencial diferente lo que implica que existe una familia de
distribuciones exponenciales. Lamentablemente, esta distribución es poco
atractiva en economía. Primero, porque en los fenómenos por ser analiza-
dos, la probabilidad de salida tiende a mostrar relaciones más complejas
con respecto a la duración. Segundo, porque el hecho que solo tenga un
parámetro ajustable hace que los métodos de estimación basados en esta
distribución sean muy sensible a desviaciones pequeñas en la cola de la
distribución. Por estas razones es que normalmente se buscan alternativas
más flexibles.
3.6.2. Distribución Weibull

En contraste con la función de riesgo definida con la distribución ex-
ponencial la cual es invariante con el tiempo, en el caso de la distribución
Weibull se puede definir una función de riesgo monotónicamente creciente
o decreciente, dependiendo de sus parámetros. Esto, claramente, la hace
una opción más flexible. La función de distribución acumulada se define
de la siguiente manera:
α
F (t) = 1 − e(−λt)
donde α y λ son parámetros positivos. Por extensión la función de su-
pervivencia sería
α
S(t) = 1 − F (t) = e(−λt)
Así, la función de riesgo sería:
αλα tα−1 e(−λt)

α
f (t) f (t)
Θ(t) = = = = αλα tα−1
1 − F (t) S(t) e(−λt)
α
Alternativamente, en algunas aplicaciones se utiliza una forma más sim-

plificada de la función de riesgo de la Weibull:
Θ(t) = αλα tα−1

la cual es muy útil cuando se introducen covariables en el análisis a
través del parámetro λ.

La simplicidad de estas expresión y su flexibilidad para mostrar pa-

trones crecientes o decrecientes respecto a la duración ha hecho que esta
distribución sea ampliamente usada en econometría aplicada. Así, λ es co-
nocido como el parámetro de escala y α como el parámetro de forma. Justa-
mente este parámetro es el que definirá si es que Θ(t) es monotónicamente
creciente o decreciente con el tiempo. Así,
α > 1, implica que ∂Θ/∂t > 0 y sugiere que el ratio de riesgo respon-
de de manera positiva al periodo de duración.
α < 1, implica que ∂Θ/∂t < 0 y sugiere que el ratio de riesgo respon-
de de manera negativa al periodo de duración.
α = 1, implica que ∂Θ/∂t = 0 y sugiere que el ratio de riesgo no
responde al periodo de duración.
Sin embargo, es importante notar que la distribución Weibull permitirá

modelar procesos que sean solo crecientes o solo decrecientes y no aquellos
que muestren patrones combinados (primero creciente y luego decrecien-
tes, por ejemplo). Es posible que este comportamiento monotónico no sea
respaldado por la data, lo cual pude ser una dificultad en la estimación.
3.6.3. Distribución Log Logistica

Esta distribución a diferencia de la Weibull, permite comportamientos
monotónicos de la función de riesgo. Su función de distribución acumulada
se define como:
(λt)α
F (t) =
1 + (λt)α
y por extensión la función de supervivencia sería
1
S(t) =
1 + (λt)α
y la función de riesgo sería
αλα tα−1 2
f (t) f (t) [1+(λt)α
] αλα tα−1
Θ(t) = = = 1
=
1 − F (t) S(t) 1 + (λt)α
1+(λt)α
De este modo, el numerador de la función de riesgo en el caso de la
log-logística es idéntico al de la Weibull, pero resulta mas flexible debido
al denominador. En tales casos, se puede demostrar que cuando
α > 1, la función de riesgo aumenta hasta un máximo y luego decrece

definiendo una U invertida

3.7. Estimación por Máxima Verosimilitud 47
α < 1, la función de riesgo decrece monotónicamente
Estos resultados y el comportamiento definido por esta distribución es

muy parecido a lo que ocurre con la distribución log-normal, sin embargo,
las expresiones son mas sencillas y a la vez pueden computarse con mayor
facilidad. El tipo de modelos basados en la log-logística será muy útil para
fenómenos donde se presuma una relación de dependencia de la duración
no monotónica.
3.7. Estimación por Máxima Verosimilitud

Los parámetros λ y α de la función de riesgo proveniente de la Weibull
pueden ser estimados por máxima verosimilitud. Las funciones de verosi-
militud por resolver en este caso serán muy parecidas a las de un modelo
Tobit censurado estándar. De ese modo, la función de verosimilitud toma
la forma:
L= ∏ f (t|χ) ∏ S(t|χ)
Luego, en logaritmos es posible encontrar la función log-verosímil
LogL = ∑ log[ f (t|χ)] + ∑ log[S(t|χ)]

En base a esta función tanto la información como el score pueden ha-
llarse y utilizarse para estimar la varianza de los estimadores y con ello,
pruebas de hipótesis tipo LR, Wald y LM puede realizarse del mismo mo-
do que en aplicaciones similares de máxima verosimilitud.
La limitación de los modelos presentados hasta este momento es que no

le asignan un rol a los factores externos en el análisis de duración. De este
modo, se estaría trabajando bajo el supuesto que las diferencias observa-
bles entre características de los individuos no influyen en la probabilidad
de salida del estado inicial. En economía, claramente este no es el caso y es
posible sugerir que características observables como la educación, género
o raza tenderían a influir en la probabilidad de encontrar empleo en un
contexto determinado.
La variables exógenos o regresores por introducir en los modelos de du-

ración se llaman “covariables” y pueden ser de dos tipos: covariables que
no varían en el tiempo y covariables que varían en el tiempo. Los del pri-
mer tipo son aquellos que permanecen constantes durante todo el periodo
de análisis y pueden ser el género, la raza, entre los más populares. Los del
segundo tipo son aquellos que varían durante el periodo de análisis y son
típicamente la edad o los años de educación. La forma de introducir en el

modelo las covariables invariantes en el tiempo es relativamente sencillo ya

que reflejarán las condiciones en las que entró el individuo a estado inicial
y se intentará analizar como esas condiciones iniciales afecta la función de
riesgo. El uso de covariables que varían en el tiempo es más problemático.
3.8. Estimación con Variables Exógenas

3.8.1. Modelos de tiempo de falla acelerado (AFT)
La forma más usual de introducir las covariables es a través del pará-
metro de escala (λ) en una distribución Wiebull. Así, se define:
Θ( x |t) = αe βx tα−1
donde se ha reemplazado λ = e βx , siendo x una matriz que incluye la
constante y el set de variables que se utilizarán como explicativas asumien-
do que no varían en todo el periodo de duración. Es decir, no varían desde
T = 0 hasta T = t (covariables invariantes en el tiempo). Hacer que λ de-
penda de las covariables es equivalente a cambiar las unidades de medida
en el vector del tiempo. De este modo, el rol de las covariables es la de
acelerar (o desacelerar) el tiempo de falla. Esto ocurre en contraste con un
modelo de riesgo proporcional donde el rol de la covariable es cambiar el
ratio de riesgo (más adelante se discuten estos modelos).
Lo interesante de estos modelos es que pueden interpretarse como una

regresión lineal de la forma Ln(t) = − xβ + u cuando α = 1, es decir, en
el caso que haya una relación de dependencia neutra (ya sea definida por
una función exponencial o Weibull). En el caso que α 6= 1, la regresión es
no lineal por lo que la interpretación de resultados es mas complicada en
términos del tiempo de falla. Los diferentes supuestos acerca de la distri-
bución de arrojarán los diferentes modelos AFT. Asimismo, tomando en
cuenta que Ln(t) puede tomar valores en los rangos [−∞, +∞] , la distri-
bución de µ puede ser cualquier distribución continúa entre [−∞, +∞].
3.8.2. Modelo de riesgo proporcional

De modo general, consideremos una función de riesgos donde ya se
han introducido las covariables. Así, la función quedará expresada como
Θ( x |t) = ω1 ( xβ)ω2 (t)

Es decir, como el resultado de la multiplicación de dos expresiones: una
en función de las covariables y otra en función de la duración o tiempo.

3.8. Estimación con Variables Exógenas 49
Nótese la similitud con la función anterior donde se hicieron explícitas

tales funciones para el caso de la Weibull.
Las expresiones ω1 y ω2 son comunes para todos los individuos. A ω1
se denomina riesgo individual (individual hazard) y varía entre individuos
de acuerdo a las diferentes realizaciones de las covariables. A ω2 se le de-
nomina riesgo de base (baseline hazard) y no varía entre individuos (nótese
que ω2 depende solo de t ). El modelo se denomina de riesgo proporcional
porque para dos individuos con valores de las covariables x1 y x2 , los ries-
gos pueden expresarse por el ratio común ω1 ( x1 )/ω2 ( x2 ) para todo t. De
este modo, el efecto proporcional de x es el mismo en cada momento del
tiempo. Por ejemplo, si es que tener educación secundaria reduce la proba-
bilidad de salida de desempleo en 0.5 puntos porcentuales en el primer día,
también lo hará en el mismo monto en el día 100. Esta es una restricción al
modelo ya que en aplicaciones económicas no hay porque pensar que los
efectos de las covariables sean proporcionales.
Se considera un modelo semiparamétrico donde ω2 (t) no se especifica y

ω1 ( xβ) está completamente especificado. La forma más común (y sencilla)
de especificar ω1 (t) es mediante una función exponencial. Así, se conside-
ra:
ω1 ( xβ) = e xβ
Lo que hace que la influencia de las covariables tengan efectos multipli-
cativos sobre el riesgo original. Esto último se demuestra considerando la
expresión:
ω1 ( xβ) = e xβ ω2 (t)
y derivandola respecto a x j se obtiene
∂θ ( x |t)
= ω2 (t) β j e xβ = β j θ ( x |t)
∂x j
Es decir, el efecto marginal de la covariable x j es el parámetro asocia-
do a ella multiplicada por la función de riesgo original. Luego es posible
especificar (cambiando la notación de la derivada)
dθ ( x |t)
= β j dx j
θ ( x |t)
Es decir, el modelo puede ser fácilmente interpretable en términos del
cambio proporcional del riesgo. Es importante tomar en cuenta que e β j ≈
1 + β j que es la expresión utilizada por algunos paquetes estadísticos. En
todo caso, la mayoría de estos paquetes normalmente reportan resultados
y desviaciones estándar para ambas versiones.

Para formas más generales de ω1 nótese que también es posible inter-

pretar los resultados desde una forma multiplicativa. Así, por ejemplo
∂θ ( x |t) ∂ω ( xβ) ∂ω ( xβ) ω1 ( xβ) θ ( x |t) ∂ω1 ( xβ)

= ω2 ( t ) 1 = ω2 ( t ) 1 =
∂x j ∂x j ∂x j ω1 ( xβ) ω1 ( xβ) ∂x j
El efecto de la covariable x j puede investigarse sin necesidad de conocer

ω2 . Esta es una propiedad atractiva para la estimación y justamente la base
del modelo Cox. La propuesta de Cox (1972) se basa en un método par-
cial de máxima verosimilitud donde el riesgo de base es removido de una
forma similar en la que se eliminan los efectos fijos en las aplicaciones de
panel data. De este modo, se estima β por máxima verosimilitud, toman-
do en cuenta solo ω1 y sin necesidad de especificar ω2 . Este modelo tiene
dos desventajas. Primero, es posible que el investigador este interesado en
conocer la naturaleza de la dependencia de la duración (es decir, ∂θ/∂t)
lo cual no es posible sin especificar ω2 . Segundo, puede ser complicado
ajustar la verosimilitud parcial cuando las duraciones están agrupadas. Es
decir, cuando muchas observaciones presentan su momento de salida al
mismo tiempo.
3.8.3. Modelo Weibull

El modelo Weibull es el modelo de duración paramétrico más popular
en econometría aplicada. Con él es posible estimar tanto el riesgo de base
como los efectos de las covariables introducidas en el análisis. De este mo-
do, es posible inferir la naturaleza de la dependencia de la duración lo cual
además le da cierta aplicabilidad desde una perspectiva de política públi-
ca. Así, considerando una especificación Weibull se plantea una función de
riesgo de la forma:
Θ( x |t) = e xβ αtα−1
En este caso la derivación se compone de:
ω1 ( xβ) = e xβ
y
ω2 (t) = αtα−1
El modelo estima principalmente el efecto que tiene una determinada
covariable en el ratio de riesgo y no de la duración (como en el caso de los
modelos AFT). En tal contexto, la elección de la forma funcional es con-
veniente ya que permite una interpretación log-lineal de los efectos. Sin

3.8. Estimación con Variables Exógenas 51
embargo, esta estimación también puede ser usada para derivar el efecto
que tiene sobre la duración; fundamentalmente en el efecto que tiene cierta
covariable en la duración esperada (promedio) de cierto estado. La deri-
vación de estos efectos a partir de la Weibull es complicada, pero puede
demostrarse rápidamente que la duración promedio se expresa como:
1 βx
E( T ) = Γ( + 1)e(− α )
α
donde se obtendria tomando logaritmos:
Ln( E( T )) = − βx cuando α = 1
− βx
Ln( E( T )) = α + k cuando α 6= 1
Nótese que la primera opción es la expresión de la regresión lineal del
modelo AFT discutido antes y la segunda sería la expresión alternativa en
el caso que α 6= 1 . En este último caso conviene utilizar la alternativa:
αLn( T ) = − βx + µ
donde µ es el término de error y α es el parámetro de la relación de de-
pendencia de la duración de la Weibull (el cual también se estima). Nótese
que el valor esperado de µ no es cero ya que depende del operador Gam-
ma, sin embargo es independiente de x. El efecto marginal con respecto a
la duración seria:
∂Ln( T ) β
=−
∂x α
Este es un resultado intuitivo. Primero, porque si la covariable x tie-
ne un efecto positivo (negativo) en el ratio de riesgo (es decir, en el ratio
instantáneo de salida), luego es de esperar que esta variable tenga un efec-
to negativo (positivo) en la duración. Es fácil analizarlo en términos de la
educación: un individuo más educado tendrá una mayor probabilidad de
encontrar trabajo, por lo que la duración del desempleo para este individuo
será menor.
Segundo, porque realizar el ajuste por α resulta relevante. Así, cuando
existe una dependencia negativa α < 1 (en la medida que pasa el tiempo
la probabilidad de salida es menor) el efecto de un cambio en x sobre la
duración deberá incrementarse respecto al caso en que no existe relación
de dependencia (α = 1). Lo mismo ocurre cuando α > 1 (en la medi-
da que tiempo pasa la probabilidad de salida es mayor) ya que el efecto
de un cambio en x sobre la duración deberá reducirse respecto al caso en
que no existe relación de dependencia (α = 1). Por ejemplo, el desempleo
muestra una relación de dependencia negativa (en la medida que el tiem-
po pasa la probabilidad de encontrar empleo es menor) y el efecto de la

educación tiende a aumentar la probabilidad de encontrar empleo. Luego,

la educación tendrá un primer efecto en reducir la duración dada la ma-
yor probabilidad de encontrar empleo, pero también un segundo efecto al
reducir el tiempo de espera, el cual al tener una relación de dependencia
negativo tenderá a acelerar la salida del individuo fuera de la situación
de desempleo en algo más que el efecto inicial β. Cuando no hay relación
∂Ln( T )
de dependencia (α = 1), el efecto se reduce a ∂x = − β, lo cual hace
referencia directa al caso exponencial o el modelo AFT.
3.9. Heterogeneidad no observada

La inclusión de covariables en el análisis está diseñado de modo que los
modelos de duración incorporen efectos específicos observables. Es decir,
controlar la regresión por posibles fuentes de heterogeneidad observable
entre los individuos. Sin embargo, si es que la especificación es incompleta
(no se incorporan todos estos factores) y persisten diferencias sistemáti-
cas en la distribución, luego realizar inferencias en base al modelo puede
llevar a conclusiones erróneas. Este problema de subespecificación tendrá
consecuencias muy similares al problema de sesgo por variables omitidas
en una regresión lineal. La fuente de la subespecificación es la existencia de
heterogeneidad no observada, es decir, la existencia de factores que afecta
las distribuciones pero que no pueden observarse porque no existe la data
necesaria para controlar el modelo.
En el caso de un modelo de regresión lineal la única salida era darle

mayor estructura a la especificación y en los modelos de panel data podría
resolverse en alguna medida a través de modelos de efectos fijos, por ejem-
plo. En el caso de modelos de duración, existen otras alternativas. Así, se
puede plantear la siguiente función de riesgo
ei ( x, t) = vi θi ( x, t)
donde vi es una variable aleatoria i.i.d como Gamma(1,σ2 ) la cual repre-
senta una proxy de todos los factores no observables en la aplicación. De
este modo, la manera de incluir la heterogeneidad no observada es muy
similar a la inclusión de un término de error en la regresión. Operando
podemos expresar la funcioón de riesgos como:
2
θ ∗ ( x, t) = θ (t)[1 − F ( x, t)]σ
en esta expresión θ ∗ es la función de riesgo ajustada por heterogenei-
dad no observada, donde F(x,t) es el valor esperado de la función de dis-
2
tribución acumulada condicional en v. Se observa que [1 − F ( x, t)]σ es una

3.10. Estimación en Tiempo Discreto 53
función decreciente en t lo que demuestra un efecto decreciente de la hete-

rogeneidad en el ratio de riesgo. El modelo puede estimarse usando máxi-
ma verosimilitud, pero en ese caso además deberá estimarse el parámetro
2
σ2 . Más aún debe notarse que cuando σ2 = 0, [1 − F ( x, t)]σ = 1 y no hay
heterogeneidad por lo que θ ∗ (t) = θ (t) que es el modelo Weibull estándar.
La proposición σ2 = 0, puede testearse.
El caso típico de heterogeneidad no observada en la literatura de mer-

cado laboral se asocia con la "motivación". Así, individuos más motivados
son aquellos que típicamente podrán salir primero del desempleo, dejando
detrás a los individuos menos motivados que observarán una menor pro-
babilidad de la salir de esa situación. No incorporar la motivación como
factor explicativo podría crear la ilusión de una relación de dependencia
más negativa de la que existe. A pesar de que el enfoque resulta convenien-
te, tiene ciertas críticas. Primero, sobre-parametriza la función de riesgo lo
que puede generar errores en la inferencia y lo hace muy dependiente de
la forma funcional particular que se elija. Segundo, la elección de la fun-
ción Gamma no tiene un sentido económico sino una facilidad estadística
y matemática. En biomedicina normalmente se usa el término frailty para
hacer mención a la heterogeneidad no observada.
3.10. Estimación en Tiempo Discreto

El tiempo es una variable continua y esa es la manera correcta de mo-
delarla. Por ello, la mayoría de las aplicaciones empíricas de modelos de
duración tienden a situarse en ese contexto al momento de proveer sus
estimaciones. Se pueden destacar tres fortalezas del enfoque continuo. Pri-
mero, y más importante, en la mayoría de modelos económicos no existe
una unidad de tiempo natural en la cual los individuos toman sus deci-
siones o ejecutan una determinada acción o si es que es posible identificar
dicha unidad no existe garantía que corresponda a la forma en la que se
presenta la data disponible para el investigador. Segundo, los modelos con-
tinuos son invariantes a las unidades de tiempo, lo cual no es el caso para
los modelos de tiempo discreto. Tercero, los modelos continuos son más
simples matemáticamente y más elegantes siendo más adecuado (a nivel
teórico) pensar en la duración en un contexto temporal continuo.
Sin embargo, el análisis de modelos de duración puede simplificarse
econométricamente cuando se considera al tiempo como variable discreta
y en algunos casos puede ser una buena primera aproximación a los fenó-
menos por ser analizados. Asimismo, en las aplicaciones que se realizan en
la realidad, los datos de tiempo disponibles están en forma discreta por lo

que estas metodologías se estructuran en torno a esa realidad.
3.10.1. Estimador de Kaplan - Meier

Antes de iniciar el análisis de un modelo de duración, resulta conve-
niente graficar la función de sobrevivencia implícita de una determinada
base de datos. El estimador de Kaplan-Meier ofrece una forma no para-
métrica y sencilla de hacerlo. Este estimador “empírico” puede expresarse
como:
k
ni − k i
S( Tk ) = ∏ ni
i =1
donde k es el número de los diferentes tiempos de sobrevivencia, Tk es

el set de riesgo al momento k, Tk es el tamaño del set de riesgo al momento
k y hk es el número de “salidas” completadas al momento k.
Dado que es mas interesante evaluar la función de riesgo en lugar de la
función de sobrevivencia, ésta seria:
hk
Θ(ˆTk ) =
nk
3.11. Aplicación 1
Se realizó una investigación sobre la base de datos de la ENAHO en
1996, a diferencia de otros estudios, se busco realizar un análisis de la di-
námica del desempleo en zonas urbanas a lo largo del año. La hipótesis
que se plantea es que existe una combinación de altas tasas de rotación y
baja duración del desempleo urbano en el Perú, lo que provoca que gran
cantidad de personas sufran episodios de desempleo alguna vez durante el
año. Así, a diferencia de las hipótesis estáticas, se plantea que la dinámica
del desempleo es la causa principal para que la falta de empleo sea consi-
derada como el problema más importante del país.
Tan interesante como la duración del episodio de desempleo en si, re-

sulta la probabilidad de que el episodio termine en el “próximo periodo”
dado que “ha durado hasta el periodo actual”. Esto se debe a que, intuiti-
vamente, esta probabilidad no resulta claramente mayor o menor conforme
se prolonga la duración del desempleo. Podría afirmarse que a mayor sea
la duración del desempleo aumenta la probabilidad de conseguir trabajo al
irse reduciendo los salarios de reserva de los individuos, por ejemplo. Sin
embargo, también suena lógico afirmar que a mayor sea la duración del
desempleo, menor será la probabilidad de conseguir un empleo dado el

mayor deterioro del capital humano de los desempleados. Así, modelar es-
ta probabilidad para distintos grupos (de género, edad, nivel de educación,
etc.) permitirá distinguir patrones específicos para cada uno de ellos.
use base96 , clear

d id edadgg edadgg1 educ cesante jefe dur1 semanas salio
su id edadgg edadgg1 educ cesante jefe dur1 semanas salio
* duracion completada promedio

table edadgg sexo, c(mean dur1) col row f(%9.1f)
table edadgg1 sexo, c(mean dur1) col row f(%9.1f)
table educ sexo, c(mean dur1) col row f(%9.1f)
table cesante sexo, c(mean dur1) col row f(%9.1f)
table jefe sexo, c(mean dur1) col row f(%9.1f)
* duracion promedio (completa mas incompleta)

table edadgg sexo, c(mean semanas) col row f(%9.1f)
table edadgg1 sexo, c(mean semanas) col row f(%9.1f)
table educ sexo, c(mean semanas) col row f(%9.1f)
table cesante sexo, c(mean semanas) col row f(%9.1f)
table jefe sexo, c(mean semanas) col row f(%9.1f)
* Funcion de Sobrevivencia Kaplan-Meier según variables

stset semanas
stset semanas, failure(salio)
tab salio
sts list
sts list, by(sexo) compare at(1 4 8 12 16 24 32 40 48 52)
sts list, by(edadgg1) compare at(1 4 8 12 16 24 32 40 48 52)
sts list, by(edadgg2) compare at(1 4 8 12 16 24 32 40 48 52)
sts list, by(educ) compare at(1 4 8 12 16 24 32 40 48 52)
* Funcion de Riesgo Kaplan-Meier según variables

ltable semanas salio, hazard interval(4)
ltable semanas salio if sexo==0, hazard interval(4)

ltable semanas salio if sexo==1, hazard interval(4)
ltable semanas salio if educ==4, hazard interval(4)


* Graficos de la Funcion de Sobrevivencia

sts gr, t1("Funcion de Sobrevivencia, estimador Kaplan-Meier S(T|T>t)") //
l1(Probabilidad condicional de) l2(continuar desempleado) b2(Semanas)
sts gr, by(sexo) t1("Funcion de Sobrevivencia, estimador Kaplan-Meier S(T|
sts gr, by(edadgg1) t1("Funcion de Sobrevivencia, estimador Kaplan-Meier S
sts gr, by(educ) t1("Funcion de Sobrevivencia, estimador Kaplan-Meier S(T|
sts gr, by(cesante) t1("Funcion de Sobrevivencia, estimador Kaplan-Meier S
* Prueba de hipotesis, funsiones de sobrev. son iguales

sts test sexo
sts test edadgg1
sts test educ
sts test casado
sts test jefe
sts test cesante
* Configuración de los datos (ID PARA poder identificar a los individuos)

*=======================================================================
rename semanas t
stset t, failure(salio) id(id) noshow
gen lnt=ln(t)
* Estimaciones de la funcion de riesgo discreta

***********************************************
* Logit, Weibull (nohr sino beta) y Cox
logit salio cesante educ0 educ1 educ2 age lnavging lnt
streg cesante educ0 educ1 educ2 age lnavging, nohr dist(weibull)
stcox cesante educ0 educ1 educ2 age lnavging, nohr
* Graficos de la Función de Riesgo

stcurve, hazard
stcurve, hazard at1(cesante=0) at2(cesante=1) kernel(gauss) yscale(log)
*-------------------------------*
* Test de riesgos proporcionales
*-------------------------------*
* Test log-log
stphplot, by(educ) c(lll) adj(cesante age lnavging)

* Comparando con el modelo de Cox

stcoxkm, by(educ) separate
* Test del supuesto (hipo nula, si hay riesgo proporcional)
quietly stcox cesante educ0 educ1 educ2 age lnavging, scaledsch(sca*) schoenfeld(sc
stphtest, rank detail
drop sca* sch*
*-------------------------------------------------
* Test para los Modelos de Riesgos Proporcionales
*-------------------------------------------------
* Test de ajuste modelo Weibull
*******************************
use base96 , clear
* Configuración de los datos
rename semanas t
gen lnt=ln(t)
streg cesante educ0 educ1 educ2 age lnavging, nohr dist(weibull)

predict cs, csnell
lab var cs "Residuos Cox-Snell"
* Se redefine la data, ahora los residuos son la variable de duracion
stset cs, failure(salio)
* sobrevivencia kaplan-meier (s sobrevivencia)
sts gen km=s
* riesgo acumulado (por def: H=-ln(S(t))) (H riesgo)
gen double H=-ln(km)
* grafico
tw sc H cs, l1(Riesgo acumulado) l2("H(t)=-ln(S(t))") || line cs cs, ///
c(l) s(i) saving(coxsnellW, replace)
* Test de ajuste modelo Cox

***************************
use base96 , clear
* Configuración de los datos
rename semanas t
gen lnt=ln(t)
stcox cesante educ0 educ1 educ2 age lnavging, nolog mgale(mg)

predict csc, csnell
lab var csc "Residuos Cox-Snell"
* redefino la data, ahora los residuos son la variable de duracion

stset csc, failure(salio)

* sobrevivencia kaplan-meier
sts gen kmc=s
* riesgo acumulado (por def: H=-ln(S(t)))
gen double Hc=-ln(kmc)
tw sc Hc csc, l1(Riesgo acumulado) l2("H(t)=-ln(S(t))") || line csc csc, /
c(l) s(i) saving(coxsnellC, replace)

Sesión 4
Modelos Semi y No Paramétricos
Las técnicas de Regresión No Paramétrica logran una mejor adapta-

ción a los datos disponibles, mediante la obtención de estimaciones más
próximas a la curva de regresión subyacente. Esto es posible usando la in-
formación suministrada directamente desde los datos, sin formular rígidos
modelos paramétricos.
Los modelos de Regresión Paramétrica en general son sencillos y de

cálculo rápido. Además, el presuponer que tienen una forma definida y
paramétrica para la función de regresión, hace que se tengan garantizadas
de antemano las propiedades de las estimaciones resultantes. Sin embargo,
se caracterizan por ser métodos poco flexibles y de difícil adaptación en
diversas situaciones reales.
El planteamiento no paramétrico por el contrario, permite una mayor

flexibilidad y por eso, se considera una de las mejores herramientas de
tipo exploratorio. No obstante, el no realizar muchas hipótesis sobre la
estructura subyacente en los datos se traduce en soluciones mucho más
complejas y con un mayor coste computacional.
4.1. Estimación por Kernel

Consideremos dos variables x e y estandarizadas. Cuando queremos
ver como se relacionan estas variables, la primera aproximación es ver un
coeficiente de correlación:
ρ = E(yx )
Pero esto no es suficiente para entender el efecto “causal” de x en y, así
como tampoco podemos predecir. Cuando queramos ver el valor promedio
de y condicial a x usamos la función de regresión poblacional:
FRP = E(y| x )
59
60 4. Modelos Semi y No Paramétricos
En presencia de no observables se tiene que la relación “promedio” de

y y x se puede escribir como E(y| x, u). En este caso es posible encontrar la
función de regresión poblacional como:
Z
E(y| x ) = E(y| x, u) f (u)du
Su
Sin embargo, el término E(y| x, u) sigue siendo no observable y no se

puede despejar de la integral puesto que la solución no es única y u sigue
siendo no observable.
En la econometría se plantean las ecuaciones estructurales (de compor-
tamiento) de la siguiente manera:
y = H ( x, u)
Lo que implica una expresión para la esperanza condicional:
E(y| x, u) = H ( x, u)
Dado que u no es observable, tenemos que hacer supuestos para iden-
tificar parámetros o funciones de interés.
Si H(x,u) es separable y lineal, entonces:
H ( x, u) = xβ + u
y = xβ + u
que constituye un modelo parámetrico lineal, luego:
E(y| x ) = xβ + E(u| x )
E(y| x ) = xβ
suponiendo que E(u| x ) = 0, podemos identificar la media condicional
y sus derivadas fácilmente. Sin embargo si:
H ( x, u) = f ( x ) + u
y = f (x) + u
Se tiene un modelo no paramétrico y un problema de dimensionalidad.
Si:
y = f ( xβ) + u

4.1. Estimación por Kernel 61
entonces, se tiene un modelo semi-paramétrico, pues hay parámetros

que nos interesan.
Una notación típica para el modelo no paramétrico es:
y = m( x ) + u
donde E(y| x ) = m( x ) si suponemos que E(u| x ) = 0, por lo que nuestra

primera aproximación será calcular el análogo muestral de E(y| x ).
p( x, y)
Z Z
m( x ) = yp(y| x )dy = y dy
p( x )
el análogo muestral será:
p̂( x, y)
Z
hatm ( x ) == y dy
p̂( x )
siendo necesario un estimador de p(x,y) y p(y), por lo que nuestra tarea
es encontrar un estimador para estas densidades. Una forma usual para
estimar una probabilidad es el método de Kernels.
Para la estimación de una función de densidad de probabilidad se re-

quiere un estimador de la distribución acumulada. Si se tiene una muestra
de n observaciones para una variable aleatoria X y se quiere obtener la
probabilidad de que X sea menor o igual a x, se calcula:
1 n
n i∑
Pr ( X ≤ x ) = F ( x ) = I<−∞,x]
=1
donde I<−∞,x] es una función indicatriz que es igual a 1 si −∞ < X ≤ x.
Este método es No Paramétrico puesto que no debemos estimar ningún pa-
rámetro. Se le conoce como la distribución empírica.
Para estimar una función de distribución de probabilidad usamos el

hecho que f ( x ) = F 0 ( x ). Dado que no podemos derivar F̂ ( x ) tenemos que
explorar otra alternativa. Se puede usar la definición de derivada en el
límite y calcular la densidad en una vecindad de x con radio h.
1
f (x) = [ F ( x + h) − F ( x − h)]
2h
1 n n
f (x) = [ ∑ I Xi ≤ x + h − ∑ I Xi ≤ x − h ]
2hn i=1 i =1
1 n
2hn i∑
f (x) = [ I x − h ≤ Xi ≤ x + h ]
=1

1 n 1
hn i∑
f (x) = [ I ]
=1
2 x − h ≤ Xi ≤ x + h
1 n 1
hn i∑
f (x) = [ I ]
=1
2 − h ≤ Xi − x ≤ h
1 n 1
hn i∑
f (x) = [ I X −x ]
2 −1≤ ih ≤1
=1
1 n 1
hn i∑
f (x) = [ I X −x ]
=1
2 | ih |≤1
1 n
hn i∑
f (x) = [ k ( Xi − x ) ]
=1 h
donde
(
1
2, si |u| ≤ 1
k(u) =
0, de otra forma
o
1
k(u) = 1|u|≤1
2
La cual es conocida como la función Kernel Rectangular, Uniforme o
Naive. El estimador de densidad de probabilidad puede usar otras funcio-
nes Kernel con las cuales mejoran las propiedades de éste.
La función de Kernel es una muy parecida a una densidad de probabi-

lidad simétrica. Mientras más cerca esta x j de xi , el argumento es cercano
a cero y estamos en el centro de la densidad, lo que implicaria que k (0)
alcance su máximo valor.Mientras más se aleje (hacia las colas de la densi-
dad de distribución), el valor de k(.) caerá.
El estimador nos obliga entonces a elegir la función de kernel k(.) y el

ancho de banda h. La elección de la función de kernel no es tan importante
como la del ancho de banda. A mayor ancho de banda, la curva estimada
será más suave, el sesgo será mayor y la varianza será menor. A menor
ancho de banda, la curva estimada será más rugosa, el sesgo será menor y
su varianza crecerá. La elección de este parámetro no es trivial, una forma
es usar el h∗ óptimo que minimice el Error Cuadrático Medio suponiendo
que la distribución es normal (Silverman 1986).
Las funciones de kernel mas comúnes son:

4.1. Estimación por Kernel 63
Kernel Gaussiano o exponencial
1
k(u) = √ exp(−u2 )
2π
Kernel Epanechnikov
3
k(u) = (1 − u2 )1|u|≤1
4
Kernel Triangular
k (u) = (1 − |u|)1|u|≤1
4.1.1. Nadaraya y Watson (1964)

Recuerde que estamos interesados en estimar la siguiente ecuación:
y = m( x ) + u
donde E(y| x ) = m( x ) si suponemos que E(u| x ) = 0 y se intenta estimar:
p̂( x, y)
Z
m̂( x ) == y dy
p̂( x )
siendo:
1 n
hn i∑
p̂( x ) = [ k ( Xi − x ) ]
=1 h
1 n
h2 n i∑
p̂(y.x ) = [ k ( Yi −y ) k ( Xi −x ) ]
=1 h h
por lo tanto
Z 1
[ n k
h2 n ∑i =1 ( Yi −y ) ( Xih− x )
k ]
h
m̂( x ) = y 1 n
dy
hn [ ∑i =1 k ( Xi − x ) ]
h
R
Resolviendo la expresión anterior (básicamente usando uk (u)du = 0)
se obtiene el estimaror de Nadaraya y Watson (1964)
∑in=1 k ( Xi −x ) yi
h
m̂( x ) =
∑in=1 k ( Xi −x )
h

sysuse auto, clear

save auto, replace
use auto, clear
kdensity price
tw (hist price)(kdensity price), title("Precio del auto")
hist price, title("Precio del auto")
tw (kdensity price, kernel(epanechnikov ) ) ///

(kdensity price, kernel(gaussian) ) ///
(kdensity price, kernel(rectangle ) ) ///
(kdensity price, kernel(triangle) ) ///
(kdensity price, kernel(biweight ) ), ///
legend(lab(1 "epanechnikov") lab(2 "gaussian") lab(3 "rectangle") ///
lab(4 "triangle") lab(5 "biweight")) ///
title("Tipos de Kernel")
tw (kdensity price) (kdensity price, width(300)) ///

(kdensity price, width(500)) (kdensity price, width(800)), ///
legend(lab(1 "h óptimo") lab(2 "h=300") lab(3 "h=500") lab(4 "h=800")) ///
title("Tipos de Kernel")
/*Uniforme*/
kernreg price mpg, b(2.4) k(1) np(100) gen(k_1 x1_1) nog
tw (sc price mpg)(line k_1 x1_1)
/*Triangular*/
kernreg price mpg, bw(2.4) k(2) np(100) gen(k_2 x1_2) nog
/*Epanechnikov*/
/*Quartic - Biweight*/
/*Rectangular*/
/*Gaussian*/
tw (sc price mpg)(line k_1 x1_1)(line k_2 x1_2)(line k_3 x1_3) ///
(line k_4 x1_4)(line k_5 x1_5)(line k_6 x1_6), ///

4.2. Regresión Discontinua 65
legend(lab(1 "") lab(2 "Uniform") lab(3 "Triangular") ///

lab(4 "Epanechnikov") lab(5 "Biweight") lab(6 "Rectangular") lab(7 "Gaussian")) ///
title("Regresiones por Kernel")
tw (sc price mpg)(lfit price mpg), title("Regresión Lineal") ///

ylabel(,angle(0) labsize(2)) legend(off)
graph save gph1, replace
tw (sc price mpg)(line k_1 x1_1), title("Kernel Uniforme") ///
tw (sc price mpg)(line k_2 x1_2), title("Kernel Triangular") ///
tw (sc price mpg)(line k_3 x1_3), title("Kernel Epanechnikov") ///
tw (sc price mpg)(line k_4 x1_4), title("Kernel Biweight") ///
tw (sc price mpg)(line k_5 x1_5), title("Kernel Rectangular") ///
tw (sc price mpg)(line k_6 x1_6), title("Kernel Gaussian") ///
graph combine gph1.gph gph2.gph gph3.gph gph4.gph gph5.gph gph6.gph gph7.gph
4.2. Regresión Discontinua

Este es un método muy usado en evaluación de programas cuando la
regla de selección de tratamiento es una función discontinua de una varia-
ble observable.
El parámetro de interés es la discontinuidad en sí en la variable de
resultado (outcome).
Luego, siguiendo a Hahn, Todd y van der Klaauw (2001), sea y1i el
outcome potencial si es tratado y y0i el outcome potencial si no es tratado.
Además, sea di = 1 si el individuo es tratado y di = 0 si no lo es. Entonces:
yi = y1i di + y0i (1 − di )
Si αi = y1i − y0i es el efecto del tratamiento, entonces podemos escribir:

yi = y0i + αi di
Ahora bien, existen dos tipos de diseños de Regresión Discontinua. El
primero es el Sharp Design, en el cual di = f ( xi ) es una función determi-
nística de xi y continua excepto en x0 . El otro tipo de diseño es el Fuzzy
Design, en el cual la probabilidad de tratamiento es discontinua en x0 por
ejemplo Pr (di = 1| x ) es discontinua en x0 .
Los supuestos de regresión discontinua son:
(Supuestos RD1) Los límites existen:
lı́m E(di | xi = x )
x → x0+
lı́m E(di | xi = x )
x → x0−
(Supuestos RD2) x0+ 6= x0−
(Supuestos A1) E(y0i | xi = x ) es continua en x = x0
(Supuestos A2) E(αi | xi = x ) es continua en x = x0
Si αi es constante y se cumplen los supuestos RD1, RD2, y A1 entonces:
lı́m E(yi | xi = x ) − lı́m E(yi | xi = x )

x → x0+ x → x0−
α=
lı́m E(di | xi = x ) − lı́m E(di | xi = x )
x → x0+ x → x0−
Siendo independiente del tipo de diseño (Sharp o Fuzzy). Hay que notar
que cuando se tiene Sharp Design:
lı́m E(di | xi = x ) = 1
x → x0+
lı́m E(di | xi = x ) = 0
x → x0−
Luego:
α = lı́m E(yi | xi = x ) − lı́m E(yi | xi = x )

x → x0+ x → x0−
Lo cual nos permite encontrar un efecto causal explotanto la disconti-

nuidad en la asignación del tratamiento. El efecto resulta potente dado que
no se necesitan más controles que el x de la regla de asignación. Sin embar-
go, el problema es que se está asumiendo que αi = α (Efecto Tratamiento

4.2. Regresión Discontinua 67
Constante), el cual puede ser muy restrictivo.
Suponiendo que di es independiente a αi y si se cumplen los supuestos

RD1, RD2, A1, y A2 entonces:
lı́m E(yi | xi = x ) − lı́m E(yi | xi = x )

x → x0+ x → x0−
E ( α i | x i = x0 ) =
lı́m E(di | xi = x ) − lı́m E(di | xi = x )
x → x0+ x → x0−
Donde debemos notar que sólo se puede identificar la esperanza condi-

cional de αi en x = x0 . Esto limita bastante el análisis, sin embargo sigue
siendo un efecto causal de interés.
4.2.1. Estimación
La alternativa que proponen Hahn, Todd y van der Klaaww (2001) es
asumir que:
y0i = y0 + vi
Luego, como yi = y0i + αi di , entonces:
y i = y0 + α i d i + v i
Si se asume que y0 = c por simplicidad, se puede estimar esta regresión
como una regresión lineal local, con más peso en las observaciones cerca a
la discontinuidad así:
αi = α =⇒ yi = c + αdi + vi
Cuyos parámetros son obtenidos al optimizar una suma de cuadrados
residual ponderada:
n
minc,α ∑ [yi − c − α( xi − x0 )]2 k ( xi −x0 )
h
i =1
con lo cual se puede estimar:
lı́m E(yi | xi = x )
x → x0+
lı́m E(yi | xi = x )
x → x0−
Otra alternativa de estimación es la que propone Porter (2003) donde
yi = y0i + αi di + vi

E(yi | x ) = E(y0i | x ) + E(αi di | x )
E ( yi | x ) = m ( x ) + E ( αi di | x )
si αi ⊥di | x, entonces:
E ( yi | x ) = m ( x ) + E ( αi | x ) E ( di | x )
y = m( x ) + αd + e
Porter (2003) propone estimar los límites mediante polinomios locales
de x̃i = xi − x0 :
Así para lı́m E(yi | xi = x )

x → x0+
1 x̃
mn
n ∑ k ( i )di (yi − α − b1 x̃i − b2 x̃i2 − ... − b p x̃ p )2
h
Para lı́m E(yi | xi = x )

x → x0−
1 x̃
mn
n ∑ k ( i )(1 − di )(yi − α − b1 x̃i − b2 x̃i2 − ... − b p x̃ p )2
h
Luego α̂ p = α̂+ −
p − α̂ p
Notemos que si p = 0 (sin corrección polinómica) el estimador es

igual a Nadaraya y Watson, el cual no funciona muy bien.
Si p = 1, se tiene la propuesta de Hahn, Todd y van der Klaaw (2001),

el cual funciona relativamente bien.
Para un p > 1, Porter (2003) muestra que se mejora en relación a

los demás casos, lamentablemente no hay un buen método para la
selección del orden del polinomio ni el ancho de banda el cual es
crucial.
4.2.2. Aplicación
Nos interesa el efecto de tener un representante demócrata en el Con-
greso de EEUU sobre el gasto federal en el distrito electoral. En este caso
la variable “tener un representante demócrata” puede ser considerado un
tratamiento aplicado a un distrito electoral, y la variable de asignación Z
es la proporción de votos que obtiene el candidato demócrata. En el nivel
Z=50 %, la probabilidad de recibir el tratamiento cambia de 0 a 1. Además,

4.3. Regresión por Cuantil 69
se puede asumir que aquellos distritos con una votación ligeramente infe-
rior de 50 % por el candidato demócrata no son muy distintos de aquellos
con una votación de 50 % o ligeramente superior.
Para estimar este efecto utilizando un diseño de RD contamos con datos

para EEUU del log del gasto federal en el distrito (lne) que viene a ser la
outcome variable, la proporción de votos que obtuvieron los candidatos
demócratas (d) normalizada a 0 que viene a ser la assignment variable,
una dummy que es igual a 1 si el distrito tiene un candidato demócrata en
el Congreso (win) que viene a ser la treatment variable.
use votex, clear
d
tw (sc lne d, mcolor(gs10) msize(tiny)) ///

(lpolyci lne d if d<0, bw(0.05) deg(2) n(100) fcolor(none)) ///
(lpolyci lne d if d>=0, bw(0.05) deg(2) n(100) fcolor(none)), ///
xline(0) legend(off)
lpoly lne d if d<0, bw(0.05) deg(2) n(100) gen(x0 s0) ci se(se0)

lpoly lne d if d>=0, bw(0.05) deg(2) n(100) gen(x1 s1) ci se(se1)
/*Intervalos de confianza al 95%*/

forvalues v=0/1 {
gen ul`v' = s`v' + 1.95*se`v'
gen ll`v' = s`v' - 1.95*se`v'
}
tw (line ul0 ll0 s0 x0, lcolor(blue blue blue) lpattern(dash dash solid)) ///
(line ul1 ll1 s1 x1, lcolor(red red red) lpattern(dash dash solid)), legend(off)
rd lne d, gr mbw(100)
rd lne d, gr mbw(100) line(`"xla(-.2 "Repub" 0 .3 "Democ", noticks)"')
rd lne d, gr ddens
rd lne d, mbw(25(25)300) bdep ox
rd lne d, x(pop-vet)
rd lne d, gr mbw(100 50 200) line(`"xla(-.2 "Repub" 0.3 "Democ", noticks)"')
4.3. Regresión por Cuantil

Cuando estimamos la relación entre una variable de interés, la que he-
mos llamado variable dependiente, y una o más variables explicativas, por

el método de MCO, lo que estamos estimando es la media condicional de

la variable dependiente:
Ê[yi | xi ] = α̂ + β̂xi
Sin embargo, en muchos casos puede que nuestro interés no sea sola-
mente la media de la variable dependiente, sino por ejemplo la mediana o
cuantiles de la misma.
En MCO la función que se minimiza es la suma de los errores al cua-
drado. En la regresión de mediana lo que se minimiza es la suma de los
valores absolutos del error:
ˆ [yi | xi ] = α̂ M ed + β̂ M edxi
Med
N N
mnα,β ∑ |µi | ⇐⇒ mnα,β ∑ |yi − α − βxi |
i =1 i =1
En la regresión de cuantiles se minimiza la siguiente función objetivo:
q̂τ [yi | xi ] = α̂τ + β̂ τ xi
N N
mnατ ,β τ ∑ τ | yi − α τ − β τ xi | + ∑ (1 − τ )|yi − ατ − β τ xi |
i:yi ≥ατ + β τ xi i:yi <ατ + β τ xi
Notar que la regresion de mediana es un caso especial de la regresion

de cuantiles cuando τ es 0.5.
La ventaja de la regresion de cuantiles es que permite caracterizar de mejor
forma los datos, y la regresion de mediana, comparado con de la media, es
mas robusta frente a la presencia de outliers.
use base2008, clear

tabstat deuda_total total_activos ventas activosfijos utilidad_neta pbi ///
capitalizacion_bursatil, by(cia) stat(mean)
gen tamaño=ventas/total_activos
gen tangibilidad=activosfijos/total_activos
gen rentabilidad=utilidad_neta/total_activos
gen deuact=deuda_total/total_activos
encode actividad, gen(actid)
tab actid
codebook actid

4.3. Regresión por Cuantil 71
sort actividad cia
/*Regresión MCO*/
****************
su deuact tamaño tangibilidad
reg deuact tamaño tangibilidad rentabilidad, r

global bmco=_b[rentabilidad]
predict deuactm
vif
qreg deuact tamaño tangibilidad rentabilidad ,quantile(.5) nolog
predict deuact50
predict deuact25
predict deuact75
tw (sc deuact rentabilidad) (lfit deuactm rentabilidad)(lfit deuact50 rentabilidad

(lfit deuact25 rentabilidad) (lfit deuact75 rentabilidad), ///
legend(label(1 "") label(2 "MCO") label(3 "P50") label(4 "P25") label(5 "P75")) ///
title("Relación entre Razon de Deuda y Rentabilidad") ///
ytitle("Razon de Deuda-Activos")
/*Regresiones por cuantiles*/

****************************
forvalues i=1/9 {
quietly qreg deuact tamaño tangibilidad rentabilidad,quantile(.ì') nolog
estimates store qtì'0
}
estimates table qt10 qt20 qt30 qt40 qt50 qt60 qt70 qt80 qt90 , ///
b(%7.4f) t(%7.4f) se(%7.4f)
*grafico de quantiles
********************
matrix Q=J(99,2,0)
local i=0.01
while ì'<1 {
quietly qreg deuact tamaño tangibilidad rentabilidad ,quantile(ì') nolog
matrix Q[ì'*100,1]=e(q)
matrix Q[ì'*100,2]=_b[rentabilidad]
local i=ì'+0.01
}

matrix list Q
svmat Q, name(quantile)
rename quantile1 quantile
rename quantile2 beta
tw (line beta quantile),title("Beta estimado para cada Quantile") ///

note("Fuente: SBS 2008", size(3)) yline($bmco) ///
caption("Elaboración: GIDDEA C & T", size(3)) ///
scheme(vg_blue)

Sesión 5
Análisis Multivariante
5.1. Análisis Multivariante de Varianza y Cova-

rianza
5.1.1. Análisis Multivariante de Varianza: MANOVA
MANOVA es una generalización del ANOVA para multiples variables
dependientes. Son cuatro los test multivariantes comunmente calculados
en el MANOVA: Lambda de Wilks, la traza de Pillai, la traza de Lawley-
Hotelling, y la mayor raiz de Roy. Todos estos test son admisibles, inses-
gados e invariantes. Asintoticamente los tres primeros son iguales, pero su
comportamiento bajo varias violaciones de la hipotesis nula y con muestras
pequeñas son diferentes. La mayor raiz de Roy si difiere aún asintoticamen-
te de los tres primeros.
Ninguno de los criterios paresen ser mas potentes contra hipótesis al-
ternativas. A veces, el test de Roy es más potente, cuando la hipótesis nula
de igualdad de vectores de media es violado, en otras situaciones el com-
portamiento del test de Roy es peor que los otros tres estadísticos. El test de
Pillai tiende a ser mas robusta ante la no normalidad y heterocedasticidad
en comparación de los otros tres.
Aplicación 1 Se presentan datos de ocho árboles, cada uno de seis pa-

trones de manzano (Rencher (2002)). Cuatro variables dependientes se re-
gistran para cada árbol: perímetro de tronco a los 4 años (mm x 100), brote
superior a los 4 años (m), perímetro de tronco a los 15 años (mm x 100),
y el peso del árbol en la tierra a los 15 años (libra x 1000). La variable de
agrupación es patrón, y las cuatro variables dependientes son y1, y2, y3, y4.
Existen seis patrones y cuatro variables dependientes. Testearemos para

ver si los cuatro vectores de media de los seis patrones son diferentes. La
hipótesis nula será que los vectores de media son los mismos para los seis
73
74 5. Análisis Multivariante
patrones.
use arboles, clear

manova y1 y2 y3 y4 = rootstock
mat list e(E)
mat list e(H_m)
mat list e(eigvals_m)
mat list e(aux_m)
Aplicación 2 Rencher (1998) presenta datos no balanceados de Woodard

(1931) para un análisis MANOVA de dos vías con tres variables dependien-
tes (y1, y2, y y3) medidos en los pacientes con fracturas de la mandíbula,
y1 es la edad del paciente, y2 son los linfocitos de sangre, y y3 son los
polimorfonucleicos de sangre. Los dos factores de diseño o vías son el gé-
nero (1 = hombre, 2 = mujer) y fractura (tipo de fractura: 1 = una fractura
compuesta, 2 = dos fracturas compuestas, y 3 = una fractura simple).
use jaw, clear

manova y1 y2 y3 = gender fracture gender#fracture
5.2. Análisis Cluster

El análisis de Cluster intenta determinar las agrupaciones naturales (o
conglomerados) de observaciones. A veces, este proceso se denomina “cla-
sificación”, pero este término es utilizado por otros el análisis de análisis
discriminante, que está relacionada, pero no es lo mismo. Para evitar confu-
siones, utilizaremos “análisis cluster” o “Cluster” al referirse a la búsqueda
de grupos de datos. Definir análisis de conglomerados es difícil. Kaufman
y Rousseeuw (1990) comienza su libro diciendo: “El análisis de clusters es
el arte de encontrar grupos de datos.” Everitt et al. (2011) utiliza los tér-
minos “cluster”, “grupo” y “clase” y dice, en relación con una definición
formal de este término: “De hecho, resulta que tal definición formal no sólo
es difícil, sino que puede estar fuera de lugar”.
Everitt et al. (2011) y Gordon (1999) proporcionan ejemplos de la uti-

lización de análisis de conglomerados, como en el perfeccionamiento o la
redefinición de las categorías de diagnóstico psiquiatríco, detección de si-
militudes en los artefactos manejados por los arqueólogos para el estudio
de la distribución espacial de los tipos de antiguedades, el descubrimiento
de las relaciones jerárquicas en la taxonomía y la identificación de grupos
de ciudades similares, por lo que una ciudad de cada muestra se puede
usar en una investigación de mercado. Además, la actividad que ahora se

5.2. Análisis Cluster 75
llama “minería de datos” se basa en gran medida en los métodos de análi-

sis de cluster.
Consideramos que el análisis de conglomerados como una técnica de

análisis de datos exploratorio. Según Everitt, “Muchas de las técnicas de
análisis de cluster-han tenido lugar junto a otras técnicas de análisis de da-
tos exploratorios como herramientas de la estadística aplicada. El término
exploratorio es importante aquí porque explica el “p-value” en gran medi-
da ausente, pero omnipresente en muchas otras áreas de la estadística. Los
métodos de Cluster están destinados principalmente para generar mas que
para las pruebas de hipótesis”
Hay varios tipos generales de métodos de análisis de clúster, cada uno

tiene muchos métodos específicos. Además, la mayoría de los métodos de
análisis de cluster, permiten una variedad de medidas de distancia para de-
terminar la similitud o diferencia entre las observaciones. Algunas de las
medidas no cumplen los requisitos para ser llamado una métrica de dis-
tancia, por lo que se utiliza el término “medida de disimilitud” de manera
general en lugar de distancia. Medidas de similitud puede ser usado en
lugar de las medidas de disimilitud. Hay un número infinito de medidas
de similitud y disimilitud. Por ejemplo, hay un número infinito distancia
métrica de Minkowski, por ej, de valor absoluto euclidiana, y las distancias
máxima de valor, son casos especiales.
Además el método de cluster y las medidas de elección de disimilitud,

si se va a realizar un análisis de conglomerados, es posible que se decida
realizar transformaciones de datos y/o selección de variables antes de cla-
sificar. Entonces se puede ser que se necesite determinar cuántos grupos
hay realmente en los datos, y hacer uso de reglas de detención. Hay un
número grande de reglas de detención mencionados en la literatura. Por
ejemplo, Milligan y Cooper (1985) comparan 30 reglas de detención dife-
rentes.
Los mas comunes metodos de clasificación en clusters son los anidados

o las clasificaciones jerárquica. En la practica los usuarios no estan interesa-
dos en el dendograma sino en seleccionar un numero particular de clusters
que sean optimos para la data, lo cual implica cortar el dendograma en
algun nivel en particular.
La metodologia jerárquica opera no sobre la data sino sobre una matriz

de distancia inter-individuo calculada a partir de la data. La medida mas
común de distancia es la Euclideana.

Hay una variedad de tecnicas de clasificación hierarchical, dado las di-

ferentes maneras en la cual la distancia entre un cluster que contiene varias
observaciones y una simple observación o entre dos clusters, pueden defi-
nirse. Las distancias inter-clusters mas comunmente usadas son:
Single linkage clustering: distancia entre el par mas cercano de obser-
vaciones donde un miembro de el par esta en el primer cluster y el
otro en el segundo cluster.
Complete linkage clustering: distancia entre los mas remotos pares
de observaciones donde un miembro del par esta en el primer cluster
y el otro en el segundo cluster.
Average linkage: promedio de distancias entre todos los pares de ob-
servaciones donde un miembro de los pares esta en el primer cluster
y el otro en el segundo cluster.
Una aproximación alternativa a la clasificación por cluster es la provis-
ta por los metodos Hierarchical describiendo los k-means clustering. Aqui
la data es particionada en un numero especifico de grupos fijados por el
usuario, mediante un proceso iteractivo en el cual, se empiada desde un set
inicial de medias de grupos, cada observacion es colocada en el grupo que
tiene el vector de media mas cercano (en el sentido Euclideano). Luego de
cada interacción, un nuevo grupo de medias es calculado y el procedimien-
to se repite hasta que no existan observaciones que cambien de grupos. La
media del grupo inicial puede ser elegida de varias maneras. En general,
el método es aplicado a los datos para diferentes numeros de grupos y un
intento es hecho para seleccionar el número de grupos que proveen el me-
jor ajuste para la data.
Aplicación 1
Trabajamos con los datos del club de mujeres. Treinta mujeres se les
hicieron 35 preguntas de sí o no. Nuestro interés esta en la agrupación
de las 30 mujeres para la colocación en las mesas de almuerzo. Aquí el
interés se centra en la comprensión de la relación entre las 35 variables.
¿Qué preguntas producen patrones de respuesta similares a partir de las
30 mujeres?
use jaw, clear
manova y1 y2 y3 = gender fracture gender#fracture
Aplicación 2
Los datos son recogidos por Colonel L.A. Waddell, y reportados por
Morant(1923). Los datos consisten en las medidas de 32 craneos encontra-
dos en el sud oeste y oeste del Tibet. Hay cinco medidas (todas en milime-
tros) que se recopilan

5.2. Análisis Cluster 77
y1; mayor longitud del craneo
y2: mayor anchura horizontal del craneo
y3: altura del craneo
y4: longitud de la cara superior
y5: amplitud de cara, entre los puntos exteriores y los pómulos
La pregunta de interes es si hay evidencia de diferentes tipos o clases

de craneos
use tibetan, clear

g id=_n
*Analisis inicial
graph matrix y1-y5, half
*Calculando el Cluster
cluster singlelinkage y1-y5, name(s1)
cluster dendrogram
cluster completelinkage y1-y5, name(c1)

cluster dendrogram
cluster averagelinkage y1-y5, name(a1)

cluster dendrogram
*Indice de Duda - Hart

cluster stop s1, rule(duda) groups(1/5)
cluster stop c1, rule(duda) groups(1/5)
cluster stop a1, rule(duda) groups(1/5)
*Clasificando la data según Cluster

cluster generate g5c1=groups(5), name(c1)
sort g5c1 id
forvalues i=1/5 {
display " "
display "cluster " ì'
list id if g5c1==ì', noobs noheader separator(0)
}
*Analizando Clasificación
tab g5c1
table g5c1, c(mean y1 mean y2 mean y3 mean y4 mean y5) format(%4.1f)

*Analizando graficamente la Clasificación

cluster generate g3a1=groups(3), name(a1)
graph matrix y1-y5, mlabel(g3a1) mlabpos(0) msymbol(i) half
*Reconsiderando los tipos de Clasificación según el análisis empírico

gen c12=1 if id<=17
replace c12=2 if id>17
cluster generate g2s1=groups(2), name(s1)
cluster generate g2c1=groups(2), name(c1)
cluster generate g2a1=groups(2), name(a1)
tab c12 g2s1, row
tab c12 g2c1, row
tab c12 g2a1, row
5.3. Análisis Discriminante

El análisis discriminante se usa para describir las diferencias entre los
grupos y explotar esas diferencias en colocar (clasificar) las observaciones
de un grupo no conocido de algún miembro de dichos grupos. El análisis
discriminante es llamado clasificación, sin embargo dicho termino es usado
en el análisis promedio del cluster.
Las aplicaciones del análisis de discriminante se dan en los diagnosticos
médicos, las investigaciones de mercado, la clasificación de especimenes
en la antropologia, prediciendo las fallas o existos en una empresa, coloca-
ciòn de estudiantes (o trabajadores) basados en los resultados previos de
colocación de estudiantes (o trabajadores), etc.
Si uno tiene datos de un grupo conocido, es posible clasificar con otro

grupo desconocido mediante el análisis discriminante para examinar las
diferencias entre los grupos , basados en los datos conocidos y asignando
miembros de los grupos conocidos a los desconocidos.
Algunos investigadores fijan su interes en los aspectos descriptivos del

análisis discriminante mas que en su clasificación, para otros la clasifica-
ción es lo mas relevante. Si bien existen varios métodos de discriminación,
se puede realizar la descripción y la predicción.
Aplicación 1
Johnson y Wichern (2007) introducen los conceptos de análisis discri-
minante con dos grupos de datos. Una muestra de 12 propietarios de cor-
tadora de césped de campo de equitación y 12 no propietarios que son

5.4. Análisis de Componentes 79
muestreados en una ciudad, de los cuales se obtienen los ingresos en miles

de dólares y el tamaño del lote en miles de pies cuadrados. Un fabricante
de cortadora quiere ver si estas dos variables son adecuadas para separar a
los propietarios independientes de los no propietarios, y si es así entonces
dirigir su plan de marketing sobre la base de la separación de los propie-
tarios y de los no propietarios.
use lawnmower2, clear

tw (sc lotsize income if owner==0)(sc lotsize income if owner==1), legend(label
*Análisis discriminante LDA

discrim lda lotsize income, group(owner)
estat classtable, loo nopriors
estat list, class(loo) probabilities(loo) misclassified
*Recta de ajuste para realizar la discriminación

estat loadings, standardized unstandardized
discrim lda lotsize income, group(owner) notable

estat manova
estat anova
estat canontest
estat loadings, all format(%6.2f)
estat structure, format(%9.6f)
estat classfunctions, format(%8.3f)
*Predicción
input
. 90 20
. 110 20
. 130 20
end
predict grp in 25/L, class

predict pr* in 25/L, pr
list in 25/L
5.4. Análisis de Componentes

El análisis de componentes principales es una tecnica estadistica usada
para la reducción de datos. La dirección del vector propio de la descompo-
sición espectral de la matriz de correlación o covarianzas de las variables,

describe una serie de combinaciones lineales no correlacionadas de las va-

riables que se analizan contenidas en la varianza.
El objetivo del ACP es encontrar una amplia combinación lineal de las

variables con la mayor varianza. El primer componente principal tiene que
maximizar la varianza, el segundo debe maximizar la varianza y no es-
tar correlacionado con el primer componente, etc. El último componente
tendra la menor cantidad de variabilidad de las variables, dado que los
primeros componentes contienen mas información que los últimos.
Aplicación 1
Consideramos un conjunto de datos de las mediciones audiométricas
en 100 varones, de 9 años. Las mediciones son intensidades mínimas dis-
cernibles a cuatro frecuencias diferentes con la oreja izquierda y derecha
(Jackson 2003). El lft1000 variable se refiere a la oreja izquierda a 1.000 Hz.
use audiometric, clear

d
correlate lft* rght*
summarize lft* rght*, sep(4)
pca lft* rght*

pca lft* rght*, components(4)
pca l* r*, comp(2) vce(normal)
estat vce
testparm lft* rght*, equal eq(Comp1)
mvtest normality lft* rght*, stats(all)
pca l* r*, comp(4)

estat loadings, cnorm(eigen)
estat residual, fit format(%7.3f)
estat smc
estat anti, nocov format(%7.3f)
estat kmo
screeplot, mean
screeplot, ci
loadingplot
loadingplot, comp(3) combined

Sesión 6
Bootstrap y Montecarlo
Las técnicas de simulación en estadística, como son los métodos de

Monte Carlo, y los procedimientos de remuestreo conocidos como boots-
trap, son de gran utilidad cuando no tenemos expresiones cerradas para
calcular medidas de incertidumbre como son la desviación estándar de
estimadores y los intervalos de confianza. Estos métodos de simulación
permiten obtener estimaciones con menores supuestos que los métodos
analíticos, a cambio de un trabajo computacional mas intenso. La disponi-
bilidad creciente de los recursos computacionales, hacen de las técnicas de
simulación una herramienta de uso creciente.
En el contexto estadístico, entendemos por simulación, la técnica de

muestreo estadístico controlado, que se utiliza conjuntamente con un mo-
delo, para obtener respuestas aproximadas a preguntas que surgen en pro-
blemas complejos de tipo probabilístico.
Dos métodos que son aplicables en el análisis de datos de medición,

son el método de simulación de Monte Carlo y el método de remuestreo
de bootstrap. Estos son de gran utilidad para determinar propiedades es-
tadísticas de las mediciones. A continuación presentamos estos dos proce-
dimientos de análisis, acompañados con ejemplos sencillos para ilustrar su
aplicación.
6.1. Monte Carlo

un sistema de medición se modela por una relación funcional entre las
magnitudes de entrada X1 , X2 , ..., X p , y el mensurando Y, que es la magni-
tud de salida o respuesta del sistema.
Y = f ( X1 , X2 , ..., X p )
En este sistema de medición, los valores de entrada son las variables de
81
82 6. Bootstrap y Montecarlo
influencia, exogenas que determinan el valor de la medición del mensuran-

do o endogena. Las variables de entrada son de naturaleza aleatoria y su
comportamiento está determinado por las correspondientes funciones de
distribución G1(x1), G2(x2), ..., Gp(xp). La información de estas distribu-
ciones se transmite hacia la variable Y a través de la función de medición
f. Este proceso se conoce como propagación de distribuciones, y tiene una
mayor generalidad que el proceso de propagación de incertidumbres, de-
bido a que maneja una cantidad mayor de información sobre la medición
de la endógena.
Cuando conocemos las distribuciones de las variables de entrada X1,X2,

...,Xp„ generamos un valor al azar de cada una de ellas y obtenemos el va-
lor de Y, evaluando el modelo de medición f en estas entradas aleatorias.
Este proceso se repite un número grande M de veces, y así con las realiza-
ciones de Y obtenemos una función de distribución empírica, a partir de la
cual, podemos obtener cualquier estadística del mensurando (endógena),
acompañada por un intervalo de confianza. Este tipo de simulación, se de-
nomina simulación de Monte Carlo.
El modelo de un sistema de medición es una función que mapea las

variables de influencia en una estimación de la variable Y bajo medición.
La interpretación de este proceso como una propagación de distribuciones
(de las variables de entrada a la salida que corresponde a la medición),
es de una mayor generalidad que el enfoque de propagación de incerti-
dumbre, ya que en este último, solo le damos seguimiento a las medias y
desviaciones estándar, a través de la aproximación de Taylor de la función
de medición. Este proceso de aproximación no es adecuado en el caso de
funciones de medición altamente no lineales. El proceso de muestrear las
variables de influencia y la transformación de sus realizaciones en una me-
dición, es justamente el proceso de propagación de distribuciones. Y esto
no es otra cosa que una simulación de Monte Carlo.
Si deseamos evaluar las propiedades de los estimadores o comparar un

estimador propuesto con otro, en un contexto donde la derivación analí-
tica de las propiedades no son factibles. En ese caso, como econometrís-
tas, usaremos el método de simulación de Monte Carlo, hechos para usar
seudos-números aleatorios de un error de distribución y múltiples replicas
sobre un conjunto de parámetros conocidos. Esta metodología es particu-
larmente relevante en situaciones donde lo analítico involucra lo asintótico,
para respuestas y resultados de un gran tamaño muestral. Las cualidades
de generar números seudo-aleatorios, es importante, uno desearía un pa-
quete con las funciones estadísticas que permita correr números aleatorios
que sean fácilmente generados de una distribución especifica: no necesa-

6.1. Monte Carlo 83
riamente normal o t, pero de un numero de distribuciones adicionales, las

cuales dependen del experimento.
Con Stata, se hace útil el entorno de simulaciones Monte Carlo. Realizar

simulaciones requiere escribir un programa en Stata, no necesariamente
un archivo do conteniendo los comandos de Stata, pero si una secuencia
de comandos que comiencen con la opción “program define”. El programa
muestra el experimento de simulación y especifica como las replicas fueron
hechas. Nosotros llamamos a las simulaciones con el comando “simulate”
y ejecutamos un número de replicas.
clear
capture program drop olssim
program olssim, rclass
version 9
syntax [, obs(integer 1) beta0(real 0) beta1(real 0) scale(real 1)]
drop _all
set obs òbs'
generate x = uniform()*10
generate e = invnormal(uniform())/sqrt(invchi2(1,uniform()))*`scale'
generate y = `beta0' + `beta1' * x + e
regress y x
return scalar t1 = (_coef[x]-`beta1')/_se[x]
end
simulate t1 = r(t1), reps(1000): olssim, obs(30) beta0(1) beta1(0.5)
sum t1
histogram t1, kdensity plot(function stdnorm = normalden(x,0,1), \\\
ra(-4 4) lpattern(dash))
Por momentos, consideremos la simulación del comportamiento del es-

timador de la media muestral, en un contexto de heterocedasticidad. Como
la media muestral es un estimador de mínimo cuadrados, nosotros sabe-
mos que su estimación puntual estará insesgada, pero los intervalos esti-
mados, serán sesgados. Podríamos derivar un resultado analítico para un
modelo simple, pero en este caso calcularemos el grado de sesgo del inter-
valo estimado, mediante la simulación.
a
Tomemos el modelo siguiente: yi = µ + ei donde ei → N (0, σ2 ) dejemos
que e sea una N(0,1) multiplicada por el factor czi donde zi varia por cada
individuo i.
Variaremos el parámetro c entre 0.1 y 1 y determinaremos el efecto del

estimador puntual y el intervalo de µ, como comparación, calcularemos

una segunda variable aleatoria la cual tiene heterocedasticidad con el factor

de escala igual a cz̄.
program define mcsimul1, rclass

version 9
syntax [, c(real 1)]
tempvar e1 e2
gen è1' = invnorm(uniform())*`c'*zmu
gen è2' = invnorm(uniform())*`c'*z_factor
replace y1 = true_y + è1'
summ y1
return scalar mu1 = r(mean)
return scalar se_mu1 = r(sd)/sqrt(r(N))
summ y2
return scalar mu2 = r(mean)
return scalar se_mu2 = r(sd)/sqrt(r(N))
return scalar c = `c'
end
Definimos dos variables aleatorias: y1 el cual contiene el error homoce-

dastico e1 y y2 el cual contiene el error heterocedastico e2 . Estos errores son
generados como variables temporales en el programa y añadiendolos a la
variable común “true_y”. En el ejemplo, la variable será el dato actual.
Calculamos la media muestral y su error estándar para las variables y1

y y2, retornando cuatro estadísticos en escalares, como también la variable
“c”, es decir, el grado de heterocedasticidad.
Realicemos 1000 simulaciones Monte Carlo, para cada nivel de “c” el

cual variara de 10, 20,...,100.
Usaremos la base de datos census2, el cual considera 50 individuos (es-

tados) u observaciones y la variable región, la cual identificara la región de
cada estado. El código de la variable región (1, 2, 3, 4) es usado como el
z_factor en las simulaciones, para crear la heterocedasticidad en los erro-
res de cada región. La media de y1 , y y2 valor actual de la variable, será
evaluada en función a la variable edad, por cada estado.
local reps 1000

forv i=1/10 {
qui webuse census2, clear
gen true_y = age
gen z_factor = region

6.1. Monte Carlo 85
sum z_factor, meanonly

scalar zmu = r(mean)
qui {
gen y1 = .
gen y2 = .
local c = ì'*10
simulate c=r(c) mu1=r(mu1) se_mu1=r(se_mu1) mu2=r(mu2) \\\
se_mu2=r(se_mu2), saving(ccì',replace) nodots reps(`reps'): \\\
mcsimul1, c(`c')
}
}
Para cada valor de i, se vuelve a cargar census2 y se calcula la variable

“z_factor” y el escalar “zmu”. Iniciamos los valores de y1 , y2 como missing
values, definiendo una variable local “c” para el nivel de heterocedastici-
dad e invocando al comando “simulate”.
El comando contiene una lista de objetos para crearse, opciones segui-

dos de una coma y el nombre del programa que será utilizada para la
simulación, en nuestro caso “mcsimul1”, luego de dos puntos. En nuestro
caso, solo pasamos la opción “c”, como el valor de macro local.
Las opciones de “simulate” definen la creación de nuevas variables a si-

mular como “c”, “mu1”, “se_mu1”, “mu2”, “se_mu2”, especificando cuan-
tas repeticiones se realizaran y que los resultados de la simulación serán
guardados en un archivo llamado cc‘i’.dta La primera vez para los valo-
res del bucle, el programa creara un archivo cc1.dta, con 1000 observacio-
nes de “c”, “mu1”, “se_mu1”, “mu2”, “se_mu2”. Incluiremos a “c” porque
deseamos combinar los archivos en uno solo y debemos identificar las ob-
servaciones que han sido generados con el valor particular de “c” (grado
de heterocedasticidad).
Ahora combinamos los archivos en un solo fichero.
use cc1
forv i=2/10 {
append using ccì'
}
gen het_infl = se_mu2 / se_mu1
save cc_1_10,replace
El fichero cc_1_10.dta, contiene 10,000 observaciones de “c”, “mu1”,

“se_mu1”, “mu2”, “se_mu2”, tan bien como una variable, "het_infl", el cual
contiene al ratio del error estándar de la variable heterocedastica y de la

variable homocedastica.
La evaluación de los resultados de la simulación, se realiza con algunos

estadísticos simples, por cada grado de heterocedasticidad “c”:
tabstat mu1 se_mu1 mu2 se_mu2 het_infl, stat(mean) by(c)

tabstat het_infl, stat(mean q iqr) by(c)
La primera tabulación provee, de un promedio de las variables almace-

nadas para cada valor “c”. La segunda tabla se enfoca en el ratio “het_infl”
calculando su media y cuartiles.
Los resultados claramente indican como el grado de heterocedasticidad

se incrementa, el error estándar de la media es sesgado hacia mas de un
6 % sobre el promedio (casi un 5 % en términos de mediana o p50), para la
mayoría de los casos considerados.
Consideremos ahora, cómo una pequeña variación sobre el programa,

puede ser usada para evaluar el poder del test, usando la misma data ge-
nerada para comparar dos series que contienen errores homocedasticos y
heterocedasticos. En este caso, no usaremos los datos reales de estas se-
ries, pero las trataremos como variaciones aleatorias alrededor de un valor
constante.
program define mcsimul2, rclass

version 9
syntax [, c(real 1)]
tempvar e1 e2
gen è1' = invnorm(uniform())*`c'*zmu
gen è2' = invnorm(uniform())*`c'*z_factor
ttest y1 = 0
return scalar p1 = r(p)
ttest y2 = 0
return scalar p2 = r(p)
return scalar c = `c'
end
El programa a diferencia del primero, calculara dos test de hipótesis,

con hipótesis nula de que las medias de y1 , y2 son ceros. El p-valor de
estos test son retornados al llamar al programa, para cada valor de “c”,
que denota el grado de heterocedasticidad.

6.1. Monte Carlo 87
global true_mu 50
local reps 1000
forv i=1/10 {
qui webuse census2, clear
gen true_y = $true_mu
gen z_factor = region
sum z_factor, meanonly
scalar zmu = r(mean)
qui {
gen y1 = .
gen y2 = .
local c = ì'*10
simulate c=r(c) p1=r(p1) p2=r(p2), saving(cccì',replace) \\\
nodots reps(`reps'): mcsimul2, c(`c')
}
}
use ccc1, clear

forv i=2/10 {
append using cccì'
}
save ccc_1_10,replace
gen RfNull_1 = (1-p1)*100

gen RfNull_2 = (1-p2)*100
gen R5pc_1 = (p1<0.05)/10
gen R5pc_2 = (p2<0.05)/10
El programa, considera como opciones para “simulate” la definición de

nuevas variables creadas por cada simulación cuando “c”, “p1” y “p2” son
especificadas para las repeticiones “reps”, guardando los resultados de la
simulación en un fichero llamado ccc‘i’.dta
Luego de ejecutar este archivo do, otra vez combinamos los ficheros se-
parados creando un bucle con para un solo archivo, y generamos varios
variables para evaluar el poder del test.
La variable RfNull, calcula la covarianza del test estadístico en porcen-

taje. Si en promedio p1 es 0.05, el test rechaza al 95 % la hipótesis nula de
que la media de y1 y y2 sea cero cuando en realidad es 50.
La variable R5pc evalúa la condición de que p1 (p2), el valor de proba-

bilidad de el t-test, es mayor al 5 %. Hay 10 divisiones porque deseamos

expresar la medida de poder en términos de porcentajes con múltiples me-
dias por cada 100 datos pero dividiéndolas en 1000 replicas continuas y
tomando un resumen estadístico de estos valores.
Tabularemos las variables RFNull, y R5pc para evaluar como el poder

del test, varia para cada grado de heterocedasticidad, “c”:
tabstat p1 p2 RfNull_1 RfNull_2,stat(mean) by(c)

tabstat R5pc_1 R5pc_2,stat(sum) by(c) nototal
6.2. Bootstrap
La calidad de un estimador está relacionada con la varianza de dicho
estimador. Esto implica que un estimador puntual de una cantidad de inte-
rés, debe ir acompañado por una estimación de su varianza, o una medida
de su incertidumbre como puede ser un intervalo de confianza de dicha
cantidad de interés. Algunas veces es difícil calcular la incertidumbre de
un estimador, debido a que no hay una expresión cerrada que permita cal-
cular la varianza del estimador, este es por ejemplo el caso de la mediana.
Existe una metodología, que fue desarrollada en 1979 por Efron , pa-
ra calcular la variabilidad de un estimador, conocida como bootstrap, que
consiste en tomar muestras aleatorias de la muestra que tenemos original-
mente, y para cada una de ellas calculamos nuestro estimador. Este proceso
lo repetimos un número grande B de veces y encontramos la distribución
empírica de las estimaciones, que utilizamos para estimar la incertidumbre
del estimador, ya sea como desviación estándar o intervalo de confianza.
El paradigma de esta técnica surge de una analogía en la cual la mues-

tra observada asume el papel de la población de la cual proviene. Esto es,
el procedimiento consiste en tomar muestras de una muestra. A este tipo
de procedimiento también se le conoce como remuestreo. En la Figura ilus-
tramos este procedimiento.
6.2.1. Algoritmo de remuestreo

El punto de partida es una muestra de tamaño n, x=(x1, x2, ..., xn) toma-
da de la población. De esta muestra tomamos una muestra de tamaño n con
reemplazo, xb∗ = ( x1∗ , x2∗ , ..., xn∗ ). Para esta muestra,calculamos la estimación

6.2. Bootstrap 89
Figura 6.1: Determinación de la variabilidad por remuestreo
θˆb∗ de la cantidad de interés θ. Repetimos lo anterior B veces, y obtene-

mos la distribución empírica de las estimaciones bootstrap θˆb∗ , b=1,2,...,B.
La distribución muestral de θ̂ , se aproxima por la distribución bootstrap
de θˆ∗ . De esta distribución empírica, calculamos finalmente la desviación
estándar, y un intervalo de confianza, medidas de incertidumbre del esti-
mador θ̂ de θ. Además de estas medidas de incertidumbre, la información
que tenemos en las muestras bootstrap generadas nos permiten conocer la
magnitud de sesgo de un estimador.
La expresión para calcular la estimación bootstrap de la desviación es-

tándar es:
B B 2 1/2
1
B − 1 b∑
DEb = θ̂b − (1/B) ∑ θ̂b
∗ ∗
=1 b =1
La estimación bootstrap de la medida de sesgo del estimador θ̂ de θ, es

la diferencia entre la media de las estimaciones bootstrap θ̂b∗ , y la estima-
ción θ̂ de θ, y está dada por:
B
sesgob = (1/B) ∑ θ̂b∗ − θ̂
b =1
La incertidumbre de la estimación en forma de intervalo de 100(1 −

2α) % de confianza, se obtiene tomando los cuantiles simétricos α y (1 −
α) de la distribución bootstrap de θ̂ ∗ , con esto evitamos la suposición de
normalidad de la distribución bootstrap de θ̂ ∗ . Este intervalo de confianza
simétrico es simplemente:
[ Fθ̂−∗ 1 (α), Fθ̂−∗ 1 (1 − α)]

Stata tiene la ventaja de tener el bootstrap como comando, la cual pue-

de ser incorporada para la estimación de regresiones (logísticas, o MCO).
El bootstrap automatiza el procedimiento para el calculo de estadísticos de
interés y compara las medidas relevantes. Como este comando, hay algu-
nas instancias cuando la estadísticas que se desea bootstrapear no funcio-
nan con el comando, para tal escenario, uno necesita programar su propio
bootstrap.
Usaremos la base de datos de escuelas la cual regresionara las notas de

lectura, el genero, las notas de matemáticas, escritura y el sistema socioeco-
nómico, y bootstrapeamos la raíz cuadrada del error cuadrático medio.
use highschool
regress read female math write ses
bootstrap rmse=e(rmse), reps(100) seed(12345): \\\
estat bootstrap, all
El escribir un bootstrap, require de cuatro pasos:
El primero, obtener la estimación inicial y guardar los resultados en

una matrix. Luego, debemos notar el número de observaciones usa-
do en el análisis. Esta información será usada cuando resumamos el
resultado de bootstrap.
Luego, nosotros escribiremos un programa llamado myboot, que mu-

estrea la data con reemplazos y retorna el estadístico de interés. En
este paso, nosotros empezamos preservando las data con el comando
“preserve”, luego tomamos el bootstrap de la muestra con “bsample”.
De la muestra bootstrapeada, nosotros corremos nuestro modelo de
regresión y reportamos los estadísticos de interés con el comando
“return scalar”. Note que cuando definimos un programa, “program
define myboot”, especificamos la opción “rclass”, sin esta opción, no-
sotros no seriamos capaces de bootstrapear los estadísticos. “myboot”
concluye con el comando “restore”, el cual retorna la data a su estado
original.
El tercer paso, será usar el prefijo “simulate” a lo largo de “myboot”,

lo cual recoge los estadísticos del muestreo bootstrapeado. Especifi-
camos el parámetro de entrada, y el número de replicas.
Finalmente, usamos el comando “bstat” para resumir los resultados.

Incluimos las estimaciones iniciales, guardadas en la matrix “obser-
ve” y el tamaño de la muestra con la opción “stat” y “n”.

6.2. Bootstrap 91
quietly regress read female math write ses

matrix observe = e(rmse)
capture program drop myboot
program define myboot, rclass
preserve
bsample
return scalar rmse = e(rmse)
restore
end
simulate rmse=r(rmse), reps(100) seed(12345): myboot
bstat, stat(observe) n(200)

estat bootstrap, all
Uno puede estar ejecutando una regresión binomial negativa con una
muestra de 488 firmas. Por varias razones, uno decide usar el bootstrap.
¿Qué tan grande debería ser el muestreo del bootstrap respecto al número
total de casos en la base de datos para ser comparados?
Cuando se usa el bootstrap para estimar los errores estándar y construir

intervalos de confianza, el tamaño muestral original, debería ser usado.
Consideremos el caso en el cual nosotros deseamos bootstrapear el coe-

ficiente de una regresión. El tamaño de muestra es de 74, pero supongamos
que solo trabajamos con 37 observaciones, para 2000 veces de remuestreo.
sysuse auto, clear

set seed 3957574
bootstrap _b[foreign], size(37) reps(2000) dots: \\\
regress mpg weight foreign
Si consideramos ahora 74 observaciones:
set seed 91857785

bootstrap _b[foreign], reps(2000) dots: regress mpg weight foreign
Como se observa, la diferencia en el sesgo estimado es por la naturaleza

aleatoria del bootstrap y no por el número de observaciones que son toma-
das para la replica. Sin embargo, las estimaciones de los errores estándar
son dependientes del número de observaciones en cada replica. En prome-
dio, esperaríamos que la varianza estimada para el coeficiente de “foreign”

sea el doble para la muestra de 37 observaciones que para la muestra de

74 observaciones. Esto es por la forma en la que la varianza muestral es
calculada, s2/n.
Para casos en las que la data no juega un rol en la determinación del

numero de replicas requeridas, las datas deberían de tener suficientes ob-
servaciones para que una distribución empírica pueda ser usada como una
aproximación a la verdadera distribución poblacional.
Respecto al número de replicas, no hay una respuesta fija sobre cual

es el tamaño optimo, uno debería escoger un numero infinito de replicas
puesto que, a un nivel formal, es lo que el bootstrap requiere. La clave de
la utilidad del bootstrap es la convergencia.
Las pautas para la elección del número correcto de replicas:
Elegir un amplio y tolerable número de replicas.
Cambiar el número aleatorio. Obtener la estimación del bootstrap una

vez mas, usando el mismo número de replicas.
¿Los resultados cambian radicalmente? Si es así, el primer numero

fue muy pequeño. Intentar con un número mayor. Si los resultados
son similares, se tendrá el valor adecuado.
Si se deseara tener mayor precisión, se podría tomar mas replicas para

adivinar la convergencia de la desviación estándar del parámetro asociado
a la variable "foreign":
El eje vertical muestra el bootstrap de los errores estándar para el pa-

rámetro de “foreign”. Aún con mas de 1000 replicas, los errores estándar
variarían entre 1.09 1.21 y el 90 % de los resultados están entre 1.11 y 1.18.
bootstrap _b[foreign], reps(20000): regress mpg weight foreign
Realicemos un programa que esquematice la convergencia:
capture program drop Accum
program Accum
postfile results se bias n using sim, replace
forvalues n=20(20)4000{
noisily display " `n'" _c

6.2. Bootstrap 93
quietly bootstrap _b[foreign] e(N), reps(`n'): \\\

tempname bias
matrix `bias'=e(bias)
local b_bias=`bias'[1,1]
local n=e(N_reps)
local se=_se[_bs_1]
post results (`se') (`b_bias') (`n')
}
postclose results
end
clear
sysuse auto
set seed 12345
Accum
use sim, clear
scatter se n, xtitle("replicas") ytitle("errores estándar del bootstrap")


Bibliografía
[1] Moya, Rufino - Estadística Descriptiva.
[2] Moya, Rufino; Saravia, Gregorio. -Probabilidad e Inferencia Estadísti-

ca.
[3] Wooldridge, Jeffrey M. - Introducción a la Econometría.
[4] Gujarati, Damodar - Fundamentos de Econometría.
[5] Shahidur R., Gayatri B., Hussain A. - Handbook on Impact Evaluation
[6] Sophia Rabe-Hesketh, Brian S. Everitt - A Handbook of Statistical

Analyses using Stata
[7] J. Scott Long, Jeremy Freese - Regression Models for Categorical De-
pendent Variables Using Stata, 2nd Edition.
95

STATA

Transféré par

Informations du document

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

STATA

Transféré par

Droits d'auteur :

Formats disponibles

Stata

Juan Carlos Abanto Orihuela

Stata Avanzado www.giddea.com

3.6.2. Distribución Weibull . . . . . . . . . . . . . . . . . . . . 45

4. Modelos Semi y No Paramétricos 59

Stata Avanzado www.giddea.com

Existen muchas formas de tomar una muestra aleatoria de una base de

1.1. Muestreo Sin Reemplazo y Con Reemplazo

use base1, clear

use base1, clear

use base1, clear

use base1, clear

use base1, clear

use base1, clear

1.1.2. Muestreo con Reemplazo

use base2, clear

use base2, clear

Stata Avanzado www.giddea.com

use base2, clear

1.2. Diseños Muéstrales

Las ponderaciones para los procesos muestrales son:

PSU: Es la unidad muestral primaria. Es la primera unidad que es

Stata Avanzado www.giddea.com

Strata: La estratificación es un método para quebrar la población en di-

FPC: La corrección de la población finita. Esto es usado cuando la frac-

En el siguiente ejemplo, nosotros trabajaremos con una data que repre-

1.3. Técnicas de Muestreo

use escuelas, clear

Stata Avanzado www.giddea.com

recode awards (1=0) (2=1)

Nosotros empezamos nuestro análisis de los datos con algunas estadís-

svy: total yr_rnd

Stata Avanzado www.giddea.com

svy: reg api00 awards meals

1.3.2. Muestreo Aleatorio Estratificado

La diferencia entre este muestreo y el MAS, es que ahora se conside-

use escuelas, clear

set seed 123456789

Stata Avanzado www.giddea.com

save estratificado, replace

Usamos el comando “svy:mean” para conseguir la estimación poblacio-

svy: mean api00 growth

En los resultados de “svy: total” que se muestra se observa que el efecto

svy: total yr_rnd

svy: total yr_rnd, over(strat)

Ventajas del MAE sobre el MAS:

Seguridad de que todos los subgrupos de la población serán mues-

Análisis de cada subgrupo por separado y análisis global.

Limitantes del MAE:

Stata Avanzado www.giddea.com

Contar con la variable auxiliar para cada elemento de la población.

1.3.3. Muestreo Sistemático

El muestreo consiste en abstraer una muestra de elementos que son or-

Stata Avanzado www.giddea.com

set seed 123456789

Para seleccionar la muestra, nosotros ordenamos la data por el numero

recode awards (1=0) (2=1)

svyset [pweight = pw], fpc(fpc)

Stata Avanzado www.giddea.com

svy: total yr_rnd

svy: tab both awards

1.3.4. Muestreo por Conglomerado en Una Etapa

Se realiza eligiendo varios de esos grupos al azar, y ya elegidos algu-

Stata Avanzado www.giddea.com