2017 La Evaluación de Impacto en La Práctica PDF

La evaluacin de
impacto en la
prctica
Segunda edicin
Se recomienda visitar el sitio web del libro
La evaluacin de impacto en la prctica en
http://www.worldbank.org/ieinpractice. El
sitio web contiene materiales de apoyo, e
incluye soluciones para las preguntas del
estudio de caso HISP del libro, as como la
correspondiente base de datos y el cdigo
de anlisis del software Stata; un manual
tcnico que proporciona un tratamiento ms
formal del anlisis de datos; presentaciones de
PowerPoint relacionadas con los captulos; una
versin en lnea del libro con hipervnculos a los
sitios web, y enlaces con otros materiales.
Este libro ha sido posible gracias al generoso

apoyo del Fondo Estratgico de Evaluacin
de Impacto (SIEF, por sus siglas en ingls:
Strategic Impact Evaluation Fund ). Lanzado
en 2012 con apoyo del Departamento para el
Desarrollo Internacional del Reino Unido, el
SIEF es un programa de alianzas que promueve
la elaboracin de polticas pblicas basadas en
la evidencia. Actualmente se centra en cuatro
mbitos cruciales para un desarrollo humano
saludable: educacin bsica, sistemas de salud
y prestacin de servicios, desarrollo infantil
temprano y nutricin, y agua y saneamiento.
El SIEF funciona en todo el mundo, sobre
todo en pases de bajos ingresos, aportando
conocimientos expertos sobre la evaluacin de
impacto, y evidencia para diversos programas y
equipos de elaboracin de polticas pblicas.
La evaluacin
de impacto en
la prctica
Segunda edicin
Paul J. Gertler, Sebastin Martnez,

Patrick Premand, Laura B. Rawlings
y Christel M. J. Vermeersch
2017 Banco Internacional para la Reconstruccin y el Desarrollo/Banco Mundial
1818 H Street NW, Washington, DC 20433
Telfono: 202-473-1000; Internet: www.worldbank.org
Algunos derechos reservados
1 2 3 4 20 19 18 17
Los hallazgos, interpretaciones y conclusiones recogidas en esta obra no reejan necesariamente el punto de vista
del Banco Mundial ni de su Directorio Ejecutivo, del Banco Interamericano de Desarrollo, de su Directorio Ejecutivo
ni de los gobiernos que representan. El Banco Mundial y el Banco Interamericano de Desarrollo no garantizan la
precisin de los datos incluidos en esta obra. Las fronteras, colores, denominaciones y otra informacin de cualquier
mapa en esta obra no implican ningn juicio por parte del Banco Mundial ni el Banco Interamericano de Desarrollo
en relacin con el estatus legal de cualquier territorio ni la aprobacin ni aceptacin de dichas fronteras.
Ningn contenido de esta obra constituir o ser considerado como una limitacin ni renuncia de los privilegios e
inmunidades del Banco Mundial ni del Banco Interamericano de Desarrollo, privilegios e inmunidades especca-
mente reservados.
Derechos y permisos
Esta obra est disponible bajo la licencia de atribucin de Creative Commons 3.0 IGO (CC BY 3.0 IGO) http://
creativecommons.org/licenses/by/3.0/igo. En el marco de la licencia de atribucin Creative Commons, se permite
copiar, distribuir, transmitir y adaptar esta obra, incluso para objetivos comerciales, bajo las siguientes condiciones:
Atribucin: se ruega citar la obra de la siguiente manera: Gertler, Paul J., Sebastin Martnez, Patrick Premand, Laura
B. Rawlings y Christel M. J. Vermeersch. 2017. La evaluacin de impacto en la prctica, Segunda edicin. Washington,
DC: Banco Interamericano de Desarrollo y Banco Mundial. doi:10.1596/978-1-4648-0888-3. Licencia de atribucin:
Creative Commons CC BY 3.0 IGO
Traducciones: Si se procede a una traduccin de esta obra, se ruega aadir la siguiente exencin de responsabilidad
con la atribucin: Esta traduccin no es una creacin del Banco Mundial y no se debera considerar una traduccin ocial
del Banco Mundial. El Banco Mundial no ser responsable de ningn contenido o error en esta traduccin.
Adaptaciones: Si se crea una adaptacin de esta obra, se ruega aadir la siguiente exencin de responsabilidad o con la
siguiente atribucin: sta es una adaptacin de una obra original del Banco Mundial. Las ideas y opiniones expresadas en
la adaptacin son responsabilidad exclusiva del autor o de los autores de la adaptacin y no han sido refrendadas por el
Banco Mundial.
Contenidos de terceros: El Banco Mundial no es dueo necesariamente de cada componente del contenido de este
trabajo. Por lo tanto, el Banco Mundial no garantiza que el uso de cualquier componente individual o parte propiedad
de terceros contenido en la obra no vulnerar los derechos de esos terceros. El riesgo de reclamaciones que resulten de
dicha vulneracin incumbe solo a usted. Si quiere reutilizar un componente de la obra, es responsabilidad suya
determinar si se requiere una autorizacin para esa reutilizacin y para obtener permiso del dueo de los derechos de
autor. Los ejemplos de los componentes pueden incluir cuadros, grcos o imgenes, si bien no estn limitados a ellos.
Todas las consultas sobre derechos y licencias debern dirigirse a la Divisin de Publicacin y Conocimiento, Banco
Mundial, 1818 H Street NW, Washington, DC 20433, EE.UU.; fax: 202-522-2625; e-mail: pubrights@worldbank.org.
ISBN (papel): 978-1-4648-0888-3
ISBN (electrnica): 978-1-4648-0989-7
DOI: 10.1596/978-1-4648-0888-3
Ilustracin: C. Andrs Gmez-Pea y Michaela Wieser
Diseo de la tapa: Critical Stages
CONTENIDOS
Prlogo xv
Agradecimientos xxi
Acerca de los autores xxiii
Abreviaturas xxvii
PRIMERA PARTE. INTRODUCCIN A

LA EVALUACIN DE IMPACTO 1
Captulo 1. Por qu evaluar? 3

La formulacin de polticas basada en evidencia 3
Qu es la evaluacin de impacto? 7
Evaluacin de impacto prospectiva versus evaluacin retrospectiva 10
Estudios de ecacia y estudios de efectividad 12
Enfoques complementarios 14
Consideraciones ticas con respecto a la evaluacin de impacto 22
La evaluacin de impacto en las decisiones de polticas 24
La decisin de llevar a cabo una evaluacin de impacto 29
Captulo 2. La preparacin de una evaluacin 35

Pasos iniciales 35
Construccin de una teora del cambio 36
Desarrollo de una cadena de resultados 38
La especicacin de las preguntas de la evaluacin 40
La seleccin de indicadores de resultados y desempeo 46
Lista de vericacin: datos para los indicadores 47
SEGUNDA PARTE. CMO EVALUAR 51
Captulo 3. Inferencia causal y contrafactuales 53

Inferencia causal 53
v
El contrafactual 55
Dos estimaciones falsas del contrafactual 60
Captulo 4. La asignacin aleatoria 71

La evaluacin de programas basados en reglas de asignacin 71
La asignacin aleatoria del tratamiento 72
Lista de vericacin: la asignacin aleatoria 91
Captulo 5. Las variables instrumentales 99

La evaluacin de programas cuando no todos cumplen
su asignacin 99
Tipos de estimaciones de impacto 100
El cumplimiento imperfecto 102
Promocin aleatoria como variable instrumental 112
Lista de vericacin: promocin aleatoria como
variable instrumental 122
Captulo 6. Diseo de regresin discontinua 125

Evaluacin de programas que utilizan un ndice
de elegibilidad 125
El diseo de regresin discontinua difuso 131
Vericacin de la validez del diseo de regresin discontinua 132
Limitaciones e interpretaciones del mtodo de
diseo de regresin discontinua 137
Lista de vericacin: diseo de regresin discontinua 139
Captulo 7. Diferencias en diferencias 143

Evaluacin de un programa cuando la regla de asignacin
es menos clara 143
El mtodo de diferencias en diferencias 144
Qu utilidad tiene el mtodo de diferencias en diferencias? 148
El supuesto de tendencias iguales en el mtodo de
diferencias en diferencias 150
Limitaciones del mtodo de diferencias en diferencias 156
Vericacin: diferencias en diferencias 156
Captulo 8. Pareamiento 159

Construccin de un grupo de comparacin articial 159
Pareamiento por puntajes de propensin 161
La combinacin del pareamiento con otros mtodos 164
Limitaciones del mtodo de pareamiento 173
Vericacin: el pareamiento 174
vi La evaluacin de impacto en la prctica

Captulo 9. Cmo abordar las dicultades metodolgicas 177
Efectos heterogneos del tratamiento 177
Efectos no intencionados en la conducta 178
Imperfeccin del cumplimiento 179
El efecto de derrame 181
El desgaste 188
Programacin en el tiempo y persistencia de los efectos 191
Captulo 10. Evaluacin de programas multifacticos 195

Evaluacin de programas que combinan diversas opciones
de tratamiento 195
Evaluacin de programas con diferentes niveles de tratamiento 196
Evaluacin de mltiples intervenciones 199
TERCERA PARTE. CMO IMPLEMENTAR UNA

EVALUACIN DE IMPACTO 205
Captulo 11. Eleccin de un mtodo de evaluacin de impacto 207

Qu mtodo usar en un determinado programa? 207
Cmo las reglas operativas de un programa pueden contribuir
a elegir un mtodo de evaluacin de impacto 208
Una comparacin de mtodos de evaluacin de impacto 214
Cmo encontrar la unidad de intervencin ms pequea factible 218
Captulo 12. Gestin de una evaluacin de impacto 223

Gestin del equipo, del tiempo y del presupuesto de una evaluacin 223
Roles y responsabilidades de los equipos de investigacin
y de polticas pblicas 224
Establecer una colaboracin 231
Cmo programar una evaluacin en el tiempo 237
Cmo elaborar un presupuesto para una evaluacin 240
Captulo 13. La tica y la ciencia en la evaluacin

de impacto 257
La gestin de evaluaciones ticas y crebles 257
La tica de llevar a cabo evaluaciones de impacto 258
Garantizar evaluaciones ables y crebles mediante la ciencia abierta 264
Lista de vericacin: una evaluacin de impacto tica y creble 271
Captulo 14. Divulgacin de resultados y generacin

de impacto en las polticas pblicas 275
Una base de evidencia slida para las polticas pblicas 275
Contenidos vii
Elaboracin a la medida de una estrategia de comunicacin
para diferentes pblicos 279
Divulgacin de los resultados 283
CUARTA PARTE. CMO OBTENER DATOS

PARA UNA EVALUACIN DE IMPACTO 289
Captulo 15. La eleccin de una muestra 291

El muestreo y los clculos de potencia 291
Elaboracin de una muestra 291
La decisin sobre el tamao de la muestra de una evaluacin
de impacto: clculos de potencia 297
Captulo 16. Encontrando fuentes adecuadas de datos 323

Tipos de datos necesarios 323
La utilizacin de datos cuantitativos existentes 326
La recopilacin de datos de nuevas encuestas 332
Captulo 17. Conclusiones 355

Las evaluaciones de impacto: ejercicios complejos pero valiosos 355
Lista de vericacin: elementos centrales de una evaluacin
de impacto bien diseada 356
Lista de vericacin: recomendaciones para mitigar riesgos
habituales al llevar adelante una evaluacin de impacto 357
Glosario 361
Recuadros
1.1 Cmo una evaluacin exitosa puede promover la sostenibilidad
poltica de un programa de desarrollo 5
1.2 El impacto de las polticas de un modelo preescolar innovador 7
1.3 Pruebas de la capacidad generalizable de los resultados 13
1.4 Simulacin de posibles efectos del proyecto a travs
del modelado estructural 16
1.5 Un mtodo mixto de evaluacin en accin 17
1.6 Fundamentos para una ampliacin a escala nacional
mediante una evaluacin de procesos en Tanzania 19
1.7 La evaluacin de costo-efectividad 21
1.8 Evaluacin de programas innovadores 25
1.9 La evaluacin de alternativas de diseo de programas 26
1.10 El enfoque de evaluaciones de impacto de clusters 28
viii La evaluacin de impacto en la prctica
2.1 La articulacin de una teora del cambio: de los pisos
de cemento a la felicidad en Mxico 37
2.2 Experimentos de mecanismo 41
2.3 Una reforma de las matemticas en la enseanza secundaria:
elaboracin de una cadena de resultados y una pregunta de la
evaluacin 43
3.1 El problema del contrafactual: la seorita nica y el
programa de transferencias condicionadas 56
4.1 La asignacin aleatoria como un valioso instrumento operativo 73
4.2 La asignacin aleatoria como regla de seleccin de
un programa: las transferencias condicionadas y la
educacin en Mxico 78
4.3 Asignacin aleatoria de donaciones para mejorar las
perspectivas de empleo juvenil en el norte de Uganda 79
4.4 Asignacin aleatoria de intervenciones en abastecimiento
de agua y saneamiento en zonas rurales de Bolivia 79
4.5 Asignacin aleatoria de proteccin del agua de pozos
para mejorar la salud en Kenia 80
4.6 Asignacin aleatoria e informacin a propsito de los riesgos
del VIH para reducir el embarazo adolescente en Kenia 81
5.1 El uso de variables instrumentales para evaluar el impacto
de Plaza Ssamo en la preparacin escolar 101
5.2 Variables instrumentales para lidiar con la falta de cumplimiento
en un programa de vales escolares en Colombia 110
5.3 Promocin de inversiones en infraestructura educativa
en Bolivia 118
6.1 Uso del diseo de regresin discontinua para evaluar el
impacto de la reduccin de las tarifas escolares en los
ndices de matriculacin en Colombia 126
6.2 Redes de proteccin social basadas en un ndice de
pobreza en Jamaica 130
6.3 El efecto en el desempeo escolar de la agrupacin de
alumnos segn sus puntuaciones en las pruebas
educativas en Kenia 133
7.1 Utilizacin del mtodo DD para entender el impacto de
los incentivos electorales en las tasas de abandono
escolar en Brasil 145
7.2 Aplicacin del mtodo de diferencias en diferencias para
estudiar los efectos del despliegue policial en la tasa de
delitos en Argentina 149
7.3 Comprobando el supuesto de tendencias iguales:
privatizacin del agua y mortalidad infantil en Argentina 153
Contenidos ix
7.4 Poniendo a prueba el supuesto de tendencias iguales:
la construccin de escuelas en Indonesia 154
8.1 Diferencias en diferencias pareadas: caminos rurales
y desarrollo del mercado local en Vietnam 165
8.2 Pareamiento de diferencias en diferencias: suelos de
cemento, salud infantil y felicidad de las madres en Mxico 166
8.3 El mtodo de control sinttico: los efectos econmicos
de un conicto terrorista en Espaa 168
9.1 Cuentos tradicionales de la evaluacin de impacto:
el efecto Hawthorne y el efecto John Henry 178
9.2 Externalidades negativas debidas a efectos de equilibrio
general: asistencia para la colocacin laboral y resultados
del mercado de trabajo en Francia 183
9.3 Trabajando con los efectos de derrame: remedios
antiparasitarios, externalidades y educacin en Kenia 184
9.4 Evaluacin de los efectos de derrame: transferencias
condicionadas y derrames en Mxico 187
9.5 El desgaste en estudios con seguimiento a largo plazo:
desarrollo infantil temprano y migracin en Jamaica 189
9.6 Evaluacin de los efectos a largo plazo: subsidios y adopcin
de redes antimosquitos tratadas con insecticidas en Kenia 191
10.1 Prueba de la intensidad de un programa para mejorar la
adhesin a un tratamiento antirretroviral 198
10.2 Pruebas de alternativas de los programas para monitorear
la corrupcin en Indonesia 199
11.1 Programas de transferencias monetarias condicionadas y
el nivel mnimo de intervencin 221
12.1 Principios rectores de la participacin de los equipos de
polticas pblicas y de evaluacin 228
12.2 Descripcin general de un plan de evaluacin de impacto 229
12.3 Ejemplos de modelos de equipos de investigacin
y de polticas pblicas 234
13.1 Registro de pruebas en las ciencias sociales 267
14.1 El impacto en las polticas pblicas de un modelo
innovador de educacin preescolar en Mozambique 277
14.2 Instrumentos de extensin y divulgacin 284
14.3 La divulgacin efectiva de las evaluaciones de impacto 285
14.4 Divulgacin de las evaluaciones de impacto en lnea 286
14.5 Blogs de evaluacin de impacto 287
15.1 El muestreo aleatorio no es suciente para la evaluacin
de impacto 295
x La evaluacin de impacto en la prctica

16.1 Elaboracin de una base de datos en la evaluacin
del Plan Nacer de Argentina 330
16.2 Utilizacin de datos censales para reevaluar el PRAF
en Honduras 331
16.3 Diseo y formato de los cuestionarios 338
16.4 Algunas ventajas y desventajas de la recopilacin
electrnica de datos 342
16.5 Recopilacin de datos para la evaluacin de las pruebas
piloto de atencin a crisis en Nicaragua 348
16.6 Directrices para la documentacin y el almacenamiento
de datos 349
Grcos
2.1 Los elementos de una cadena de resultados 39
B2.2.1 Identicacin de un experimento de mecanismo en una
cadena de resultados ms larga 42
B2.3.1 Cadena de resultados para la reforma de la currcula
de matemtica en la escuela secundaria 43
2.2 La cadena de resultados del HISP 45
3.1 El clon perfecto 57
3.2 Un grupo de comparacin vlido 59
3.3 Estimaciones antes-despus de un programa de micronanzas 61
4.1 Caractersticas de los grupos bajo tratamiento con
asignacin aleatoria 76
4.2 Muestra aleatoria y asignacin aleatoria de tratamiento 81
4.3 Pasos para la asignacin aleatoria del tratamiento 85
4.4 Asignacin aleatoria del tratamiento mediante hoja de clculo 87
4.5 Estimacin del impacto con la asignacin aleatoria 90
5.1 Asignacin aleatoria con cumplimiento imperfecto 106
5.2 Estimacin del efecto local promedio del tratamiento bajo
asignacin aleatoria con cumplimiento imperfecto 107
5.3 Proceso de promocin aleatoria 116
5.4 Estimacin del efecto local promedio del tratamiento bajo la
promocin aleatoria 117
6.1 Produccin de arroz, ncas pequeas vs. ncas grandes
(lnea de base) 128
6.2 Produccin de arroz, ncas pequeas vs. ncas grandes
(seguimiento) 129
6.3 Cumplimiento de la asignacin 132
6.4 Manipulacin del ndice de elegibilidad 133
Contenidos xi
6.5 HISP: densidad de los hogares, segn el ndice de
pobreza de lnea de base 135
6.6 Participacin en el HISP, segn el ndice de pobreza
de lnea de base 135
6.7 ndice de pobreza y gastos en salud: el HISP dos aos despus 136
7.1 El mtodo de diferencias en diferencias 146
7.2 Diferencias en diferencias cuando las tendencias de
los resultados son diferentes 151
8.1 Pareamiento exacto en cuatro caractersticas 160
8.2 Pareamiento por puntajes de propensin y rango comn 162
8.3 Pareamiento para el HISP: rango comn 170
9.1 Un ejemplo clsico de efecto de derrame: externalidades
positivas de la administracin de remedios antiparasitarios
a los nios de las escuelas 186
10.1 Pasos para la asignacin aleatoria de dos niveles de tratamiento 197
10.2 Pasos para la asignacin aleatoria de dos intervenciones 200
10.3 Diseo hbrido para un programa con dos intervenciones 201
15.1 Uso de una muestra para inferir las caractersticas promedio
de una poblacin de inters 292
15.2 Un marco muestral vlido cubre el conjunto de la poblacin
de inters 293
B15.1.1 Muestreo aleatorio entre grupos no comparables de
participantes y no participantes 296
B15.1.2 Asignacin aleatoria de los benecios de un programa
entre un grupo de tratamiento y un grupo de comparacin 297
15.3 Una muestra ms grande tiene ms probabilidades de
parecerse a la poblacin de inters 300
Cuadros
3.1 Evaluacin del HISP segn comparacin antes-despus 64
3.2 Impacto del HISP segn comparacin antes-despus
(anlisis de regresin) 64
3.3 Evaluacin del HISP segn comparacin inscritos-no inscritos
(comparacin de medias) 67
3.4 Evaluacin del HISP segn comparacin inscritos-no inscritos
4.1 Evaluacin del HISP: balance entre los pueblos de
tratamiento y de comparacin en la lnea de base 93
4.2 Evaluacin del HISP segn la asignacin aleatoria
xii La evaluacin de impacto en la prctica

4.3 Evaluacin del HISP segn la asignacin aleatoria
5.1 Evaluacin del HISP segn la promocin aleatoria
5.2 Evaluacin del HISP segn la promocin aleatoria
6.1 Evaluacin del HISP: diseo de regresin discontinua
con anlisis de regresin 137
7.1 Clculo del mtodo de diferencias en diferencias 147
7.2 Evaluacin del HISP: diferencias en diferencias
7.3 Evaluacin del HISP: diferencias en diferencias (anlisis
de regresin) 155
8.1 Estimacin del puntaje de propensin a partir de
caractersticas observables de la lnea de base 169
8.2 Evaluacin del HISP: pareamiento de las caractersticas
de lnea de base y comparacin de medias 171
8.3 Evaluacin del HISP: pareamiento de las caractersticas
de lnea de base y anlisis de regresin 171
8.4 Evaluacin del HISP: mtodo de diferencias en diferencias
combinado con pareamiento en las caractersticas de lnea
de base 172
B10.1.1 Resumen del diseo del programa 198
11.1 Relacin entre las reglas operativas de un programa y
los mtodos de evaluacin de impacto 211
11.2 Comparacin de mtodos de evaluacin de impacto 215
12.1 Costo de las evaluaciones de impacto de una seleccin de
proyectos con apoyo del Banco Mundial 241
12.2 Costos desagregados de una seleccin de proyectos
con apoyo del Banco Mundial 242
12.3 Ejemplo de presupuesto para una evaluacin
de impacto 250
13.1 Asegurar informacin able y creble para las polticas
mediante la ciencia abierta 265
14.1 Participacin de grupos clave en el impacto en las polticas:
por qu, cundo y cmo 280
15.1 Ejemplos de clusters 304
15.2 Evaluacin del HISP+: tamao requerido de la muestra
para identicar diversos efectos mnimos detectables,
potencia = 0,9 309
Contenidos xiii
para identicar diversos efectos mnimos detectables,
potencia = 0,8 310
para detectar diversos efectos mnimos deseados
(aumento de la tasa de hospitalizacin) 311
para identicar diversos efectos mnimos detectables
(disminucin de los gastos del hogar en salud) 314
para detectar un impacto mnimo de US$2 en diversas
cantidades de clusters 315
xiv La evaluacin de impacto en la prctica

PRLOGO
Este libro ofrece una introduccin accesible al tema de la evaluacin de

impacto y su prctica en el desarrollo. Proporciona orientaciones provecho-
sas para disear e implementar evaluaciones de impacto, junto con una
visin general no tcnica de los mtodos de evaluacin de impacto.
Esta es la segunda edicin del manual de La evaluacin de impacto en la
prctica. Publicado por primera vez en 2011, el manual ha sido usado exten-
samente por comunidades de desarrollo y acadmicas en todo el mundo. La
primera edicin est disponible en ingls, francs, portugus y espaol.
La versin actualizada abarca las tcnicas ms recientes para evaluar
programas e incluye consejos de implementacin de ltima generacin, as
como un conjunto ampliado de ejemplos y estudios de casos que se basan en
recientes intervenciones de desarrollo. Tambin incluye nuevos materiales
sobre la tica de la investigacin y alianzas para llevar a cabo evaluaciones
de impacto. A lo largo del libro, los estudios de casos ilustran aplicaciones de
las evaluaciones de impacto. La publicacin incluye enlaces de material
didctico complementario disponible en lnea.
El enfoque de la evaluacin de impacto que se vuelca en este libro es
sobre todo intuitivo. Hemos intentado minimizar las anotaciones tcnicas.
Los mtodos se basan directamente en la investigacin aplicada en ciencias
sociales y comparten numerosos elementos comunes a los mtodos de
investigacin que se emplean en las ciencias naturales. En este sentido, la
evaluacin de impacto rene herramientas de investigacin emprica
ampliamente utilizadas en economa y en otras ciencias sociales, junto con
las realidades operativas y de economa poltica de la implementacin de
polticas pblicas y prctica de desarrollo.
Nuestro enfoque de la evaluacin de impacto tambin es pragmtico:
pensamos que deberan denirse los mtodos ms apropiados para ade-
cuarse al contexto operativo, y no a la inversa. La mejor manera de lograr
xv
esto es al comienzo de un programa, mediante el diseo de evaluaciones de
impacto prospectivas que se incluyan en la implementacin de un proyecto.
Sostenemos que alcanzar un consenso entre las principales partes interesa-
das y la denicin de un diseo de evaluacin adecuado al contexto poltico
y operativo es tan importante como el propio mtodo. Tambin creemos que
las evaluaciones de impacto deberan ser claras a propsito de sus limitacio-
nes y sus advertencias. Por ltimo, alentamos encarecidamente a los respon-
sables de las polticas pblicas y a los administradores de los programas a
considerar las evaluaciones de impacto como parte de una teora bien desa-
rrollada del cambio que establece con claridad las vas causales mediante las
cuales un programa funciona para elaborar productos e inuir en los resul-
tados nales, y los alentamos a combinar las evaluaciones de impacto con
enfoques de monitoreo y de evaluacin complementarios con el n de obte-
ner un cuadro completo de los resultados.
Nuestras experiencias y lecciones sobre cmo llevar a cabo evaluaciones
de impacto en la prctica se basan en la enseanza y en el trabajo con cientos
de socios idneos de los mbitos gubernamentales, acadmicos y del desa-
rrollo. El libro se fundamenta colectivamente en dcadas de experiencia en
el trabajo con evaluaciones de impacto en casi todos los rincones del pla-
neta, y est dedicado a las futuras generaciones de profesionales y responsa-
bles de las polticas pblicas.
Esperamos que estas pginas constituyan un valioso recurso para la
comunidad internacional de desarrollo, las universidades y los responsables
de las polticas pblicas que intentan construir evidencia vlida en torno a lo
que funciona en el desarrollo. Ms y mejores evaluaciones de impacto con-
tribuirn a fortalecer la base de evidencia para las polticas y los programas
de desarrollo en todo el mundo. Tenemos la esperanza de que si los gobier-
nos y los profesionales del desarrollo pueden tomar decisiones de polticas
pblicas sobre la base de la evidencia, incluida la evidencia generada a tra-
vs de la evaluacin de impacto, los recursos para el desarrollo se destinarn
de manera ms efectiva para reducir la pobreza y mejorar las vidas de las
personas.
Hoja de ruta de los contenidos del libro
En la primera parte, Introduccin a la evaluacin de impacto (captulos 1

y 2), se explica por qu una evaluacin de impacto puede llevarse a cabo y
cundo merece la pena hacerlo. All se revisan los diversos objetivos que una
evaluacin de impacto puede lograr y se subrayan las principales preguntas
relativas a las polticas pblicas que una evaluacin puede abordar. Se insiste
xvi La evaluacin de impacto en la prctica

en la necesidad de denir rigurosamente una teora del cambio que explique
los canales a travs de los cuales los programas pueden inuir en los resulta-
dos nales. Se insta a una consideracin cuidadosa de los indicadores de
resultados y del tamao de los efectos anticipados.
En la segunda parte, Cmo evaluar (captulos 3 al 10), se analizan las
diversas metodologas que producen grupos de comparacin que se pueden
utilizar para estimar los impactos de un programa. Se empieza por introdu-
cir el contrafactual como la piedra angular de cualquier evaluacin de
impacto, explicando las propiedades que debe tener la estimacin del
mismo, y proporcionando ejemplos de estimaciones invlidas del contrafac-
tual. Posteriormente, se presenta un men de las opciones de evaluacin de
impacto que pueden producir estimaciones vlidas del contrafactual. En
particular, se aborda la intuicin bsica que subyace a las metodologas de
evaluacin de impacto, a saber: la asignacin aleatoria, las variables instru-
mentales, el diseo de regresin discontinua, las diferencias en diferencias y el
pareamiento. Se establece por qu y cmo cada mtodo puede producir una
estimacin vlida del contrafactual, en qu contexto de las polticas pblicas
se puede implementar cada uno, as como tambin sus principales
limitaciones.
A lo largo de esta parte del libro, se utiliza un estudio de caso el Programa
de Subsidios de Seguros de Salud (HISP, por sus siglas en ingls: Health
Insurance Subsidy Program) para ilustrar cmo se pueden aplicar los mto-
dos. Adems, se ofrecen ejemplos especcos de las evaluaciones de impacto
que han utilizado cada mtodo. La segunda parte concluye con un debate
sobre cmo combinar los mtodos y abordar problemas que pueden surgir
durante la implementacin, reconociendo que los diseos de evaluacin de
impacto a menudo no se implementan exactamente como se haba planeado
originalmente. En este contexto, se analizan ciertos problemas comunes que
suelen experimentarse durante la implementacin, lo que incluye el cum-
plimiento imperfecto o los efectos de derrame, y se debate cmo abordar
estas dicultades. El captulo 10 concluye con orientaciones sobre evalua-
ciones de programas multifacticos, sobre todo aquellos con diferentes
niveles de tratamiento y diseos cruzados.
La tercera parte, Cmo implementar una evaluacin de impacto
(captulos 11 a 14), se centra precisamente en cmo llevar adelante la eva-
luacin. En el captulo 11, se detalla cmo utilizar las reglas del funciona-
miento de un programa es decir, los recursos disponibles del programa,
los criterios para seleccionar a los beneciarios y la programacin en el
tiempo para la implementacin como la base para seleccionar un mtodo
de evaluacin de impacto. Se dene un marco sencillo para determinar
cul de las metodologas de evaluacin de impacto presentadas en la
Prlogo xvii
segunda parte es la ms adecuada para un determinado programa, de
acuerdo con sus reglas operativas. En el captulo 12 se aborda la relacin
entre el equipo de investigacin y el equipo de polticas pblicas, y sus
respectivos roles para conformar conjuntamente un equipo de evalua-
cin. Se examina la diferencia entre independencia y ausencia de sesgo, y
se ponen de relieve mbitos que pueden ser delicados para llevar a cabo
una evaluacin de impacto. Se ofrece orientacin sobre cmo gestionar
las expectativas, se destacan algunos de los riesgos habitualmente pre-
sentes en la realizacin de evaluaciones de impacto, y se brindan suge-
rencias sobre cmo manejarlos. El captulo concluye con una visin
general de cmo gestionar las actividades de la evaluacin de impacto, lo
que incluye la creacin de un equipo de evaluacin, la programacin en el
tiempo de la misma, el presupuesto, la captacin de fondos y la recopila-
cin de datos. En el captulo 13 se proporciona una visin general de la
tica y la ciencia de la evaluacin de impacto, lo cual incluye la importan-
cia de no negar benecios a los beneciarios elegibles en aras de la eva-
luacin; en el captulo tambin se resalta el rol de las juntas de revisin
institucional, que aprueban y monitorean la investigacin con sujetos
humanos, y se aborda la importancia de registrar las evaluaciones
siguiendo la prctica de la ciencia abierta, de acuerdo con la cual los datos
se ponen a disposicin del pblico para posteriores investigaciones y
para replicar resultados. El captulo 14 proporciona una visin novedosa
sobre cmo utilizar las evaluaciones de impacto para fundamentar las
polticas pblicas, incluyendo consejos sobre cmo conseguir que los
resultados sean relevantes; un debate sobre el tipo de productos que las
evaluaciones de impacto pueden y deben producir, y orientacin sobre
cmo extraer y divulgar las conclusiones para maximizar el impacto de
las polticas pblicas.
La cuarta parte, Cmo obtener datos para una evaluacin de impacto
(captulos 15 a 17), se ocupa de la forma de recopilar datos, lo que incluye
elegir la muestra y determinar el tamao apropiado de la muestra de la eva-
luacin (captulo 15), as como tambin encontrar fuentes de datos adecua-
dos (captulo 16). El captulo 17 concluye y proporciona algunas listas de
vericacin.
Material complementario en lnea
En el sitio web de la evaluacin de impacto en la prctica se ofrecen mate-

riales de apoyo (http://www.worldbank.org/ieinpractice), incluyendo solu-
ciones a las preguntas de los estudios de casos del HISP, la correspondiente
xviii La evaluacin de impacto en la prctica

base de datos y el cdigo de anlisis del software Stata, as como un manual
tcnico que proporciona un tratamiento ms formal del anlisis de datos.
Los materiales tambin abarcan presentaciones de PowerPoint relaciona-
das con los captulos, y versiones en lnea del libro con hipervnculos a sitios
web y enlaces con otros materiales.
El sitio web de evaluacin de impacto en la prctica tambin brinda vn-
culos con materiales relacionados con el Fondo Estratgico de Evaluacin
de Impacto (SIEF, por sus siglas en ingls) del Banco Mundial, la iniciativa
Desarrollo de la Evaluacin de Impacto (DIME, por sus siglas en ingls), de
la misma institucin, y sitios web de manuales de evaluacin de impacto, as
como el portal de evaluacin de impacto del Banco Interamericano de
Desarrollo (BID) y el curso de mtodos de evaluacin de impacto aplicados
en la Universidad de California, Berkeley.
Desarrollo de La evaluacin de impacto en la

prctica
La primera edicin del libro La evaluacin de impacto en la prctica se basaba

en un conjunto central de materiales didcticos desarrollados para los semi-
narios sobre Cmo convertir las promesas en evidencia, organizados por la
Ocina del Economista Jefe para Desarrollo Humano, en asociacin con uni-
dades regionales y con el Grupo de Investigacin en Economa del Desarrollo
del Banco Mundial. En el momento de redactar la primera edicin, el semi-
nario se haba celebrado ms de 20 veces en todas las regiones del mundo.
Los seminarios, y tanto la primera como la segunda edicin de este
manual, han sido posibles gracias a las generosas ayudas del gobierno de
Espaa, del Departamento para el Desarrollo Internacional del Reino Unido
(DFID) y de la Fundacin del Fondo de Inversin para la Infancia (CIFF,
Reino Unido) a travs de contribuciones al SIEF. La segunda edicin tam-
bin se ha beneciado del apoyo de la Ocina de Planicacin Estratgica y
Efectividad en el Desarrollo del BID.
Esta segunda edicin ha sido puesta al da para abarcar las tcnicas ms
actualizadas, as como consejos de implementacin de ltima generacin,
siguiendo los progresos alcanzados en este campo en los ltimos aos.
Tambin hemos ampliado el conjunto de ejemplos y estudios de casos para
reejar aplicaciones de amplio espectro de la evaluacin de impacto en las
operaciones de desarrollo y destacar sus vnculos con las polticas pblicas.
Por ltimo, hemos incluido aplicaciones de tcnicas de evaluacin de
impacto con Stata, utilizando la base de datos del estudio de caso del HISP
como parte del material complementario en lnea.
Prlogo xix
AGRADECIMIENTOS
Los materiales didcticos sobre los que se basa este libro han experimen-
tado numerosas versiones, y han sido enseados por diversos y talentosos
profesores, todos los cuales han dejado su impronta en los mtodos y en el
enfoque de la evaluacin de impacto enunciados en el libro. Queremos agra-
decer y reconocer las contribuciones y los aportes sustanciales de diversos
profesores que han participado en los seminarios en los que se basaba la
primera edicin, y que incluyen a Paloma Acevedo Alameda, Felipe Barrera,
Sergio Bautista-Arredondo, Stefano Bertozzi, Barbara Bruns, Pedro
Carneiro, Jishnu Das, Damien de Walque, David Evans, Claudio Ferraz,
Deon Filmer, Jed Friedman, Emanuela Galasso, Sebastin Galiani, Arianna
Legovini, Phillippe Leite, Gonzalo Hernndez Licona, Mattias Lundberg,
Karen Macours, Juan Muoz, Plamen Nikolov, Berk zler, Nancy Qian,
Gloria M. Rubio, Norbert Schady, Julieta Trias, y Sigrid Vivo Guzmn.
Agradecemos los comentarios realizados por nuestros revisores pares en la
primera edicin del libro (Barbara Bruns, Arianna Legovini, Dan Levy y
Emmanuel Skouas) y la segunda edicin (David Evans, Francisco Gallego,
Dan Levy y Damien de Walque), as como tambin las observaciones de
Gillette Hall. Deseamos asimismo expresar nuestro agradecimiento por los
esfuerzos de un talentoso equipo organizador, que incluye a Holly Balgrave,
Theresa Adobea Bampoe, Febe Mackey, Silvia Paruzzolo, Tatyana Ringland,
Adam Ross y Jennifer Sturdy.
Extendemos igualmente nuestro reconocimiento a todos los que partici-
paron en las transcripciones del borrador del seminario de julio de 2009
realizado en Beijing, China, en el que se basan partes de este libro, especial-
mente a Paloma Acevedo Alameda, Carlos Asenjo Ruiz, Sebastian Bauhoff,
Bradley Chen, Changcheng Song, Jane Zhang y Shufang Zhang.
Reconocemos a Garret Christensen y a la Berkeley Initiative for
Transparency in the Social Sciences, as como a Jennifer Sturdy y Elisa
Rothenbhler por sus aportes al captulo 13. Tambin agradecemos a Marina
xxi
Tolchinsky y Kristine Cronin por su excelente apoyo en la investigacin; a
Cameron Breslin y Restituto Crdenas por el respaldo en la programacin; a
Marco Guzmn y Martin Ruegenberg por el diseo de las ilustraciones, y a
Nancy Morrison, Cindy A. Fisher, Fiona Mackintosh y Stuart K. Tucker por
el apoyo editorial durante la produccin de la primera y la segunda edicin
del libro.
Reconocemos y agradecemos el apoyo permanente y el entusiasmo por
este proyecto de nuestros directivos en el Banco Mundial y el Banco
Interamericano de Desarrollo, y especialmente al equipo del SIEF, entre
ellos Daphna Berman, Holly Blagrave, Restituto Crdenas, Joost de Laat,
Ariel Fiszbein, Alaka Holla, Aliza Marcus, Diana-Iuliana Pirjol, Rachel
Rosenfeld y Julieta Trias. Estamos sumamente agradecidos por el apoyo
recibido de la administracin del SIEF, incluyendo a Luis Benveniste, Joost
de Laat y Julieta Trias. Agradecemos igualmente a Andrs Gmez-Pea y
Michaela Wieser del Banco Interamericano de Desarrollo, y a Mary Fisk,
Patricia Katayama, y Mayya Revzina, del Banco Mundial, por su ayuda con
las comunicaciones y el proceso de publicacin.
La produccin de la segunda edicin de este libro en su versin en espa-
ol fue realizada por la Ocina de Planicacin Estratgica y Efectividad en
el Desarrollo del Banco Interamericano de Desarrollo. Reconocemos parti-
cularmente a Carola lvarez y Arturo Galindo por su apoyo en esta inicia-
tiva. Quedamos endeudados con Andrs Gmez-Pea y Michaela Wieser
por su esfuerzo y dedicacin en la coordinacin del proceso de produccin
editorial de este volumen. De igual manera, agradecemos especialmente a
Alberto Magnet por la traduccin del libro al espaol, as como a Claudia M.
Pasquetti, a cargo de la edicin y lectura de pruebas en dicho idioma. Cabe
tambin nuestro reconocimiento del aporte de los revisores tcnicos de
cada uno de los captulos en espaol: Paloma Acevedo, Jorge Marcelo
Franco Quincot, Gastn Gertner y Bibiana Taboada.
Por ltimo, quisiramos brindar nuestro reconocimiento a los partici-
pantes de los numerosos talleres, sobre todo los celebrados en Abiyn,
Accra, Ads Abeba, Amn, Ankara, Beijing, Berkeley, Buenos Aires, Cairo,
Ciudad de Panam, Ciudad del Cabo, Cuernavaca, Dakar, Daca, Fortaleza,
Katmand, Kigali, Lima, Madrid, Managua, Manila, Ciudad de Mxico,
Nueva Delhi, Paipa, Pretoria, Rio de Janeiro, San Salvador, Santiago,
Sarajevo, Sel, Sofa, Tnez y Washington, D.C.
Gracias a su inters, a sus inteligentes preguntas y a su entusiasmo,
hemos sido capaces de aprender paso a paso qu buscan los responsables de
las polticas pblicas en las evaluaciones de impacto. Esperamos que este
libro reeje sus ideas.
xxii La evaluacin de impacto en la prctica

ACERCA DE LOS AUTORES
Paul J. Gertler es profesor de economa en la ctedra Li Ka Shing de la

Universidad de California, Berkeley, donde imparte clases en la Escuela de
Negocios Haas y en la Escuela de Salud Pblica. Tambin es director cien-
tco del Centro para una Accin Global Efectiva en la Universidad de
California. Se desempe como economista jefe en la Red de Desarrollo
Humano del Banco Mundial entre 2004 y 2007 y en la Ctedra Fundadora
de la Junta de Directores de la Iniciativa Internacional para la Evaluacin
de Impacto (3ie) entre 2009 y 2012. En el Banco Mundial, dirigi los traba-
jos para institucionalizar y desarrollar la escala de la evaluacin de impacto
para aprender acerca de aquello que funciona en el desarrollo humano. Ha
sido investigador principal en diversas evaluaciones de impacto multisitio,
entre ellas el programa de TCE, de Mxico, Progresa-Oportunidades, y en
el sistema de salud Remuneracin por Desempeo, de Ruanda. Posee un
doctorado en economa de la Universidad de Wisconsin, y se ha desempe-
ado como docente en Harvard, en RAND y en la State University of New
York en Stony Brook.
Sebastin Martnez es economista principal en la Ocina de Planicacin

Estratgica y Efectividad en el Desarrollo del Banco Interamericano de
Desarrollo (BID). Su trabajo se centra en el fortalecimiento de la base de
evidencia y en la efectividad en el desarrollo de los sectores social y de
infraestructura, incluyendo salud, proteccin social, mercados laborales,
agua y saneamiento, y vivienda y desarrollo urbano. Dirige un equipo
deeconomistas que lleva a cabo investigacin sobre los impactos de los
programas y polticas pblicas del desarrollo, apoya la implementacin
deevaluaciones de impacto de las operaciones y trabaja en la mejora de
capacidades para los clientes y el personal. Antes de integrarse al BID,
trabaj seis aos en el Banco Mundial, dirigiendo evaluaciones de progra-
mas sociales en Amrica Latina y en frica Subsahariana. Posee un
xxiii
doctorado en economa de la Universidad de California, Berkeley, con
una especializacin en desarrollo y microeconoma aplicada.
Patrick Premand es economista senior en proteccin social y prctica glo-

bal laboral en el Banco Mundial. Dirige el trabajo analtico y operativo sobre
proteccin social y redes de proteccin; mercados laborales, empleo juvenil
y capacidad emprendedora, as como tambin desarrollo infantil temprano.
Su investigacin se centra en construir evidencia sobre la efectividad de las
polticas de desarrollo a travs de evaluaciones de impacto de programas
sociales y de desarrollo humano a gran escala. Ha ocupado diversos cargos
en el Banco Mundial, lo cual incluye la Unidad de Economa del Desarrollo
Humano de la regin de frica, la Ocina del Economista Jefe para
Desarrollo Humano y la Unidad de Pobreza de la regin de Amrica Latina
y el Caribe. Posee un doctorado en economa de la Universidad de Oxford.
Laura B. Rawlings es especialista lder en proteccin social en el Banco

Mundial, y ostenta ms de 20 aos de experiencia en el diseo, la implemen-
tacin y la evaluacin de programas de desarrollo humano. Administra tanto
las operaciones como la investigacin, centrndose en el desarrollo de enfo-
ques innovadores para sistemas de proteccin social efectivos y escalables
en entornos de bajos recursos. Ha sido lder de equipo responsable de desa-
rrollar la Estrategia de Proteccin Social y Laboral 2012-2022 del Banco
Mundial y, anteriormente, administradora del Fondo Estratgico de
Evaluacin de Impacto (SIEF). Tambin se desempe como lder del sector
para desarrollo humano en Centroamrica, donde fue la responsable de ges-
tionar las carteras de salud, educacin y proteccin social del Banco Mundial.
Comenz su carrera en esta ltima institucin, en el Grupo de Investigacin
sobre el Desarrollo, donde trabaj en los programas de evaluacin de impacto
de programas sociales. Ha trabajado en Amrica Latina y el Caribe as como
en frica Subsahariana, dirigiendo numerosas iniciativas de proyectos de
investigacin en los mbitos de transferencias condicionadas, empleo
pblico, fondos sociales, desarrollo infantil temprano y sistemas de protec-
cin social. Antes de integrarse al Banco Mundial, trabaj en el Consejo para
el Desarrollo de Ultramar, donde dirigi un programa educativo sobre temas
de desarrollo para el personal en el Congreso de Estados Unidos. Ha publi-
cado numerosos libros y artculos en el campo de la evaluacin del desarrollo
humano y es profesora adjunta en el Programa de Desarrollo Humano Global
de la Universidad de Georgetown, Washington D.C.
Christel M. J. Vermeersch es economista senior en Prctica Global en

Salud, Nutricin y Poblacin en el Banco Mundial. Se ocupa de temas
xxiv La evaluacin de impacto en la prctica

relacionados con el nanciamiento del sector salud, el nanciamiento
basado en resultados, monitoreo y evaluacin, y evaluacin de impacto.
Anteriormente se desempe en los mbitos de educacin, desarrollo infan-
til temprano y capacidades. Ha sido coautora de estudios de evaluacin de
impacto para programas de nanciamiento basados en resultados en
Argentina y Ruanda, un seguimiento de largo plazo de un estudio de estimu-
lacin de la temprana infancia en Jamaica, as como del manual de evalua-
cin de impacto en salud del Banco Mundial. Antes de sumarse a esta ltima
institucin, fue becaria de investigacin posdoctoral en la Universidad de
Oxford. Posee un doctorado en economa de la Universidad de Harvard.
Acerca de los autores xxv

ABREVIATURAS
3IE Iniciativa Internacional para la Evaluacin de Impacto

ATE Efecto promedio del tratamiento
BID Banco Interamericano de Desarrollo
CITI Iniciativa de capacitacin institucional colaborativa
DD Diferencias en diferencias
DIME Evaluacin de impacto para el desarrollo (Banco Mundial)
DRD Diseo de regresin discontinua
EMARF Especco, medible, atribuible, realista y focalizado
EMD Efecto mnimo detectable
HISP Programa de Subsidios de Seguros de Salud
ID Nmero de identicacin
IDU Instituto para el Desarrollo de Ultramar
IHSN International Household Survey Network
ITT Intencin de tratar
IV Variables instrumentales
J-PAL Abdul Latif Jameel Poverty Action Lab
JRI Junta de revisin institucional
LATE Efecto promedio local del tratamiento
NIH National Institutes of Health (Estados Unidos)
OMS Organizacin Mundial de la Salud
ONG Organizacin no gubernamental
OSF Open Science Framework
RCT Ensayo controlado aleatorio
xxvii
RIDIE Registry for International Development Impact Evaluations
SIEF Fondo Estratgico de Evaluacin de Impacto (Banco Mundial)
SUTVA Supuesto de estabilidad del valor de la unidad de tratamiento
TOT Tratamiento en los tratados
USAID Agencia de Estados Unidos para el Desarrollo Internacional
xxviii La evaluacin de impacto en la prctica

Primera parte
INTRODUCCIN A
LA EVALUACIN DE
IMPACTO
La primera parte de este libro presenta una visin general de la evaluacin de

impacto. En el captulo 1 se analiza por qu la evaluacin de impacto es importante
y cmo se inscribe en el contexto de una formulacin tica de las polticas basada
en evidencia. Se compara la evaluacin de impacto con el monitoreo, se describen
las caractersticas que denen la evaluacin de impacto y se abordan enfoques
complementarios, entre ellos el anlisis de costo-benecio y de costo-efectividad.
Asimismo, aqu se introduce un elemento clave del libro, a saber: cmo los recur-
sos disponibles de un programa, los criterios de elegibilidad para seleccionar a los
beneciarios y los plazos para la implementacin contribuyen a denir las opciones
en la seleccin de los mtodos de evaluacin de impacto. Por ltimo, se detallan
diferentes modalidades de evaluacin de impacto, como la evaluacin prospectiva
y retrospectiva y las pruebas de ecacia frente a las pruebas de efectividad, y se
concluye con un debate sobre cundo utilizar las evaluaciones de impacto.
El captulo 2 versa sobre cmo formular preguntas e hiptesis de evaluacin
que son tiles para las polticas. Estas preguntas e hiptesis forman la base
de la evaluacin porque denen su foco. Tambin se expone el concepto fun-
damental de una teora del cambio y los usos correspondientes de las cadenas
de resultados y de los indicadores de desempeo. Este captulo presenta la
primera introduccin al estudio de casos ccionales, el Programa de Subsidios
de Seguros de Salud (HISP, por sus siglas en ingls, Health Insurance Subsidy
Program) utilizado a lo largo del libro y en el material de apoyo que se halla en
el sitio web de evaluacin de impacto en la prctica (http://www.worldbank.org
/ieinpractice).
CAPTULO 1
Por qu evaluar?
La formulacin de polticas basada en evidencia
Los programas y polticas de desarrollo suelen estar diseados para cambiar

resultados, como aumentar los ingresos, mejorar el aprendizaje o reducir las
enfermedades. Saber si estos cambios se logran o no es una pregunta crucial
para las polticas pblicas, aunque a menudo no suele abordarse. Es ms Concepto clave
habitual que los administradores de los programas y los responsables de las Las evaluaciones son
polticas se centren en medir e informar sobre los insumos y los productos valoraciones
inmediatos de un programa (cunto dinero se gasta, cuntos libros de texto peridicas y objetivas
de un proyecto,
se distribuyen, cuntas personas participan en un programa de empleo) en
programa o poltica
lugar de evaluar si los programas han logrado sus objetivos de mejorar los planicada, en curso o
resultados. terminada. Las
Las evaluaciones de impacto forman parte de una agenda mas amplia de evaluaciones se
formulacin de polticas pblicas basadas en evidencia. Esta tendencia mun- utilizan para responder
a preguntas
dial creciente se caracteriza por un cambio de enfoque, ya que en lugar de
especcas, a menudo
centrarse en los insumos lo hace en los productos y resultados, y est recon- relacionadas con el
gurando las polticas pblicas. Centrarse en los resultados no solo sirve diseo, la implementa-
para denir y hacer un seguimiento de los objetivos nacionales e internacio- cin y/o los resultados.
nales, sino que adems los administradores de programas utilizan y nece-
sitan cada vez ms los resultados para mejorar la rendicin de cuentas,
denir las asignaciones presupuestarias y orientar el diseo del programa y
las decisiones de polticas.
3
El monitoreo y la evaluacin son fundamentales en la formulacin de
polticas basadas en evidencia. Ofrecen un conjunto central de instru-
mentos que las partes interesadas pueden utilizar para vericar y mejorar
la calidad, eciencia y efectividad de las polticas y de los programas en
diferentes etapas de implementacin o, en otras palabras, para centrarse
en los resultados. A nivel de la gestin del programa, es necesario saber
cules son las opciones de diseo costo-efectivas, o demostrar ante los
responsables de la toma de decisiones que los programas estn logrando
sus resultados previstos con el n de obtener asignaciones presupuesta-
rias para continuarlos o ampliarlos. A nivel nacional, los ministerios
compiten unos con otros para obtener nanciamiento del ministerio de
Finanzas. Y, por ltimo, los gobiernos deben rendir cuentas ante los ciu-
dadanos para informales del resultado de los programas pblicos. La evi-
dencia puede constituir una base slida para la transparencia y la rendicin
de cuentas.
La evidencia robusta generada por las evaluaciones de impacto est sir-
viendo cada vez ms como fundamento para una mayor rendicin de cuen-
tas, innovacin y aprendizaje. En un contexto en que los responsables de las
polticas y la sociedad civil exigen resultados y la rendicin de cuentas de los
programas pblicos, la evaluacin de impacto puede proporcionar eviden-
cia robusta y creble sobre el desempeo y ante todo sobre si un programa
concreto ha alcanzado o est alcanzando sus resultados deseados. Las eva-
luaciones de impacto tambin son cada vez ms utilizadas para probar inno-
vaciones en el diseo de programas o en la prestacin de servicios. A nivel
mundial, estas evaluaciones son fundamentales para construir conocimien-
tos acerca de la efectividad de los programas de desarrollo, iluminando
sobre lo que funciona y no funciona para reducir la pobreza y mejorar el
bienestar.
En pocas palabras, una evaluacin de impacto mide los cambios en el
bienestar de los individuos que se pueden atribuir a un proyecto, un pro-
grama o una poltica especcos. Este enfoque en la atribucin es el sello
distintivo de las evaluaciones de impacto. Por lo tanto, el reto fundamental
en una evaluacin de esta naturaleza consiste en identicar la relacin
causal entre el programa o la poltica y los resultados de inters.
Las evaluaciones de impacto suelen medir el impacto promedio de un
programa, las modalidades del programa o una innovacin en el diseo. Por
ejemplo, el programa de agua y saneamiento aument el acceso a agua
potable y mejor los resultados de salud? Un programa de estudios alterna-
tivo mejor las puntuaciones de las pruebas de los alumnos? La innovacin
de incluir destrezas cognitivas como parte de un programa de formacin de
jvenes ha tenido xito promoviendo la iniciativa empresarial e incremen-
tando los ingresos? En cada uno de estos casos, la evaluacin de impacto
4 La evaluacin de impacto en la prctica
proporciona informacin sobre si el programa provoc los cambios deseados
en los resultados, al compararse con estudios de casos o ancdotas espec-
cas, que solo pueden brindar informacin parcial y que quiz no sean repre-
sentativos de los impactos generales del programa. En este sentido, las
evaluaciones de impacto bien diseadas y bien implementadas son capaces
de proporcionar evidencia convincente y exhaustiva que puede ser utilizada
para fundamentar las decisiones de las polticas, inuir en la opinin pblica
y mejorar el funcionamiento de los programas.
Las evaluaciones de impacto clsicas abordan la efectividad de un pro-
grama en comparacin con la ausencia del mismo. El recuadro 1.1 se reere a
la evaluacin de impacto bien conocida del programa de transferencias con-
dicionadas en Mxico, e ilustra cmo la evaluacin contribuy a los debates
de las polticas pblicas en relacin con la ampliacin del programa.1
Recuadro 1.1: Cmo una evaluacin exitosa puede promover la

sostenibilidad poltica de un programa de desarrollo
El programa de transferencias condicio- impacto y la incorporaran en la ampliacin

nadas de Mxico del programa al mismo tiempo que este se
En los aos noventa, el gobierno de Mxico pona en marcha de manera progresiva en
lanz un programa innovador de transferen- las comunidades participantes.
cias condicionadas, llamado inicialmente Las elecciones presidenciales de 2000
Progresa (que luego pas a llamarse se saldaron con un cambio en el partido
Oportunidades y ms tarde Prospera, al gobernante. En 2001 los evaluadores exter-
tiempo que cambiaron unos cuantos elemen- nos de Progresa presentaron su conclusio-
tos del mismo). Sus objetivos consistan en nes al gobierno recin elegido. Los
proporcionar a los hogares pobres un apoyo resultados del programa eran impresionan-
de corto plazo a los ingresos y en incentivar la tes: demostraban que el programa estaba
inversin en el capital humano de los nios, bien focalizado en los pobres y que haba
mediante transferencias de efectivo a las generado cambios prometedores en el capi-
madres de hogares pobres con la condicin tal humano de los hogares. Schultz (2004)
de que sus hijos asistieran a la escuela y visi- encontr que el programa mejoraba de
taran regularmente un centro de salud. forma signicativa la matriculacin escolar,
Desde el comienzo, el gobierno consi- en un promedio de 0,7 aos adicionales de
der esencial monitorear y evaluar el pro- escolarizacin. Gertler (2004) observ que la
grama. Los funcionarios responsables incidencia de las enfermedades de los nios
contrataron a un grupo de investigadores disminua en un 23%, mientras que el
para que disearan una evaluacin de nmero de das perdidos por enfermedad o
Contina en la pgina siguiente.
Por qu evaluar? 5
Recuadro 1.1: Cmo una evaluacin exitosa puede promover la sostenibilidad poltica de un programa
de desarrollo (contina)
discapacidad decreca en un 19% entre los media-superior y mejor los programas de
adultos. Entre los resultados nutricionales, salud para los adolescentes. Al mismo
Behrman y Hoddinott (2001) hallaron que el tiempo, los resultados fueron utilizados para
programa reduca la probabilidad de retraso modicar otros programas de ayuda social,
en el crecimiento en alrededor de 1 cent- como el subsidio de la tortilla, muy generoso
metro al ao en los nios durante la edad pero no tan bien focalizado, cuya escala se
crtica de 12-36 meses. redujo.
Estos resultados de la evaluacin fueron La exitosa evaluacin de Progresa tam-
el punto de partida de un dilogo sobre las bin contribuy a la rpida adopcin de sis-
polticas basadas en evidencia y contribuye- temas de transferencias condicionadas en
ron a la decisin del nuevo gobierno de seguir todo el mundo, y a la adopcin en Mxico de
con el programa. El gobierno ampli su una legislacin que establece la evaluacin
alcance e introdujo las becas en la enseanza de todos los proyectos sociales.
Fuentes: Behrman y Hoddinott (2001); Fiszbein y Schady (2009); Gertler (2004); Levy y Rodrguez (2005); Schultz
(2004); Skouas y McClafferty (2001).
El recuadro 1.2 ilustra cmo la evaluacin de impacto inuy en la pol-

tica educativa de Mozambique, al demostrar que el preescolar comunitario
puede ser una frmula asequible y efectiva de abordar la educacin tem-
prana y promover la matriculacin de los nios en la escuela primaria a la
edad adecuada.
Adems de abordar la pregunta bsica de si un programa es efectivo
o no, las evaluaciones de impacto tambin se pueden utilizar para pro-
bar explcitamente modalidades de programas alternativos o innovacio-
nes de diseo. A medida que los responsables de las polticas se centran
cada vez ms en entender mejor cmo perfeccionar la implementacin
y obtener ms a cambio del dinero, los enfoques que prueban alternati-
vas de diseo estn ganando terreno rpidamente. Por ejemplo, una
evaluacin puede comparar el desempeo de un programa de forma-
cin con el de una campaa promocional para ver cul es ms efectivo
para aumentar la alfabetizacin nanciera. Una evaluacin de impacto
puede probar cul es el enfoque de la combinacin de nutricin y de
estimulacin del nio que tiene el mayor impacto en su desarrollo. O la
evaluacin puede probar una innovacin de diseo para mejorar el
diseo de un programa existente, como utilizar mensajes de texto para
mejorar el cumplimiento cuando se trata de tomar la medicacin
prescrita.
Recuadro 1.2: El impacto de las polticas de un modelo preescolar
innovador
Desarrollo preescolar y de la primera La evaluacin lleg a la conclusin de que

infancia en Mozambique los nios que asistan a preescolar tenan un
Si bien el preescolar se reconoce como una 24% ms de probabilidades de matricularse en
buena inversin y un enfoque efectivo para la escuela primaria que los nios del grupo de
preparar a los nios para la escuela y las eta- comparacin, y un 10% ms de probabilidades
pas posteriores de la vida, los pases en desa- de comenzar a la edad adecuada. En la escuela
rrollo se han enfrentado a la pregunta de cmo primaria, los nios que haban asistido a prees-
introducir un modelo de preescolar escalable y colar dedicaron casi un 50% ms de tiempo a
costo-efectivo. En Mozambique solo alrede- las tareas escolares y a otras actividades relacio-
dor del 4% de los nios asiste a preescolar. Al nadas con la escuela que los que no haban asis-
llegar a la escuela primaria, algunos nios de tido. La evaluacin tambin mostraba aumentos
comunidades rurales muestran seales de positivos en la preparacin para la escuela; los
retrasos en el desarrollo y a menudo no estn nios que haban cursado preescolar obtenan
preparados para las demandas de la escuela mejores resultados en las pruebas cognitivas y
primaria. Adems, a pesar de que en la socioemocionales, y alcanzaban un buen desa-
escuela primaria hay una tasa de matriculacin rrollo motor versus el grupo de comparacin.
de casi el 95%, a una tercera parte de los Otros miembros del hogar tambin se
nios no se los inscribe a la edad adecuada. beneciaron de la matriculacin de los nios en
En 2006 Save the Children lanz un pro- preescolar al disponer de ms tiempo para
grama piloto de preescolar comunitario en dedicar a actividades productivas. Cuando en
zonas rurales de Mozambique con la inten- un hogar haba un nio que concurra a prees-
cin de mejorar el desarrollo cognitivo, colar, los hermanos mayores tenan un 6% ms
social, emocional y fsico de los nios. En lo de probabilidades de asistir a la escuela y los
que se considera la primera evaluacin alea- cuidadores tenan un 26% ms de probabilida-
torizada de un programa preescolar en frica des de haber trabajado en los ltimos 30 das.
rural, en 2008 un equipo de investigacin Esta evaluacin demostr que incluso en
llev a cabo una evaluacin de impacto del un entorno de bajos ingresos, el preescolar
programa. Sobre la base de los resultados puede ser una manera efectiva de promover
positivos de la evaluacin, el gobierno de el desarrollo cognitivo, preparar a los nios
Mozambique adopt el modelo preescolar para la escuela primaria y aumentar la proba-
comunitario de Save the Children y decidi bilidad de que comiencen la escuela prima-
ampliarlo a 600 comunidades. ria a la edad adecuada.
Fuente: Martnez, Nadeau y Pereira (2012).
Qu es la evaluacin de impacto?
La evaluacin de impacto es uno de los numerosos mtodos que existen

para apoyar las polticas pblicas basadas en evidencia, incluidos el monito-
reo y otros tipos de evaluacin.
Por qu evaluar? 7
El monitoreo es un proceso continuo mediante el cual se lleva a cabo un
seguimiento de lo que ocurre con un programa y se utilizan los datos recopi-
lados para fundamentar la implementacin de los programas y la adminis-
tracin y las decisiones diarias. A partir sobre todo de datos administrativos,
el monitoreo realiza un seguimiento de los desembolsos nancieros y del
desempeo del programa en relacin con los resultados esperados, y analiza
las tendencias a lo largo del tiempo.2 El monitoreo es necesario en todos los
programas y constituye una fuente crtica de informacin sobre el desem-
peo de los mismos, lo cual abarca tambin la implementacin y los costos.
Normalmente, el monitoreo se aplica a los insumos, actividades y productos,
aunque ocasionalmente tambin puede abarcar los resultados, como, por
ejemplo, el progreso alcanzado en los objetivos de desarrollo nacional.
Las evaluaciones son valoraciones peridicas y objetivas de un proyecto,
programa o poltica planicado, en curso o terminado. Se utilizan para res-
ponder a preguntas especcas relacionadas con el diseo, la implementa-
cin y los resultados. En contraste con el monitoreo, que es permanente, las
evaluaciones se llevan a cabo en momentos concretos en el tiempo y a
menudo requieren una perspectiva externa de los tcnicos expertos. Su
diseo, mtodo y costo varan considerablemente en funcin del tipo de pre-
gunta que la evaluacin intente responder. En trminos generales, las eva-
luaciones pueden abordar tres tipos de preguntas (Imas y Rist, 2009):3
Preguntas descriptivas, que apuntan a lo que est ocurriendo. Se centran
en los procesos, las condiciones, las relaciones organizacionales y las opi-
niones de las partes interesadas.
Preguntas normativas, que comparan lo que ocurre con lo que debera
ocurrir. Evalan las actividades e investigan si los objetivos se cumplen o
no. Estas preguntas pueden aplicarse a los insumos, las actividades y los
productos.
Preguntas de causa y efecto, que se centran en la atribucin. Investigan
qu diferencia produce la intervencin en los resultados.
Hay numerosos tipos de evaluacin y de mtodos de evaluacin, basados en
datos cuantitativos y cualitativos. Los datos cualitativos no se expresan en
nmeros sino ms bien mediante un lenguaje o, a veces, imgenes. Los datos
cuantitativos son mediciones numricas y habitualmente se asocian con
escalas o mtricas. Tanto los unos como los otros se pueden utilizar para
responder al tipo de preguntas planteado ms arriba. En la prctica, nume-
rosas evaluaciones trabajan con ambos tipos de datos. Hay mltiples fuen-
tes de datos que se pueden emplear en las evaluaciones, tanto datos
primarios recopilados para el objetivo de la evaluacin como los datos
secundarios disponibles (vase el captulo 16 sobre las fuentes de datos).
Este libro se centra en las evaluaciones de impacto que se sirven de datos
cuantitativos pero subrayan el valor del monitoreo, de los mtodos de eva-
luacin complementarios y del uso tanto de datos cuantitativos como
cualitativos.
Las evaluaciones de impacto constituyen un tipo particular de evaluacin
que pretende responder a una pregunta especca de causa y efecto: Cul
es el impacto (o efecto causal) de un programa en un resultado de inters?
Esta pregunta bsica incorpora una dimensin causal importante. Se centra
nicamente en el impacto, es decir, en los cambios directamente atribuibles a
un programa, una modalidad de programa o una innovacin de diseo.
La pregunta bsica de la evaluacin cul es el impacto o efecto causal Concepto clave
de un programa en un resultado de inters? se puede aplicar en numerosos Las evaluaciones de
contextos. Por ejemplo, cul es el efecto causal de las becas en la asistencia impacto pretenden
escolar y los logros acadmicos? Cul es el impacto en el acceso a la aten- responder un tipo
particular de pregunta:
cin sanitaria de contratar la atencin primaria con proveedores privados?
Cul es el impacto
Si los suelos de tierra son reemplazados por suelos de cemento, cul ser el (o efecto causal) de un
impacto en la salud de los nios? La mejora de los caminos aumenta el programa en un
acceso a los mercados laborales e incrementa el ingreso de los hogares y, en resultado de inters?
caso armativo, en qu medida? Inuye el tamao de la clase en los logros
de los alumnos y, en caso armativo, en qu medida? Como muestran estos
ejemplos, la pregunta de la evaluacin bsica se puede ampliar para analizar
el impacto de una modalidad de programa o innovacin de diseo, no solo de
un programa.
El sello distintivo de las evaluaciones de impacto es centrarse en la cau-
salidad y la atribucin. Todos los mtodos de evaluacin de impacto plan-
tean alguna forma de pregunta de causa y efecto. El enfoque para abordar la
causalidad determina las metodologas que se pueden utilizar. Para estimar
el efecto causal o el impacto de un programa en los resultados, cualquier
mtodo de evaluacin de impacto elegido debe estimar el llamado contra- Concepto clave
factual, es decir: cul habra sido el resultado de los participantes del pro- La eleccin de un
grama si no hubieran participado en el mismo. En la prctica, la evaluacin mtodo de evaluacin
de impacto depende
de impacto requiere que el equipo de evaluacin encuentre un grupo de
de las caractersticas
comparacin para estimar qu les habra ocurrido a los participantes del operativas del
programa sin el programa, y luego efectuar comparaciones con el grupo de programa que se
tratamiento que ha sido objeto del programa. En la segunda parte de este evala, sobre todo de
libro se describen los principales mtodos que se pueden aplicar para sus recursos
disponibles, sus
encontrar grupos de comparacin adecuados.
criterios de elegibili-
Uno de los principales mensajes de este libro es que la eleccin de un dad para seleccionar a
mtodo de evaluacin de impacto depende de las caractersticas operativas los beneciarios y los
del programa que se evala. Cuando las reglas de operacin del programa son plazos para la
equitativas y transparentes y contemplan la rendicin de cuentas, siempre implementacin del
se podr encontrar un buen diseo de evaluacin de impacto, ya sea que programa.
Por qu evaluar? 9
laevaluacin de impacto se planique al comienzo, o durante el proceso de
diseo o de implementacin de un programa. El contar con reglas de opera-
cin claras y bien denidas para un programa no solo tiene un valor intrnseco
en las polticas pblicas y en una gestin solvente de los programas: tambin
es esencial para construir buenos grupos de comparacin, lo cual constituye
la base de las evaluaciones de impacto rigurosas. Concretamente, la eleccin
de un mtodo de evaluacin de impacto est determinada por las caractersti-
cas operativas del programa, en particular sus recursos disponibles, los crite-
rios de elegibilidad para seleccionar a los beneciarios y los plazos para la
implementacin del programa. Como se ver en las partes 2 y 3 de este libro,
se pueden formular tres preguntas acerca del contexto operativo de un deter-
minado programa: El programa tiene recursos para servir a todos los bene-
ciarios elegibles? El programa est focalizado o es universal? El programa se
ofrecer a todos los beneciarios de una sola vez o demanera secuencial? La
respuesta a estas tres preguntas determinar cul de los mtodos presentados
en la parte 2 asignacin aleatoria, variables instrumentales, regresin dis-
continua, diferencias en diferencias o pareamiento es el ms adecuado para
un determinado contexto operativo.
Evaluacin de impacto prospectiva versus

evaluacin retrospectiva
Las evaluaciones de impacto se pueden dividir en dos categoras: prospecti-

vas y retrospectivas. Las evaluaciones prospectivas se desarrollan simult-
neamente con el diseo del programa y se incorporan en la implementacin
del mismo. Los datos de lnea de base se recopilan antes de implementar el
programa, tanto en el grupo que recibe la intervencin (denominado grupo
de tratamiento) como en el grupo utilizado como comparacin y que no es
objeto de la intervencin (denominado grupo de comparacin). Las evalua-
ciones retrospectivas evalan el impacto del programa despus de que se lo
haya implementado, y los grupos de tratamiento y de comparacin se gene-
ran ex post.
Las evaluaciones de impacto prospectivas tienen ms probabilidades de
producir resultados solventes y crebles, por tres motivos. En primer lugar,
se pueden recopilar datos de lnea de base para establecer las medidas de los
resultados de inters antes de que el programa haya comenzado. Estos datos
son importantes para medir los resultados antes de la intervencin. Los
datos de lnea de base en los grupos de tratamiento y comparacin se deben
analizar para asegurar que los grupos sean similares. Las lneas de base tam-
bin se pueden utilizar para evaluar la efectividad de la focalizacin, es
decir, si un programa llega o no a sus beneciarios previstos.
En segundo lugar, denir la medida de xito del programa en la etapa de
planicacin del mismo centra tanto el programa como la evaluacin en los
resultados previstos. Como se ver, las evaluaciones de impacto se basan en
la teora del cambio de un programa o una cadena de resultados. El diseo
de una evaluacin de este tipo contribuye a claricar los objetivos del pro-
grama, sobre todo porque requiere establecer medidas bien denidas de su
xito. Los responsables de las polticas deberan denir objetivos claros para
el programa y formular preguntas claras que la evaluacin debe contestar,
para garantizar que los resultados sean relevantes para las polticas. En rea-
lidad, el pleno apoyo de los responsables de las polticas es un requisito
necesario para el xito de una evaluacin; no se deberan emprender evalua-
ciones de impacto a menos que los responsables de las polticas estn con-
vencidos de la legitimidad de las mismas y de su valor para fundamentar
decisiones clave de las polticas pblicas.
En tercer lugar, y lo que es an ms importante, en una evaluacin pros-
pectiva los grupos de tratamiento y comparacin se denen antes de imple-
mentar la intervencin que ser evaluada. Como se explicar con mayor
detalle en los prximos captulos, existen muchas otras opciones para llevar
a cabo evaluaciones vlidas cuando las evaluaciones se planican desde el
comienzo, antes de que la implementacin tenga lugar. En las partes 2 y 3 se
argumenta que casi siempre es posible encontrar una estimacin vlida del
contrafactual para cualquier programa cuyas reglas de asignacin sean cla-
ras y transparentes, siempre que la evaluacin se disee de manera prospec-
tiva. En resumen, las evaluaciones prospectivas son las que tienen ms
probabilidades de generar contrafactuales vlidos. En la etapa de diseo, se
pueden contemplar maneras alternativas de estimar un contrafactual vlido.
Concepto clave
El diseo de la evaluacin de impacto tambin se puede alinear plenamente
Las evaluaciones
con las reglas operativas del programa, as como con el despliegue o el pro- prospectivas se
ceso de expansin de este ltimo. disean y elaboran
Por el contrario, en las evaluaciones retrospectivas, el equipo que lleva a antes de implementar
cabo la evaluacin a menudo tiene informacin tan limitada que resulta dif- un programa.
cil analizar si el programa fue implementado con xito y si sus participantes
realmente se beneciaron de l. Numerosos programas no recopilan datos
de lnea de base a menos que se haya incorporado la evaluacin desde el
principio, y una vez que el programa est funcionando ya es demasiado
tarde para hacerlo.
Las evaluaciones retrospectivas que utilizan los datos existentes son
necesarias para evaluar los programas creados en el pasado. En estas situa-
ciones, las opciones para obtener una estimacin vlida del contrafactual
son mucho ms limitadas. La evaluacin depende de reglas claras de opera-
cin del programa en lo que respecta a la asignacin de benecios. Tambin
depende de la disponibilidad de datos con suciente cobertura sobre los
Por qu evaluar? 11
grupos de tratamiento y comparacin, tanto antes como despus de la
implementacin del programa. El resultado es que la viabilidad de una eva-
luacin retrospectiva depende del contexto y nunca est garantizada.
Incluso cuando son viables, las evaluaciones retrospectivas a menudo utili-
zan mtodos cuasi experimentales y dependen de supuestos ms fuertes y,
por ende, pueden producir evidencia ms discutible.4
Estudios de ecacia y estudios de efectividad
La funcin principal de la evaluacin de impacto consiste en producir evi-

dencia sobre el desempeo de un programa a n de que sea utilizada por los
funcionarios pblicos, los administradores del programa, la sociedad civil y
otros actores relevantes. Los resultados de las evaluaciones de impacto son
particularmente tiles cuando las conclusiones se pueden aplicar a una
poblacin de inters ms amplia. La cuestin de la generalizacin es clave
para los responsables de las polticas, puesto que determina si los resultados
identicados en la evaluacin pueden replicarse en grupos ajenos a los que
han sido estudiados en la evaluacin si aumenta la escala del programa.
En los primeros tiempos de las evaluaciones de impacto de los programas
de desarrollo, una gran parte de la evidencia se basaba en estudios de eca-
cia, es decir, pruebas llevadas a cabo en un entorno especco en condicio-
nes rigurosamente controladas para asegurar la consistencia entre el diseo
de la evaluacin y la implementacin del programa. Dado que los estudios
de ecacia suelen realizarse como experiencias piloto con una amplia parti-
cipacin tcnica de los investigadores mientras el programa se est imple-
mentando, puede que sus resultados, a menudo de pequea escala, no
ofrezcan necesariamente mucha informacin acerca del impacto de un pro-
yecto similar implementado a mayor escala en circunstancias normales. Los
estudios de ecacia analizan la prueba de concepto, a menudo para sondear
la viabilidad de un nuevo programa o una teora especca del cambio. Si el
programa no genera impactos anticipados bajo estas condiciones cuidado-
samente manejadas, es poco probable que funcione si se despliega en cir-
cunstancias normales. Por ejemplo, una intervencin piloto que introduce
nuevos protocolos de tratamiento mdico puede funcionar en un hospital
con excelentes administradores y equipo mdico, pero puede que la misma
intervencin no funcione en un hospital promedio con administradores
menos esmerados y limitaciones de personal. Adems, los clculos de costo-
benecio variarn, dado que los pequeos estudios de ecacia quiz no cap-
turen los costos jos ni las economas de escala. Como consecuencia, si bien
la evidencia de los estudios de ecacia puede ser til para probar un enfoque
innovador, los resultados a menudo tienen una capacidad de generalizacin
limitada y no siempre representan adecuadamente entornos ms generales, Concepto clave
que suelen ser la principal preocupacin de los responsables de las Los estudios de
polticas. ecacia evalan si un
programa puede
Al contrario, los estudios de efectividad proporcionan evidencia a partir
funcionar en
de las intervenciones que tienen lugar en circunstancias normales, utili- condiciones ideales,
zando vas de implementacin regulares y con el objeto de producir conclu- mientras que los
siones que se pueden generalizar para una poblacin grande. Cuando las estudios de efectividad
evaluaciones de efectividad estn adecuadamente diseadas e implementa- evalan si un
das, los resultados pueden ser generalizables para beneciarios previstos programa realmente
funciona en
fuera de la muestra de la evaluacin, siempre y cuando la ampliacin utilice
condiciones normales.
las mismas estructuras de implementacin y llegue a poblaciones similares
a la de la muestra de la evaluacin. Esta validez externa tiene una importan-
cia crtica para los responsables de las polticas porque les permite utilizar
los resultados de la evaluacin para fundamentar decisiones que afectan a
todo el programa y que se aplican a los beneciarios previstos ms all de la
muestra de la evaluacin (vase el recuadro 1.3).
Recuadro 1.3: Pruebas de la capacidad generalizable de los

resultados
Una evaluacin multisitio del enfoque de haber arrojado resultados impresionantes en

graduacin para aliviar la extrema Bangladesh. Puesto en marcha por el
pobreza Bangladesh Rural Advancement Committee
Al evaluar un programa en mltiples contex- (BRAC), una gran organizacin de desarrollo
tos, los investigadores pueden analizar si los global, el modelo se propona ayudar a los
resultados de una evaluacin de impacto se muy pobres a graduarse de la extrema
pueden generalizar. Estas denominadas eva- pobreza mediante transferencias de efectivo,
luaciones multisitio contribuyen al creciente activos productivos y formacin intensiva.
corpus de evidencia sobre qu funciona y Banerjee y sus colegas pretendan anali-
qu no lo hace en el desarrollo, y pueden zar si el enfoque de graduacin poda funcio-
proporcionar perspectivas clave a los respon- nar en diferentes pases a travs de seis
sables de las polticas en diferentes pases. evaluaciones de impacto aleatorias simult-
Por ejemplo, en 2007 Banerjee et al. ini- neas en Etiopa, Ghana, Honduras, India,
ciaron una evaluacin multisitio del enfoque Pakistn y Per. En cada pas, los investiga-
de graduacin para aliviar la extrema dores trabajaron con organizaciones no
pobreza. El modelo haba sido objeto de gran gubernamentales (ONG) locales para imple-
atencin en todo el mundo despus de mentar un programa de graduacin similar.
Por qu evaluar? 13
Recuadro 1.3: Pruebas de la capacidad generalizable de los resultados (contina)
Si bien el programa se modic para ade- valor de los activos, inclusin nanciera, tiempo
cuarse a los diferentes contextos en cada dedicado a trabajar, ingresos y rentas, salud
pas, los principios clave seguan siendo los mental y participacin poltica. La magnitud de
mismos. El programa se centr en los hoga- los impactos variaba segn los pases, y hubo
res ms pobres en pueblos de las regiones impactos considerables en el valor de los acti-
ms pobres de cada pas. Durante 24 meses, vos en todos los pases excepto uno. No se
los hogares beneciarios recibieron activos registraron impactos estadsticamente signi-
productivos, formacin y apoyo, coaching en cativos en el ndice de salud fsica.
habilidades para la vida, dinero, informacin Los resultados tambin variaban de un
sanitaria y ayuda en la inclusin nanciera. La pas a otro. Las mejoras en el consumo per
evaluacin de impacto meda la efectividad cpita no fueron signicativas en Honduras ni
de proporcionar este paquete de benecios. en Per, y la mejora en el valor de los activos
El estudio evalu los impactos del programa no lo fue en Honduras. Sin embargo, en trmi-
en 10 conjuntos de resultados. Un ao des- nos agregados, la evaluacin apuntaba hacia
pus de que el programa terminara en los seis la promesa de este tipo de intervencin multi-
pases, se produjeron mejoras considerables factica para mejorar las vidas de las familias
en ocho de los 10 conjuntos de resultados: muy pobres en una gama de entornos.
consumo per cpita, seguridad alimentaria,
Fuentes: Banerjee et al. (2015); BRAC (2013).
Enfoques complementarios
Como se ha sealado, las evaluaciones de impacto responden a preguntas

especcas de causa y efecto. Otros enfoques entre ellos un estrecho moni-
toreo del programa, y tambin el uso complementario de otros mtodos de
evaluacin, como simulaciones ex ante, anlisis con mtodos mixtos que se
basan en datos cualitativos y cuantitativos, y evaluaciones de procesos pue-
den servir como valiosos complementos de las evaluaciones de impacto.
Estos otros enfoques tienen numerosas aplicaciones tiles, como estimar el
efecto de las reformas antes de que sean implementadas, contribuir a focali-
zar las preguntas centrales de la evaluacin de impacto, realizar seguimien-
tos de la implementacin del programa e interpretar los resultados de las
evaluaciones de impacto.
Las evaluaciones de impacto que se realizan en aislamiento con respecto
a otras fuentes de informacin son vulnerables en trminos tanto de su cali-
dad tcnica como de su relevancia para las polticas pblicas. Si bien los
resultados de dichas evaluaciones pueden proporcionar evidencia robusta
para saber si ha tenido lugar un efecto, a menudo existen limitaciones para
proporcionar una perspectiva clara de los canales a travs de los cuales la
poltica o programa inuy en los resultados observados. Sin informacin de
las evaluaciones de procesos sobre la naturaleza y el contenido del programa
para contextualizar los resultados de la evaluacin, puede que los responsa-
bles de las polticas queden confundidos acerca de por qu se alcanzaron o
no ciertos resultados. Adems, sin datos de monitoreo sobre cmo, cundo y
dnde se est implementando el programa, la evaluacin ser ciega en cuanto
a si los benecios llegaron a los beneciarios previstos y cundo lo hicieron,
o bien si alcanzaron de forma inintencionada al grupo de comparacin.
El monitoreo
El monitoreo de la implementacin del programa, las ms de las veces

mediante el uso de datos administrativos, es crtico en una evaluacin de
impacto. Permite al equipo de evaluacin vericar si las actividades se estn
realizando segn lo planicado, es decir, a qu participantes se les adjudic
el programa, con qu rapidez se ampli este ltimo, y cmo se estn gas-
tando los recursos. Esta informacin es fundamental para implementar la
evaluacin, por ejemplo, para asegurar que los datos de lnea de base se
recopilen antes de que se introduzca el programa en la muestra de la evalua-
cin y para vericar la integridad de los grupos de tratamiento y compara-
cin. El monitoreo es esencial para vericar si un beneciario realmente
participa en el programa y para que no intervengan los no beneciarios.
Adems, los datos administrativos pueden proporcionar informacin sobre
el costo de implementacin del programa, lo cual tambin es necesario para
los anlisis de costo-benecio y costo-efectividad.
Simulaciones ex ante
Las simulaciones ex ante son evaluaciones que utilizan datos disponibles para
simular los efectos esperados de una reforma de programas o polticas en los
resultados de inters. Pueden ser muy tiles para medir la efectividad espe-
rada relativa de una gama de opciones de diseo de programas alternativos
en los resultados. Se trata de mtodos habitualmente usados que dependen
de la disponibilidad de datos de gran alcance y calidad que se pueden utilizar
para aplicar modelos de simulacin adecuados a la pregunta en cuestin
(vase el recuadro 1.4). Al contrario de las evaluaciones de impacto, estos
mtodos se emplean para simular futuros efectos potenciales, ms que para
medir los impactos reales de los programas implementados. Este tipo de
mtodos puede ser sumamente til para establecer referencias para los pro-
bables efectos del programa y para instituir objetivos realistas, as como para
estimar costos, tasas de retorno y otros parmetros econmicos. Se suelen
utilizar como la base de los anlisis econmicos de los proyectos, especial-
mente antes de que se introduzca una reforma o se implemente un proyecto.
Por qu evaluar? 15
Recuadro 1.4: Simulacin de posibles efectos del proyecto a
travs del modelado estructural
Construccin de un modelo para probar asistencia escolar en los primeros aos y, en

diseos alternativos utilizando datos de su lugar, utilizaba el dinero para aumentar los
Progresa en Mxico incentivos en efectivo para los alumnos de
Se puede utilizar un cierto tipo de simulacin cursos superiores, los efectos en la escolari-
ex ante (modelado estructural) para estimar zacin promedio completada probablemente
los efectos de un programa en una gama de seran mayores.
diseos alternativos. En la evaluacin Progresa/ En este caso, las proyecciones se realiza-
Oportunidades/Prospera, que se describe en ron utilizando la encuesta de lnea de base de
el recuadro 1.1, los datos recopilados eran lo una evaluacin de impacto que ya se haba
sucientemente ricos para que los investiga- realizado. Los resultados de las predicciones
dores construyeran un modelo que poda se pudieron probar para ver si arrojaban los
simular los efectos esperados de diseos de mismos impactos que el experimento del pro-
programas alternativos. grama real. Sin embargo, esto no es posible
Todd y Wolpin (2006) utilizaron datos de de hacer normalmente. Este tipo de mtodos
lnea de base de la evaluacin de impacto de simulacin suele utilizarse antes de que el
para construir un modelo de las decisiones de programa realmente se implemente con el n
los padres a propsito de sus hijos, incluida la de analizar los probables efectos de diversos
escolarizacin. Los autores simularon cmo diseos de programa alternativos. As, pue-
seran los efectos con distintos diseos de den proporcionar una base para estrechar la
programa, y descubrieron que si el programa gama de opciones a probarse en la prctica.
eliminaba los incentivos en efectivo para la
Fuente: Todd y Wolpin (2006).

Nota: Para otro ejemplo de modelado estructural, vase Bourguignon, Ferreira y Leite (2003).
Los mtodos mixtos
Los enfoques de mtodos mixtos que combinan datos cuantitativos y cualita-

tivos constituyen un complemento clave en las evaluaciones de impacto que se
basan nicamente en el uso de datos cuantitativos, sobre todo para contribuir
a generar hiptesis y enfocar las preguntas de la investigacin antes de recopi-
lar los datos cuantitativos, as como para presentar perspectivas y visiones
novedosas del desempeo de un programa durante y despus de su implemen-
tacin. Hay numerosos mtodos cualitativos, que componen su propio mbito
de investigacin.5 Los mtodos que generan datos cualitativos suelen basarse
en enfoques abiertos, que no dependen de las respuestas predeterminadas de
las personas entrevistadas. Los datos se generan a travs de una gama de enfo-
ques, incluidos grupos focales, historiales y entrevistas con beneciarios selec-
cionados y otros informantes clave (Rao y Woolcock, 2003). Tambinpueden
incluir una gama de evaluaciones observacionales y etnogrcas. A pesar de
que las observaciones, ideas y opiniones recopiladas durante el trabajo cualita-
tivo no suelen ser estadsticamente representativas de los beneciarios del
programa y, por lo tanto, no son generalizables resultan tiles para entender
por qu se han alcanzado o no ciertos resultados (recuadro 1.5).
Las evaluaciones que integran el anlisis cuantitativo y cualitativo se carac-
terizan por utilizar mtodos mixtos (Bamberger, Rao y Woolcock,2010). En el
Recuadro 1.5: Un mtodo mixto de evaluacin en accin
Combinacin de una prueba controlada ms largo plazo. Si bien el RCT encontr que
aleatoria con un estudio etnogrco en la intervencin no tena un impacto estads-
India tico signicativo, el estudio cualitativo pro-
Los enfoques de mtodos mixtos pueden ser porcion visiones novedosas de las causas
especialmente tiles cuando evalan progra- del fracaso de la intervencin. La investi-
mas con resultados que son difciles de medir gacin cualitativa identic diversos facto-
en las encuestas cuantitativas. Los progra- res que obstaculizaron la efectividad de la
mas de los mbitos de democracia y gober- esta ltima: las variaciones en la calidad de
nanza constituyen ejemplos de este tipo. la facilitacin del programa, la falta de apoyo
As, mientras se diseaba una estrategia de arriba hacia abajo y las arraigadas estruc-
de evaluacin para el programa Campaa del turas de poder local.
pueblo que pretenda mejorar la participa- La evidencia cualitativa tambin descubri
cin ciudadana en los gobiernos locales, algunos impactos del programa menos tangi-
Ananthpur, Malik y Rao (2014) integraron un bles e inesperados. En los pueblos del trata-
ensayo controlado aleatorio (RCT, por sus miento, el programa mejor la resolucin de
siglas en ingls, Randomized Control Trial) conictos en la prestacin de servicios y
(vase el glosario) con un estudio etnogrco aument la participacin de las mujeres en
llevado a cabo en un subconjunto del 10% de las actividades de desarrollo de sus comuni-
la muestra de evaluacin utilizada para el RCT. dades. Adems, los investigadores de campo
Se emplearon mtodos de pareamiento para observaron que los gobiernos locales funcio-
asegurar caractersticas similares entre pue- naban mejor en los pueblos de tratamiento.
blos de tratamiento y de comparacin en la Sin la comprensin matizada del con-
muestra para el estudio cualitativo. Se asign texto y de la dinmica local que proporciona
un experimentado investigador de campo el componente cualitativo, los investigado-
para que viviera en cada pueblo y estudiara res no habran podido entender por qu los
los impactos del programa en las estructuras datos cuantitativos no encontraron impac-
sociales y polticas del pueblo. tos. El estudio etnogrco fue capaz de pro-
El estudio etnogrco continu durante porcionar una evaluacin ms rica, con
dos aos despus de que termin el RCT, lo perspectivas novedosas de los elementos
que permiti observaciones de efectos a tiles para mejorar el programa.
Fuente: Ananthpur, Malik y Rao (2014).
Por qu evaluar? 17
desarrollo de un enfoque de mtodo mixto, Creswell (2014) dene tres
aproximaciones bsicas:
1. Convergente paralelo. Se recopilan simultneamente datos cuantitativos
y cualitativos y se utilizan para triangular los hallazgos o para generar los
primeros resultados sobre cmo se est implementando el programa y
cmo lo perciben los beneciarios.
2. Explicativo secuencial. Los datos cualitativos proporcionan contexto y
explicaciones para los resultados cuantitativos, para explorar casos at-
picos de xito y fracaso, y para desarrollar explicaciones sistemticas del
desempeo del programa, como se constat en los resultados cuantitati-
vos. De esta manera, el trabajo cualitativo puede contribuir a determinar
por qu en el anlisis cuantitativo se observan ciertos resultados, y se
pueden usar para entrar en la caja negra de lo que ocurri en el pro-
grama (Bamberger, Rao y Woolcock, 2010).
3. Exploratorio secuencial. El equipo de evaluacin puede utilizar grupos
focales, listas, entrevistas con informantes clave y otros enfoques cualita-
tivos para desarrollar hiptesis a propsito de cmo y por qu el pro-
grama funcionara, y para claricar preguntas acerca de la investigacin
que hay que abordar en el trabajo cuantitativo de evaluacin de impacto,
lo que incluye las alternativas ms relevantes del diseo de programas
que deben ser probadas a travs de la evaluacin de impacto.
Las evaluaciones de procesos
Las evaluaciones de procesos se centran en cmo se implementa y funciona

un programa, considerando si corresponde a su diseo original, y documen-
tando su desarrollo y funcionamiento. Normalmente, estas evaluaciones
pueden llevarse a cabo con relativa rapidez y a un costo razonable. En los
proyectos piloto y en las etapas iniciales de un programa, pueden ser una
valiosa fuente de informacin sobre cmo mejorar la implementacin del
programa, y se suelen utilizar como primeros pasos para desarrollar un pro-
grama de modo que los ajustes operativos se puedan hacer antes de que se
termine su diseo. Pueden probar si un programa funciona como estaba dise-
ado y si es consistente con la teora del cambio del mismo (recuadro 1.6).
Una evaluacin de procesos debera incluir los siguientes elementos, que
a menudo se basan en una cadena de resultados o modelo lgico (vase el
captulo 2), complementados con documentos del programa y entrevistas
con informantes clave y grupos focales beneciarios:6
Objetivos del programa y contexto en el que funciona.
Descripcin del proceso utilizado para disear e implementar el programa.
Recuadro 1.6: Fundamentos para una ampliacin a escala
nacional mediante una evaluacin de procesos en Tanzania
En el desempeo de un programa hay mlti- ser difciles de cuanticar, como los cambios
ples facetas. La evidencia de las evaluacio- en las relaciones entre los miembros del
nes de procesos puede complementar los hogar o la dinmica de la comunidad. El obje-
resultados de la evaluacin de impacto y pro- tivo de la evaluacin del proceso consista en
porcionar un cuadro ms completo de dicho entender cmo funcionaba el programa en la
desempeo. Esto puede ser particularmente prctica y presentar recomendaciones de
importante para que los programas piloto mejoras.
arrojen luz sobre cmo estn funcionando las La evaluacin de impacto descubri que
nuevas instituciones y los nuevos procesos. el programa tena impactos positivos y esta-
En 2010 el gobierno de Tanzania decidi dsticamente signicativos en resultados
llevar a cabo en tres distritos un plan piloto clave de educacin y salud. Los nios de los
de transferencias condicionadas con base en hogares que participaban tenan un 15%
la comunidad. El programa proporcionaba ms de probabilidades de completar la
una transferencia de efectivo a los hogares escuela primaria y un 11% menos de proba-
pobres en funcin del cumplimiento de cier- bilidades de caer enfermos. Adems, los gru-
tos requisitos educativos y sanitarios. Los pos focales con los maestros revelaron que
grupos comunitarios ayudaron a asignar las los alumnos de los grupos de tratamiento
transferencias a los hogares ms vulnerables estaban ms preparados y ms atentos.
de sus comunidades. Para evaluar si este Sin embargo, los grupos focales con
sistema basado en la comunidad funcionaba miembros de la comunidad indicaban que
en el contexto de Tanzania, un equipo de haba cierto grado de descontento con el
investigadores del Banco Mundial decidi proceso de seleccin de los beneciarios.
integrar una evaluacin de procesos en una Los participantes se quejaban de falta de
evaluacin de impacto tradicional. transparencia en la seleccin y de retrasos
Para la evaluacin de procesos se utiliza- en los pagos. La evaluacin del proceso per-
ron datos cualitativos y cuantitativos. Un ao miti a los administradores del programa
despus de implementar la encuesta de abordar estos problemas y mejorar el funcio-
lnea de base en distritos piloto, los investi- namiento del programa.
gadores organizaron un ejercicio de tarjetas El trabajo de evaluacin fundament la
de puntuacin en la comunidad para calicar decisin del gobierno de Tanzania de aumen-
aspectos del programa, basndose en gru- tar la escala del programa. Se espera que las
pos focales compuestos por miembros de la transferencias condicionadas con base en
comunidad. Estos grupos tambin se usaron las comunidades lleguen a casi un milln de
para dar lugar a minuciosas discusiones hogares hacia 2017, teniendo en cuenta las
sobre los impactos del programa que podran lecciones de esta evaluacin exhaustiva.
Fuentes: Berman (2014); Evans et al. (2014).
Por qu evaluar? 19
Descripcin de las operaciones del programa, incluido cualquier cambio
en las mismas.
Datos bsicos sobre las operaciones del programa, incluidos indicadores
nancieros y de cobertura.
Identicacin y descripcin de eventos que escapan al control del pro-
grama que pueden haber inuido en la implementacin y los resultados.
Documentacin, como notas de concepto, manuales operativos, actas de
las reuniones, informes y memorandos.
Aplicar una evaluacin de impacto a un programa cuyos procesos operati-
vos no han sido validados plantea el doble riesgo de que se malgasten los
recursos de dicha evaluacin, cuando en realidad podra bastar con una eva-
luacin de proceso ms sencilla, o bien el riesgo de que los ajustes necesa-
rios en el diseo del programa se introduzcan una vez que la evaluacin de
impacto ya ha comenzado, lo cual cambia el carcter del programa que se
evala y la utilidad de la mencionada evaluacin.
Anlisis de costo-benecio y costo-efectividad

Conceptos clave Es sumamente importante que la evaluacin de impacto pueda complemen-
El anlisis de tarse con informacin sobre el costo del proyecto, del programa o de la pol-
costo-benecio estima
tica que se evala.
los benecios totales
esperados de un
Una vez que estn disponibles los resultados de la evaluacin de impacto,
programa, comparado estos pueden combinarse con informacin sobre los costos del programa
con sus costos totales para responder a otras dos preguntas. En primer lugar, en la forma bsica de
esperados. una evaluacin de impacto, aadir informacin del costo permitir llevar a
El anlisis de cabo un anlisis de costo-benecio, a partir de lo cual se podr responder a
costo-efectividad la pregunta: cules son los benecios de un programa con un determinado
compara el costo
costo? El anlisis de costo-benecio estima los benecios totales esperados
relativo de dos o ms
programas o de de un programa, comparado con sus costos totales esperados. Busca cuanti-
alternativas de car todos los costos y benecios de un programa en trminos monetarios,
programas para y evala si estos ltimos superan a los costos.7
alcanzar un resultado En un mundo ideal, el anlisis de costo basado en la evidencia de la eva-
comn.
luacin de impacto existira no solo para un programa concreto sino tam-
bin para una serie de programas o alternativas de programas, de modo que
los responsables de las polticas pudieran valorar qu programa o alterna-
tiva es ms efectivo en funcin de los costos para lograr un determinado
objetivo. Cuando una evaluacin de impacto ensaya alternativas de un pro-
grama, aadir informacin sobre costos le permite responder a la segunda
pregunta: cmo se comparan diversas alternativas de implementacin en
cuanto a su costo-efectividad? Este anlisis de costo-efectividad compara el
costo relativo de dos o ms programas o alternativas de programas para
alcanzar un objetivo comn, como la produccin agrcola o las puntuacio-
nes de los alumnos en las pruebas.
En un anlisis de costo-benecio o de costo-efectividad, la evaluacin de
impacto estima el lado del benecio o el lado de la efectividad, mientras que
examinar los costos proporciona la informacin sobre los mismos. Este libro
se centra en la evaluacin de impacto y no aborda en detalle cmo recopilar
datos sobre costos o llevar a cabo anlisis de costo-benecio o costo-
efectividad. Sin embargo, es fundamental que la evaluacin de impacto se
complemente con informacin sobre el costo del proyecto, del programa o
de la poltica que se evala. Una vez que se disponga de informacin sobre el
impacto y el costo de diversos programas, el anlisis de costo-efectividad
puede identicar cules son las inversiones que arrojan la tasa ms alta de
retorno y permiten a los responsables de las polticas tomar decisiones bien
fundamentadas sobre las intervenciones en las que hay que invertir. El
recuadro 1.7 ilustra cmo se pueden utilizar las evaluaciones de impacto
para identicar los programas ms efectivos en trminos de costo-
efectividad y mejorar la asignacin de recursos.
Recuadro 1.7: La evaluacin de costo-efectividad
Comparacin de evaluaciones de impacto para analizar la costo-efectividad de

programas que inuyen en el diferentes tipos de intervenciones educativas.
aprendizaje en las escuelas primarias Los autores compararon varios tipos de
Al evaluar un cierto nmero de programas con intervenciones en educacin, entre ellas el
objetivos similares, es posible comparar la acceso a la educacin, los insumos habitua-
costo-efectividad relativa de diferentes enfo- les, las innovaciones pedaggicas, la rendi-
ques para mejorar los resultados, como el cin de cuentas de los maestros y la gestin
aprendizaje en las escuelas primarias. Para basada en la escuela. En particular, investi-
que esto sea posible, los evaluadores deben garon las mejoras en las puntuaciones de las
divulgar no solo los resultados de la evaluacin pruebas, en trminos de desviaciones
de impacto sino tambin informacin detallada estndar, que podan obtenerse por cada
sobre el costo de las intervenciones. En un US$100 invertidos en el programa. Aunque
meta anlisis de los resultados de aprendizaje es probable que los costos disminuyeran si
efectuado en pases en desarrollo, Kremer, los programas se implementaban a escala,
Brannen y Glennerster (2013) utilizaron infor- para mayor consistencia, los investigadores
macin sobre el costo de 30 evaluaciones de utilizaron los costos tal como se informaba
Por qu evaluar? 21
Recuadro 1.7: La evaluacin de costo-efectividad (contina)
en las evaluaciones. As, encontraron que Por ejemplo, si bien la creacin y formacin de
las reformas pedaggicas y las intervencio- comits de escuelas locales en Indonesia no
nes que mejoran la rendicin de cuentas y tuvo impactos signicativos en las puntuacio-
aumentan los incentivos para los maestros nes de las pruebas, lograr que los comits fue-
tienden a ser las ms costo-efectivas. Por ran ms representativos a travs de las
otro lado, llegaron a la conclusin de que elecciones result sumamente costo-efectivo.
proveer ms de los mismos insumos sin Como ilustra su estudio, comparar las
cambiar la pedagoga o la rendicin de cuen- evaluaciones de intervenciones que tienen
tas tena impactos limitados en las puntua- objetivos similares puede arrojar luz sobre
ciones de las pruebas. Por ejemplo, un la efectividad de diferentes intervenciones
programa aplicado en Kenia que increment en diferentes contextos. Sin embargo, los
el nmero de maestros en las escuelas no investigadores deben reconocer que los con-
tuvo impactos signicativos en las puntua- textos varan de forma considerable segn
ciones de las pruebas de los alumnos. los programas y escenarios. Tambin sigue
Los programas que empoderaban a las siendo relativamente raro contar con abun-
comunidades locales a travs de intervencio- dancia de datos de distintos programas en
nes de gestin basadas en la escuela parecan trminos de mediciones, evaluaciones de
ser los ms exitosos y costo-efectivos, sobre impacto e informacin del costo de resulta-
todo cuando estas reformas se formalizaron. dos comparables.
Fuente: Kremer, Brannen y Glennerster (2013).
Consideraciones ticas con respecto a la

evaluacin de impacto
Cuando se toma la decisin de disear una evaluacin de impacto, se deben

considerar algunos asuntos ticos. Se han formulado preguntas a propsito
de si la evaluacin de impacto es tica en s misma y por s sola. Un punto de
partida de este debate consiste en considerar la tica de invertir recursos
pblicos en programas cuya efectividad se desconoce. En este contexto, la
falta de evaluacin puede en s misma ser no tica. La informacin sobre la
efectividad del programa que generan las evaluaciones de impacto puede
conducir a una inversin ms efectiva y tica de los recursos pblicos.
Otras consideraciones ticas tienen que ver con las reglas utilizadas para
asignar los benecios del programa, con los mtodos con los que se estudia
a los seres humanos y con la transparencia en la documentacin de los pla-
nes de investigacin, datos y resultados. Estos temas se abordarn en detalle
en el captulo 13.
El principio tico ms bsico en una evaluacin es que la prestacin de
intervenciones con benecios conocidos no debera negarse o retrasarse
nicamente en funcin de los objetivos de la evaluacin. En este libro se
sostiene que las evaluaciones no deberan dictar cmo se asignan los bene-
cios, sino ms bien que deberan ajustarse a reglas de asignacin del pro-
grama que sean equitativas y transparentes. En este contexto, cualquier
preocupacin tica a propsito de las reglas de asignacin del programa no
nace de la evaluacin de impacto en s misma sino directamente de las reglas
de operacin del programa. Planicar las evaluaciones puede ser til para
dilucidar las reglas de operacin del programa, y contribuir a estudiar si son
equitativas y transparentes, sobre la base de criterios claros de elegibilidad.
La asignacin aleatoria de los benecios del programa a menudo suscita
inquietudes ticas a propsito de la negacin de dichos benecios a destina-
tarios elegibles. Sin embargo, la mayora de los programas funciona en con-
textos operativos con recursos nancieros y administrativos limitados, lo
cual impide llegar a todos los beneciarios elegibles de una sola vez. Desde
una perspectiva tica, todos los sujetos que son igualmente elegibles para
participar en cualquier tipo de programa social deberan tener la misma
oportunidad de ser destinatarios del programa. La asignacin aleatoria
cumple este requisito tico. En situaciones en las cuales un programa se
aplicar en fases a lo largo del tiempo, la implementacin se puede basar en
seleccionar aleatoriamente el orden en que los beneciarios, todos igual-
mente meritorios, sern receptores del programa. En estos casos, los desti-
natarios que ingresen ms tarde en el programa pueden conformar el grupo
de comparacin para los primeros beneciarios, generando un slido diseo
de evaluacin, as como un mtodo transparente e imparcial para asignar los
escasos recursos.
La tica de la evaluacin de impacto excede a la tica de las reglas de
asignacin del programa. Tambin incluye la tica de la investigacin en
seres humanos, as como la tica de llevar a cabo investigaciones transpa-
rentes, objetivas y reproducibles, como se analiza en el captulo 13.
En numerosos pases e instituciones internacionales, se han creado jun-
tas de revisin institucional o comits ticos para regular las investigaciones
que involucran a seres humanos. Estos organismos se encargan de asesorar,
aprobar y monitorear los estudios de investigacin, con los objetivos funda-
mentales de proteger los derechos y promover el bienestar de todos los
sujetos. Aunque las evaluaciones de impacto son eminentemente empresas
operativas, tambin constituyen estudios de investigacin y, como tales,
deberan adherir a las directrices de investigacin para seres humanos.
Conseguir que una evaluacin de impacto sea objetiva, transparente y
reproducible es un componente tico igualmente importante de la investi-
gacin. Para que la investigacin sea transparente, los planes de evaluacin
de impacto pueden incluirse en un plan de anlisis previo y ser sometidos a
un registro de estudios. Una vez que la investigacin se lleve a cabo, los datos
Por qu evaluar? 23
y cdigos utilizados en el anlisis pueden hacerse pblicamente disponibles
de modo que otras personas puedan replicar el trabajo, a la vez que se pro-
tege el anonimato.
La evaluacin de impacto en las decisiones de

polticas
Las evaluaciones de impacto son necesarias para informar a los responsables

de las polticas en relacin con una gama de decisiones, que abarcan desde
los recortes de programas inecientes hasta el aumento de escala de inter-
venciones que funcionan, o ajustar los benecios del programa y seleccionar
entre diversas alternativas de programas. Dichas evaluaciones son ms efec-
tivas cuando se aplican de manera selectiva para responder a preguntas clave
de polticas, y se suelen aplicar a programas piloto innovadores que estn
probando un enfoque desconocido pero prometedor. La evaluacin de las
transferencias condicionadas en Mxico, que se describe en el recuadro 1.1,
se volvi inuyente no solo debido a la naturaleza innovadora del programa
sino tambin porque la evaluacin misma proporcion evidencia creble y
slida que no poda ignorarse en las posteriores decisiones de las polticas.
La adopcin y ampliacin del programa tanto a nivel nacional como interna-
cional tuvieron una fuerte inuencia de los resultados de la evaluacin.
Las evaluaciones de impacto se pueden utilizar para explorar diferentes
tipos de preguntas relacionadas con las polticas. La forma bsica de evalua-
cin de impacto probar la efectividad de un determinado programa. En
otras palabras, responder a la pregunta: son un determinado programa o
una determinada intervencin efectivos en comparacin con la ausencia del
programa? Como se ver en la parte 2 del libro, este tipo de evaluacin de
impacto depende de la comparacin entre un grupo de tratamiento al que se
aplic la innovacin, el programa o la poltica y un grupo al que no se le
aplic, con el n de estimar la efectividad. El principal reto en una evalua-
cin de impacto consiste en construir un grupo de comparacin que sea lo
ms similar posible al grupo de tratamiento. El grado de comparabilidad
entre los grupos de tratamiento y comparacin es central para la validez
interna de la evaluacin y, por lo tanto, es fundamental para evaluar el
impacto causal de un programa.
Las evaluaciones de impacto tambin se estn utilizando cada vez ms
para probar innovaciones de diseo en un programa sin un grupo de compa-
racin puro seleccionado fuera del programa. Estos tipos de evaluaciones
a menudo se realizan para ver si una determinada innovacin de diseo
puede mejorar la efectividad del programa o disminuir los costos (vase el
recuadro 1.8).
Recuadro 1.8: Evaluacin de programas innovadores
El equipo de Beahavioural Insights del BIT lleg a la conclusin de que el incentivo

Reino Unido del sorteo aument de manera signicativa la
Creado en 2010 por el gobierno britnico, el inscripcin de los votantes. Adems, ahorr al
equipo de Behavioural Insights (BIT, por sus gobierno local mucho dinero; anteriormente,
siglas en ingls) fue la primera institucin el gobierno haba recurrido a una onerosa
estatal destinada a mejorar los servicios campaa puerta a puerta para incrementar la
pblicos a travs de la aplicacin de la cien- inscripcin de votantes.
cia del comportamiento. Los objetivos de la En otra evaluacin innovadora, el BIT se
organizacin son mejorar la costo-efectividad asoci con el Servicio Nacional de Salud y el
de los servicios pblicos, introducir modelos Departamento de Salud para analizar cmo
realistas de comportamiento humano en los animar en trminos costo-efectivos a las per-
anlisis de las polticas y permitir que las personas a registrarse como donantes de rga-
sonas tomen mejores decisiones. Con este nos. Se trata de uno de los ensayos aleatorios
objetivo, el BIT utiliza experimentos con eva- controlados ms grandes jams llevados a
luaciones de impacto incorporadas para pro- cabo en el sector pblico del Reino Unido.
bar ideas innovadoras en las polticas Los investigadores encontraron resultados
pblicas. Desde su creacin, la organizacin alentadores a partir de una intervencin que
ha implementado ms de 150 pruebas de probaba el uso de diferentes mensajes en
control aleatorizado en una amplia variedad una pgina web pblica de alto trnsito. La
de mbitos de las polticas nacionales, a frase breve con mejores resultados se bas
menudo utilizando datos administrativos. en la idea de reciprocidad y preguntaba: Si
El BIT ha llevado a cabo evaluaciones de necesitara un trasplante de rganos, recurri-
innovaciones en los servicios pblicos sobre ra a l? Si la respuesta es s, ayude a otros.
la base de la literatura de la ciencia del com- El BIT es de propiedad conjunta y est
portamiento. La organizacin colabor con un nanciado por el gobierno britnico, Nesta
municipio de Londres para introducir un (una institucin de benecencia para la inno-
incentivo de sorteo para mejorar la inscripcin vacin), y los propios empleados. El modelo
de los votantes antes de las elecciones. Los se ha ampliado fuera del Reino Unido y se
residentes fueron asignados aleatoriamente a han creado ocinas de BIT en Australia y
tres grupos: i) sin sorteo, ii) un sorteo con un Estados Unidos. Adems, Estados Unidos
premio de 1.000 si se inscriban hasta cierta sigui el modelo BIT para crear una iniciativa
fecha y iii) un sorteo con un premio de 5.000 social y de ciencia del comportamiento en la
si se inscriban antes de esa misma fecha. El Casa Blanca en 2015.
Fuente: Behavioural Insights Team.
Las evaluaciones tambin pueden utilizarse para probar la efectividad de

las alternativas de implementacin de un programa. Por ejemplo, pueden
responder a la siguiente pregunta: cuando un programa se puede implemen-
tar de diversas maneras, cul es la modalidad de programa ms efectiva o la
ms costo-efectiva? En este tipo de evaluacin pueden compararse dos o ms
Por qu evaluar? 25
enfoques o rasgos de diseo dentro de un programa para generar evidencia
en relacin con cul es la alternativa ms costo-efectiva para lograr un deter-
minado objetivo. A estas alternativas de programa suele denominrselas
ramas de tratamiento. Por ejemplo, puede que un programa desee probar
campaas de extensin alternativas y seleccione a un grupo para que reciba
una campaa de correo, mientras que otro es destinatario de visitas puerta a
puerta y un tercero recibe mensajes de texto SMS, para evaluar cul es el
mtodo ms costo-efectivo. Las evaluaciones de impacto que prueban trata-
mientos de programas alternativos suelen incluir un grupo de tratamiento
para cada una de las ramas de tratamiento, as como un grupo de compara-
cin puro que no recibe ninguna intervencin del programa. Este tipo de
evaluaciones permite que los responsables de la toma de decisiones elijan
entre distintas alternativas de implementacin, y puede ser muy til para
mejorar el desempeo de los programas y ahorrar costos (recuadro 1.9).
Recuadro 1.9: La evaluacin de alternativas de diseo de

programas
La desnutricin y el desarrollo cognitivo Primero, los evaluadores utilizaron un pro-

en Colombia ceso de seleccin para identicar un grupo
A comienzos de los aos setenta, la Estacin de de 333 nios desnutridos. Estos nios fue-
Investigacin de Ecologa Humana, en colabora- ron clasicados en 20 sectores por barrio, y
cin con el Ministerio de Educacin de cada sector fue asignado aleatoriamente a
Colombia, implement un programa piloto para uno de cuatro grupos de tratamiento. Los
abordar el problema de la desnutricin infantil en grupos diferan solo en la secuencia en que
Cali, Colombia, mediante atencin sanitaria y comenzaban el tratamiento y, por lo tanto, en
actividades educativas, adems de alimentos y la cantidad de tiempo que dedicaran al pro-
complementos nutricionales. Como parte del grama. El grupo 4 fue el que empez primero
plan piloto, un equipo de evaluadores deba y se vio expuesto al tratamiento durante el
determinar cunto durara un programa de este perodo ms largo, seguido de los grupos 3,
tipo para reducir la desnutricin entre los nios 2 y 1. El tratamiento consista en seis horas
en edad preescolar de las familias de bajos diarias de atencin sanitaria y actividades
ingresos, y si las intervenciones tambin podran educativas, ms alimentos y complementos
generar mejoras en el desarrollo cognitivo. nutricionales. A intervalos regulares a lo largo
Finalmente, el programa se implement del programa, los evaluadores utilizaron prue-
para ocho familias elegibles, aunque durante bas cognitivas para seguir el progreso de los
el plan piloto los evaluadores pudieron com- nios en los cuatro grupos.
parar grupos similares de nios que reciban Los evaluadores llegaron a la conclusin
el tratamiento durante lapsos diferentes. de que los nios que estaban ms tiempo

Recuadro 1.9: La evaluacin de alternativas de diseo de programas (contina)
en el programa mostraban la mayor mejora Este ejemplo ilustra cmo los encarga-
en el rea cognitiva. En el test de inteligen- dos de implementar el programa y los res-
cia Stanford-Binet, que calcula la edad men- ponsables de las polticas pueden utilizar las
tal menos la edad cronolgica, el promedio evaluaciones de mltiples ramas de trata-
de los nios del grupo 4 era de -5 meses y el miento para determinar cul es la alternativa
de los nios del grupo 1 era de -15 meses. ms efectiva para un programa.
Fuente: McKay et al. (1978).
Adems, se pueden hacer comparaciones entre subgrupos de recepto-

res dentro de una determinada evaluacin para responder a la siguiente
pregunta: el programa es ms efectivo para un subgrupo que para otro
subgrupo? Por ejemplo, la introduccin de un nuevo programa de estudios,
aument ms las puntuaciones de las pruebas entre las alumnas que entre
los alumnos? Este tipo de preguntas de una evaluacin de impacto se
orienta a documentar si hay alguna heterogeneidad en los impactos del
programa en diferentes subgrupos. Estas preguntas deben tenerse en
cuenta al comienzo, dado que es necesario incorporarlas en el diseo de
una evaluacin de impacto y requieren muestras sucientemente grandes
para llevar a cabo el anlisis de los distintos subgrupos de inters.
Ms all de las diversas caractersticas del diseo ya tratadas, cabe consi-
derar los canales a travs de los cuales las evaluaciones de impacto inuyen
en las polticas pblicas. Esto puede suceder en relacin con decisiones
acerca de continuar, reformar o poner n a un programa. Los resultados de
la evaluacin de impacto tambin pueden fundamentar el aumento de la
escala de las pruebas piloto, como queda ilustrado en el caso de Mozambique
presentado en el recuadro 1.2.
Las evaluaciones tambin pueden aportar evidencia de un pas a otro o se
pueden utilizar para analizar cuestiones fundamentales, como las relaciona-
das con la conducta. Aventurarse ms all de las fronteras de una evaluacin
de un programa individual suscita la pregunta sobre su carcter generaliza-
ble. Como se ver en el captulo 4, en el contexto de una determinada eva-
luacin, la muestra de la evaluacin est diseada para ser estadsticamente
representativa de la poblacin de unidades elegibles de las que se extrae la
propia muestra y, por lo tanto, es externamente vlida. Pero ms all de la
validez externa, el carcter generalizable determinar si los resultados de
una evaluacin realizada a nivel local sern vlidos en otros entornos y para
otros grupos de poblacin. Este concepto ms expansivo y ambicioso
Por qu evaluar? 27
depende de la acumulacin de evidencia emprica creble en toda una gama
de entornos.
El campo de la evaluacin de impacto se basa cada vez ms en el cre-
ciente inventario de evaluaciones crebles para alcanzar conclusiones
ampliamente generalizables. Este esfuerzo se centra en probar si una
teora concreta del cambio es vlida en diferentes contextos y si un pro-
grama similar probado en entornos diferentes arroja resultados similares
(vase el recuadro 1.10). El uso de mltiples evaluaciones para responder
a preguntas centrales o reunir evidencia a travs de meta anlisis, estu-
dios sistemticos y registros de evaluacin est aumentando rpida-
mente, y abre una nueva frontera en el trabajo de evaluacin. Si los
resultados son consistentes en diferentes y mltiples entornos, esto
brinda mayor conanza a los responsables de las polticas en cuanto a la
viabilidad del programa en toda una gama de contextos y de grupos de
poblacin. Se trata de una consideracin importante, dado que los deba-
tes acerca de la capacidad de replicar resultados son fundamentales en
cuestiones relacionadas con la efectividad y escalabilidad ms amplia de
un determinado programa.
Recuadro 1.10: El enfoque de evaluaciones de impacto de clusters
Construccin estratgica de la evidencia perspectivas para aplicar ms ampliamente

para reducir las brechas de conocimiento las intervenciones de un programa y de las
A pesar de que el carcter generalizable de polticas, utilizando un enfoque de cluster de
una sola evaluacin de impacto puede ser investigacin.
bajo, en combinacin con evaluaciones simila- A menudo, las convocatorias de propues-
res en diferentes contextos los profesionales tas se orientan en torno a un conjunto de
del desarrollo pueden elaborar conclusiones preguntas de investigacin destinadas a fun-
ms ampliamente aplicables a propsito de damentar el programa y el diseo de las pol-
qu funciona y qu no. Cada vez ms, las ini- ticas, para generar evaluaciones de impacto
ciativas de evaluacin de impacto como el que contribuirn a una base de evidencia
Fondo Estratgico para la Evaluacin de coordinada. El objetivo consiste en orientar
Impacto del Banco Mundial (SIEF) y la la investigacin y la generacin de evidencia
Evaluacin de Impacto del Desarrollo (DIME), en torno a tipos de intervenciones o tipos de
as como la Iniciativa Internacional para la resultados.
Evaluacin de Impacto (3IE), se proponen Dentro de estos clusters se producen eva-
brindar a los responsables de las polticas luaciones para llenar lagunas en el conjunto

Recuadro 1.10: El enfoque de evaluaciones de impacto de clusters (contina)
de pruebas existente. Por ejemplo, hay slida Agrupar las evaluaciones en torno a un
evidencia que demuestra que los nios que cmulo comn de preguntas de investiga-
reciben una combinacin de nutricin, esti- cin y utilizando una batera clave de instru-
mulacin cognitiva y apoyo sanitario en los mentos para medir los resultados permite a
primeros 1.000 das de vida tienen ms pro- los responsables de las polticas y a los pro-
babilidades de evitar retrasos en el desarrollo. fesionales del desarrollo ver qu tipos de
Sin embargo, faltan investigaciones sobre programas funcionan en mltiples entornos.
cul es la mejor manera de prestar este Despus, podrn revisar sus propios dise-
apoyo combinado de formas escalables y os de polticas y programas con un sentido
costo-efectivas. SIEF apoya la investigacin ms anado de los contextos en que deter-
para explorar esta pregunta en Bangladesh, minados programas han funcionado o no, o
Colombia, India, Indonesia, Madagascar, teniendo en cuenta cmo en diversos casos
Mozambique, Nepal y Nger. se han logrado resultados concretos.
Fuentes: DIME (www.worldbank.org/dime); SIEF (http://www.worldbank.org/en/programs/sief-trust-fund); 3IE

(http://www.3ieimpact.org).
La decisin de llevar a cabo una evaluacin de

impacto
No todos los programas justican una evaluacin de impacto. Las evaluacio-

nes de impacto deberan utilizarse selectivamente cuando la pregunta que
se plantea exige un exhaustivo anlisis de la causalidad. Estas evaluaciones
pueden ser costosas si uno tiene que recopilar sus propios datos, y el presu-
puesto con el que se cuenta para la evaluacin debera utilizarse de manera
estratgica. Si uno est comenzando, o pensando en ampliar un nuevo pro-
grama y tiene dudas acerca de proceder o no con una evaluacin de impacto,
formularse unas pocas preguntas bsicas le ayudar en esta decisin.
La primera pregunta que debe formularse es: qu est en juego? Ser
que la evidencia del xito del programa, o la modalidad del mismo o la inno-
vacin en el diseo fundamentarn decisiones clave? Estas decisiones a
menudo implican asignaciones presupuestarias y determinan la escala del
programa. Si el presupuesto es limitado o si los resultados afectarn solo a
unas pocas personas, puede que una evaluacin de impacto no merezca la
pena. Por ejemplo, puede que no se justique llevar a cabo una evaluacin
de impacto de un programa en una clnica pequea que ofrece asesora a los
pacientes de hospital mediante voluntarios. En cambio, una reforma del
salario de los maestros que eventualmente afectar a todos los maestros de
Por qu evaluar? 29
primaria del pas sera un programa con elementos mucho ms importantes
en juego.
Si se decide que hay mucho en juego la siguiente pregunta es: existe evi-
dencia que demuestre que el programa funciona? Concretamente, se sabe
cul sera el alcance del impacto del programa? Hay evidencia disponible de
programas similares en circunstancias similares? Si no hay evidencia dispo-
nible acerca del potencial del tipo de programa proyectado, puede que con-
venga comenzar con una prueba piloto que incorpore una evaluacin de
impacto. En cambio, si hay evidencia disponible de circunstancias similares,
el costo de una evaluacin de impacto probablemente estara justicado solo
si puede abordar una nueva pregunta determinante para las polticas pbli-
cas. Este sera el caso si el programa incluye innovaciones sustanciales que
todava no han sido probadas.
Para justicar la movilizacin de recursos tcnicos y nancieros necesa-
rios para llevar a cabo una evaluacin de impacto de alta calidad, la inter-
vencin que ser evaluada debe ser:
Innovadora. Probar un enfoque nuevo y prometedor.
Aplicable. Se puede aumentar la escala o se puede aplicar en un entorno
diferente.
Estratgicamente relevante. La evidencia proporcionada por la evalua-
cin de impacto fundamentar una decisin clave ligada a la interven-
cin. Esto podra estar relacionado con la ampliacin del programa,
reformas o asignaciones presupuestarias.
No probada. Se sabe poco acerca de la efectividad del programa o de las
alternativas de diseo, tanto a nivel global como en un contexto
especco.
Inuyente. Los resultados se utilizarn para fundamentar decisiones de
polticas.
Una pregunta nal es la siguiente: se cuenta con los recursos necesarios para
una buena evaluacin de impacto? Estos recursos ataen a elementos tcni-
cos, como datos y el tiempo adecuado, recursos nancieros para llevar a cabo
la evaluacin y recursos institucionales de los equipos que participan, ms su
inters y compromiso para construir y utilizar evidencia causal. Como se
aborda en profundidad en el captulo 12, un equipo de evaluacin es esencial-
mente una asociacin entre dos grupos: un equipo de responsables de las
polticas y un equipo de investigadores. Los equipos tienen que trabajar en
aras del objetivo comn de asegurar que una evaluacin tcnicamente robusta
y bien diseada se implemente de manera adecuada y arroje resultados rele-
vantes para cuestiones clave de las polticas y del diseo del programa.
Una clara comprensin de la premisa y de la promesa de la evaluacin de
impacto por parte del equipo de evaluacin contribuir a asegurar su xito.
Si usted decide que tiene sentido encarar una evaluacin de impacto, en
virtud de las preguntas planteadas y la necesidad relacionada de analizar la
causalidad, ms los elementos en juego asociados con los resultados y la
necesidad de evidencia acerca del desempeo de su programa, entonces lo
invitamos a continuar con la lectura. Este libro est dedicado a usted y a su
equipo de evaluacin.
Recursos adicionales
Para material relacionado con este captulo e hipervnculos de recursos adi-

cionales, se recomienda consultar el sitio web de Evaluacin de Impacto en la
Prctica (www.worldbank.org/ieinpractice).
Para ms informacin sobre las evaluaciones de impacto, vase S. R. Khandker,
G. B. Koolwal y H. A. Samad (2009), Handbook on Quantitative Methods of
Program Evaluation. Washington, D.C.: Banco Mundial.
Para un buen resumen de las pruebas controladas aleatorias, vase R. Glen-
nerster y K. Takavarasha (2013), Running Randomized Evaluations: A Practical
Guide. Princeton, NJ: Princeton University Press.
Otros recursos sobre pruebas controladas aleatorias:
E. Duo, R. Glennerster y M. Kremer (2007), Using Randomization in
Development Economics Research: A Toolkit. Documento de discusin
CEPR Nm. 6059. Londres: Center for Economic Policy Research.
E. Duo y M. Kremer (2008), Use of Randomization in the Evaluation
of Development Effectiveness. En: Evaluating Development Effectiveness
(vol.7). Washington, D.C.: Banco Mundial.
Otros recursos tiles sobre evaluacin de impacto:
F. Leeuw y J. Vaessen (2009), Impact Evaluations and Development. NONIE
Guidance on Impact Evaluation. Washington, D.C.: NONIE.
M. Ravallion (2001), The Mystery of the Vanishing Benets: Ms. Speedy
Analysts Introduction to Evaluation. World Bank Economic Review 15 (1):
11540.
. 2008. Evaluating Anti-Poverty Programs. En: Handbook of Develop-
ment Economics (vol. 4), editado por Paul Schultz y John Strauss. mster-
dam: North Holland.
. 2009. Evaluation in the Practice of Development. World Bank
Research Observer 24 (1): 2953.
Notas
1. Para una visin general de los programas de transferencias condicionadas y el

inuyente rol que desempea el programa de Mxico, as como tambin su
evaluacin de impacto, vase Fiszbein y Schady (2009).
Por qu evaluar? 31
2. Los datos administrativos son aquellos datos recopilados rutinariamente como
parte de la administracin del programa e incluyen informacin sobre costos,
registros y transacciones, normalmente como parte de la prestacin de servicios.
3. Hay numerosas tipologas para evaluaciones y preguntas de las evaluaciones.
Vanse Berk y Rossi (1998) y Rossi, Lipsey y Freeman (2003).
4. Los mtodos cuasi experimentales son mtodos de evaluacin de impacto que
utilizan un contrafactual, pero se diferencian de los mtodos experimentales
en el sentido de que no se basan en la asignacin aleatoria de la intervencin.
Vase la seccin 2 para un debate sobre ambos tipos de mtodos.
5. Para una visin general de los mtodos de investigacin cualitativos, vase
Patton (1990).
6. Adaptado del Bureau of Justice Assistance (1997: 9798 y 10203).
7. Para un debate detallado sobre el anlisis de costo-benecio, vanse Zerbe y
Dively (1994); Brent (1996); Belli et al. (2001), y Boardman et al. (2001).
Referencias bibliogrcas
Ananthpur, K., K. Malik y V. Rao. 2014. The Anatomy of Failure: An Ethnography

of a Randomized Trial to Deepen Democracy in Rural India. Documento de
trabajo de investigacin 6958. Washington, D.C.: Banco Mundial.
Bamberger, M., V. Rao y M. Woolcock. 2010. Using Mixed Methods in Monitoring
and Evaluation: Experiences from International Development. Documento de
trabajo de investigacin de polticas Nm. 5245. Washington, D.C.: Banco
Mundial.
Banerjee, A., E. Duo,N. Goldberg,D. Karlan,R. Osei, et al. 2015. A Multifaceted
Program Causes Lasting Progress for the Very Poor: Evidence from Six
Countries. Science 348 (6236). doi:10.1126/science.1260799.
Behrman, J. R. y J. Hoddinott. 2001. An Evaluation of the Impact of PROGRESA
on Pre-school Child Height. FCND Briefs 104, International Food Policy
Research Institute, Washington, D.C.
Belli, P., J. Anderson, H. Barnum, Jo. Dixon y J. P. Tan. 2001. Handbook of Economic
Analysis of Investment Operations. Washington, D.C.: Banco Mundial.
Berk, R. A. y P. Rossi. 1998. Thinking about Program Evaluation 2 (2da. edicin).
Thousand Oaks, CA: Sage Publications.
Berman, D. 2014. Tanzania: Can Local Communities Successfully Run Cash
Transfer Programs? Washington, D.C.: Human Development Network, Banco
Mundial.
Boardman, A., A. Vining, D. Greenberg y D. Weimer. 2001. Cost-Benet Analysis:
Concepts and Practice. New Jersey: Prentice Hall.
Bourguignon, F.,F. H. G. Ferreira y P. G. Leite. 2003. Conditional Cash Transfers,
Schooling y Child Labor: Micro-Simulating Brazils Bolsa Escola Program.
TheWorld Bank Economic Review 17 (2): 22954.
BRAC (Bangladesh Rural Advancement Committee). 2013. An End in Sight for
Ultra-poverty. Nota de informacin de BRAC (noviembre). Disponible en
http://www.brac.net/sites/default/les/BRAC%20Brieng%20-%20TUP.pdf.

Brent, R. 1996. Applied Cost-Benet Analysis. Cheltenham, Reino Unido: Edward
Elgar.
Bureau of Justice Assistance. 1997. Urban Street Gang Enforcement. Informe
preparado por el Institute for Law and Justice, Inc. Washington, D.C.: Office
of Justice Programs, Bureau of Justice Assistance, U.S. Department of
Justice.
Creswell, J. W. 2014. Research Design: Qualitative, Quantitative, and Mixed Methods
Approaches. Thousand Oaks, CA: Sage Publications.
Evans, D. K., S. Hausladen, K. Kosec y N. Reese. 2014. Community-based
Conditional Cash Transfers in Tanzania: Results from a Randomized Trial.
Washington, D.C.: Banco Mundial.
Fiszbein, A. y N. Schady. 2009. Conditional Cash Transfers, Reducing Present and
Future Poverty. Documento de trabajo de investigacin de polticas Nm. 47603.
Gertler, P. J. 2004. Do Conditional Cash Transfers Improve Child Health?
Evidence from PROGRESAs Control Randomized Experiment. American
Economic Review 94 (2): 33641.
Glennerster, R. y K. Takavarasha. 2013. Running Randomized Evaluations: A
Practical Guide. Princeton, NJ: Princeton University Press.
Imas, L. G. M. y R. C. Rist. 2009. The Road to Results: Designing and Conducting
Effective Development Evaluations. Washington, D.C.: Banco Mundial.
Kremer, M., C. Brannen y R. Glennerster. 2013. The Challenge of Education and
Learning in the Developing World. Science 340 (6130): 297300.
Khandker, S., G. B. Koolwal y H. A. Samad. 2010. Handbook on Impact Evaluation:
Quantitative Methods and Practices. Washington, D.C.: Banco Mundial.
Levy, S. y E. Rodrguez. 2005. Sin herencia de pobreza: el programa Progresa-
Oportunidades de Mxico. Washington, D.C.: BID.
Martnez, S., S. Nadeau y V. Pereira, 2012. The Promise of Preschool in Africa: A
Randomized Impact Evaluation of Early Childhood Development in Rural
Mozambique. Washington, D.C.: Banco Mundial y Save the Children.
McKay, H., A. McKay, L. Siniestra, H. Gmez y P. Lloreda. 1978. Improving
Cognitive Ability in Chronically Deprived Children. Science 200 (21): 27078.
Patton, M. Q. 1990. Qualitative Evaluation and Research Methods (2da. edicin).
Newbury Park, CA: Sage.
Rao, V. y M. Woolcock. 2003. Integrating Qualitative and Quantitative
Approaches in Program Evaluation. En: F. J. Bourguignon y L. Pereira da
Silva, The Impact of Economic Policies on Poverty and Income Distribution:
Evaluation Techniques and Tools, pp. 16590. Nueva York: Oxford University
Press.
Rossi, P., M. W. Lipsey y H. Freeman. 2003. Evaluation: A Systematic Approach
(7ma. edicin) Thousand Oaks, CA: Sage Publications.
Schultz, P. 2004. School Subsidies for the Poor: Evaluating the Mexican Progresa
Poverty Program. Journal of Development Economics 74 (1): 199250.
Skouas, E. y B. McClafferty. 2001. Is Progresa Working? Summary of the Results
of an Evaluation by IFPRI. Washington, D.C.: International Food Policy
Research Institute.
Por qu evaluar? 33
Todd, P. y K. Wolpin. 2006. Using Experimental Data to Validate a Dynamic
Behavioral Model of Child Schooling and Fertility: Assessing the Impact of a
School Subsidy Program in Mexico. American Economic Review 96 (5):
13841417.
Zerbe, R. y D. Dively. 1994. Benet Cost Analysis in Theory and Practice. Nueva York:
Harper Collins Publishing.

CAPTULO 2
La preparacin de una
evaluacin
Pasos iniciales
Este captulo resea los pasos iniciales que es preciso ejecutar para congu-
rar una evaluacin. Estos pasos son: i) construir una teora del cambio que
describa cmo se supone que el proyecto lograr los objetivos previstos;
ii)elaborar una cadena de resultados que sirva como instrumento til para
esbozar la teora del cambio; iii) especicar las preguntas de la evaluacin; y
iv) seleccionar los indicadores para evaluar el desempeo.
Los cuatro pasos son necesarios y es preferible implementarlos al inicio, es
decir, cuando comienza a disearse el proyecto de evaluacin del programa o
de las reformas. Esto requiere la participacin de todas las partes interesadas,
desde los responsables de las polticas hasta los implementadores del pro-
yecto, con el n de forjar una visin comn de los objetivos y de cmo sern
alcanzados. Esta participacin permitir crear un consenso sobre el enfoque
de la evaluacin y las principales preguntas a responder, y reforzar los vncu-
los entre la evaluacin, la implementacin del programa y el diseo de polti-
cas pblicas. La aplicacin de estos pasos contribuye a la claridad y la
especicidad, que son tiles tanto para elaborar una buena evaluacin de
impacto como para disear e implementar un programa efectivo. Cada uno de
los pasos est claramente denido y est articulado en el modelo lgico incor-
porado en la cadena de resultados desde la precisin en la determinacin de
35
los objetivos y las preguntas hasta la denicin de las ideas integradas en la
teora del cambio, y los resultados esperados por la implementacin del pro-
grama. Se requiere una especicacin clara de los indicadores concretos que
se utilizarn para medir el xito del programa, no solo para asegurar que la
evaluacin est enfocada sino tambin que el programa tenga objetivos bien
denidos. Esto tambin proporciona una base rme para anticipar los efectos
producidos. Estos parmetros son esenciales para denir los elementos tcni-
cos de la evaluacin, incluyendo el tamao de la muestra requerida para la
evaluacin y los clculos de la potencia, como se analiza en el captulo 15.
En la mayora de las evaluaciones de impacto ser importante incluir una
evaluacin de costo-benecio, o costo-efectividad, como se indica en el
captulo 1. Los formuladores de poltica debern estar atentos para saber
qu programas o reformas son efectivos pero tambin cul es su costo.
Setrata de un aspecto crucial para fundamentar decisiones acerca de si es
viable aumentar la escala de un programa y si es posible replicarlo, dos con-
sideraciones importantes en las decisiones de polticas pblicas.
Construccin de una teora del cambio
Una teora del cambio es la descripcin de cmo se supone que una interven-
cin conseguir los resultados deseados. En ese sentido, expone la lgica cau-
sal de cmo y por qu un proyecto, una modalidad de programa o un diseo
de innovacin lograrn los resultados previstos. Debido al enfoque causal de
la investigacin, una teora del cambio es la base de cualquier evaluacin de
impacto. Su construccin es uno de los primeros requisitos para el diseo del
proyecto, ya que contribuye a especicar las preguntas de la investigacin.
Las teoras del cambio describen una secuencia de eventos que generan
resultados: analizan las condiciones y los supuestos necesarios para que
seproduzca el cambio, explicitan la lgica causal inscrita en el programa y
trazan el mapa de las intervenciones del programa a lo largo de las vas lgicas
causales. Congurar una teora del cambio en conjunto con las partes intere-
sadas puede claricar y mejorar el diseo del programa. Esto es especialmente
importante en los programas que pretenden inuir en las conductas, pues las
teoras del cambio pueden ayudar a determinar los insumos y actividades de
la intervencin, qu productos se generan y cules son los resultados nales
derivados de los cambios de comportamiento de los beneciarios.
El mejor momento para desarrollar una teora del cambio es al comienzo
de la fase de diseo, cuando es posible reunir a las partes interesadas con el
n de denir una visin colectiva del programa, sus objetivos y la ruta para
alcanzar esos objetivos. As, las partes interesadas podrn implementar el
programa a partir de un entendimiento comn del mismo, de sus objetivos y
de su funcionamiento.
Por otra parte, es til que los diseadores de programas revisen la
literatura en busca de evidencia que describa experiencias y programas
similares, y comprueben los contextos y los supuestos detrs de las vas
causales de la teora del cambio que conguran. Por ejemplo, en el caso del
proyecto de reemplazo de suelos de tierra por suelos de cemento desarro-
llado en Mxico (que se resea en el recuadro 2.1), la literatura aporta
Recuadro 2.1: La articulacin de una teora del cambio: de los

pisos de cemento a la felicidad en Mxico
En la evaluacin del proyecto Piso Firme, multiplican en las heces y pueden ser ingeridos
Cattaneo et al. analizaron el impacto de la por las personas cuando son introducidos en
mejora de las viviendas en la salud y el el interior de la vivienda por los seres humanos
bienestar. Tanto el proyecto como la evaluacin o los animales. La evidencia demuestra que
estuvieron motivados por una clara teora del los nios pequeos que habitan en casas con
cambio. suelos de tierra tienen ms probabilidades de
El objetivo del proyecto Piso Firme consiste sufrir infecciones intestinales provocadas
en aumentar la calidad de vida, sobre todo en por parsitos, que pueden causar diarrea y
lo referente a la salud, de los grupos vulnerables desnutricin y que a menudo perjudican el
que viven en zonas densamente pobladas y de desarrollo cognitivo e incluso pueden llevar a la
bajos ingresos en Mxico. El programa se muerte. Los suelos de cemento interrumpen
inici en el estado norteo de Coahuila sobre la transmisin de las infecciones de los
la base de una evaluacin contextual llevada a parsitos. Tambin controlan la temperatura
cabo por el gobierno estadual. de manera ms eciente y mejoran el aspecto
La cadena de resultados del programa es de la vivienda.
clara. Se realizan visitas puerta por puerta en Estos resultados previstos sirvieron
los barrios elegidos para ofrecer a los hogares de fundamento para las preguntas que
la construccin de 50 m de suelo de cemento. Cattaneo et al. (2009) formularon en la eva-
El gobierno compra y entrega el cemento y luacin. La hiptesis del equipo era que al
los hogares y los voluntarios comunitarios reemplazar los suelos de tierra con suelos de
aportan la mano de obra. El producto es la cemento se reducira la incidencia de la dia-
construccin de un suelo de cemento que se rrea, la desnutricin y la deciencia de micro-
puede completar aproximadamente en un nutrientes. A su vez, las mejoras en la salud
da. Entre los resultados previstos por este y nutricin deberan impactar positivamente
programa se destacan una mayor limpieza, en el desarrollo cognitivo de los nios peque-
una mejora en la salud de los habitantes de la os. Los investigadores tambin anticiparon
casa y un aumento de su felicidad. y comprobaron un mayor bienestar entre los
La lgica de esta cadena de resultados es adultos, medido por el aumento de la satis-
que los suelos de tierra son un foco de faccin en la poblacin respecto de las condi-
enfermedades parasitarias porque es difcil ciones de sus viviendas y el descenso de las
mantenerlos limpios. Los parsitos viven y se tasas de depresin y de estrs percibidas.
Fuente: Cattaneo et al. (2009).
La preparacin de una evaluacin 37

informacin valiosa sobre cmo se transmiten los parsitos y de qu
manera la infestacin provocada por estos organismos produce diarrea
infantil.
Desarrollo de una cadena de resultados
Una cadena de resultados es una manera de describir una teora del cambio.
Otros enfoques incluyen modelos tericos, modelos lgicos, marcos lgicos
y modelos de resultados. Todos estos modelos integran los elementos bsi-
cos de una teora del cambio, a saber: una cadena causal, una especicacin
de las condiciones e inuencias externas y la determinacin de los supues-
tos clave. En este libro se utilizar el modelo de cadena de resultados porque
es el ms sencillo y claro para describir la teora del cambio en el contexto
Concepto clave operativo de los programas de desarrollo.
Una cadena de Una cadena de resultados establece la lgica causal desde el inicio del
resultados establece la programa, empezando con los recursos disponibles, hasta el nal,
secuencia de insumos,
teniendo en cuenta los objetivos de largo plazo. Fija una denicin lgica
actividades y
productos que y plausible de cmo una secuencia de insumos, actividades y productos
previsiblemente relacionados directamente con el proyecto interacta con el comporta-
mejorarn los miento y dene las vas para lograr los impactos (vase el grco 2.1). Una
resultados y los cadena de resultados bsica esquematizar un mapa con los siguientes
resultados nales.
elementos:
Insumos. Los recursos de que dispone el proyecto, que incluyen el
personal y el presupuesto.
Actividades. Las acciones emprendidas o el trabajo realizado para trans-
formar los insumos en productos.
Productos. Los bienes y servicios tangibles que producen las actividades
del programa (controlados de forma directa por la agencia ejecutora).
Resultados. Los resultados que previsiblemente se lograrn cuando la
poblacin se benecie de los productos del proyecto. En general, estos
resultados se observan entre el corto y el mediano plazo y no suelen estar
controlados de forma directa por la agencia ejecutora.
Resultados nales. Los resultados nales alcanzados sealan si los objeti-
vos del proyecto se cumplieron o no. Normalmente, los resultados nales
dependen de mltiples factores y se producen despus de un perodo
ms largo.
Tanto la implementacin como los resultados forman parte de la cadena
de resultados. La ejecucin tiene que ver con el trabajo efectuado en el
Grco 2.1 Los elementos de una cadena de resultados
RESULTADOS
INSUMOS ACTIVIDADES PRODUCTOS RESULTADOS FINALES
Recursos Acciones Productos Uso de los El objetivo

financieros, emprendidas o resultantes de productos final del
humanos y de trabajo realizado la transformacin por parte de programa.
otro tipo que se para transformar de insumos en la poblacin
movilizan para los insumos en productos beneficiaria.
realizar las productos tangibles. Objetivos de
actividades. especficos. largo plazo.
Presupuestos, Serie de Bienes y servicios No totalmente Cambios en

dotacin de actividades producidos bajo el bajo el control los resultados
personal y otros emprendidas control de la de la agencia producidos por
recursos para producir agencia ejecutora. ejecutora. mltiples
disponibles. bienes y factores.
servicios.
Resultados (LADO DE LA DEMANDA +

Implementacin (LADO DE LA OFERTA)
LADO DE LA OFERTA)
Fuente: Elaboracin propia, sobre la base de mltiples fuentes.
proyecto, que incluye insumos, actividades y productos. Estos mbitos, que

son responsabilidad directa del proyecto, suelen ser monitoreados para
vericar si el proyecto est generando los bienes y servicios previstos. Los
resultados comprenden los resultados y los resultados nales, que no son
controlados de manera directa por el proyecto y dependen de cambios en el
comportamiento de los beneciarios del programa, es decir, dependen de
las interacciones entre la oferta (la implementacin) y la demanda (los
beneciarios). Por lo general, estos mbitos son objeto de evaluaciones de
impacto para medir su efectividad.
Una buena cadena de resultados contribuir a hacer aorar los supuestos y
riesgos implcitos en la teora del cambio. Los formuladores de polticas
estn mejor situados para articular la lgica causal y los supuestos en los
quedescansa, as como los riesgos que pueden inuir en el logro de los resul-
tados previstos. El equipo que dirige la evaluacin deber explicitar los
supuestos y riesgos implcitos en consulta con los responsables de las polti-
cas. Una buena cadena de resultados tambin incluir evidencia provista por
la literatura relacionada con los resultados de programas similares.
Las cadenas de resultados son tiles para todos los proyectos, indepen-
dientemente de que contemplen o no una evaluacin de impacto, porque
permiten a los responsables de las polticas y a los administradores del pro-
grama explicitar los objetivos del proyecto, lo que contribuye a claricar la
lgica causal y la secuencia de eventos que se encuentran detrs de un
programa. Adems, pueden identicar brechas y eslabones dbiles en el
diseo del programa y, por lo tanto, pueden ayudar a mejorar su diseo.
Las cadenas de resultados tambin facilitan el monitoreo y la evaluacin
pues especican cul es la informacin que debe ser monitoreada en cada
eslabn de la cadena para realizar un seguimiento de la implementacin del
programa, y denen qu indicadores de resultados hay que incluir cuando
se evala el proyecto.
La especicacin de las preguntas de la

evaluacin
La claridad de la pregunta de la evaluacin es el punto de partida de cual-

quier evaluacin efectiva. La formulacin de esta pregunta debe centrarse
enla investigacin, para asegurar que se ajusta al inters de las polticas
en cuestin. En el caso de una evaluacin de impacto, es necesario estruc-
turarla como una hiptesis comprobable. La evaluacin de impacto luego
genera evidencia creble para responder esa pregunta. Como se indic
antes, la pregunta fundamental de la evaluacin de impacto es: cul es el
impacto (o el efecto causal) de un programa en un resultado de inters?
Se pone nfasis en el impacto, es decir, en los cambios directamente atri-
buibles a un programa, a una modalidad de programa o a una innovacin
de diseo.
La pregunta de la evaluacin debe orientarse segn el inters central de
las polticas en cuestin. Como se seal en el captulo 1, las evaluaciones de
impacto pueden analizar toda una gama de preguntas. En ese sentido, antes
de estudiar cmo se llevar a cabo el proyecto, el equipo de evaluacin debe-
ra aclarar cul es la pregunta que se analizar como primer paso, sobre la
base de la teora del cambio.
Tradicionalmente, las evaluaciones de impacto se han centrado en el
impacto que tiene un programa plenamente implementado en los resulta-
dos nales y en contraste con los resultados observados en un grupo de
comparacin que no ha sido beneciado por el programa. Sin embargo, el
uso actual de las evaluaciones de impacto se est ampliando. El equipo de
evaluacin puede inquirir: la pregunta de evaluacin clave es la pregunta
clsica acerca de la efectividad de un programa para cambiar los resulta-
dos nales? O se trata de probar si una modalidad de programa es ms
costo-efectiva que otra o bien de introducir una innovacin en el diseo
del programa que, de manera previsible, cambiar las conductas, como
la matriculacin? En la actualidad la evaluacin de impacto est

incorporando nuevos enfoques, de manera creativa, para abordar las cues-
tiones de inters para el diseo de polticas, en una vasta gama de discipli-
nas (vase el recuadro 2.2).
En una evaluacin de impacto, la pregunta de la evaluacin debe ser
formulada como una hiptesis bien denida y comprobable, que pueda cuanti-
car la diferencia entre los resultados obtenidos al contrastar los grupos de
tratamiento y comparacin. La cadena de resultados puede usarse como base
para formular la hiptesis que se busca probar a partir de la evaluacin de
impacto. Como se seala en el recuadro 2.3, a menudo hay unas cuantas hip-
tesis asociadas con el programa, pero no es necesario explorar todas en una
evaluacin de impacto, y tampoco es posible hacerlo. En el ejemplo del pro-
grama de estudio de matemticas que resea el recuadro 2.2, la pregunta de la
evaluacin deriva de elementos fundamentales de la teora del cambio y se
formula como una hiptesis clara, comprobable y cuanticable: cul es el
Recuadro 2.2: Experimentos de mecanismo

Un experimento de mecanismo es una eva- Por ejemplo, un equipo de trabajo busca
luacin de impacto que prueba un meca- establecer si las personas que viven en
nismo causal especco dentro de la teora barrios pobres de una ciudad tienen tasas de
del cambio. Por ejemplo: se ha identicado obesidad ms altas que las personas que
un problema y se ha hallado un posible pro- viven en sectores ms acomodados de la
grama para remediarlo. Es preciso disear misma ciudad. Despus de realizar una
una evaluacin a n de probar la efectividad investigacin, el equipo observa que los
del programa. La evaluacin debera probar barrios pobres cuentan con menos tiendas y
directamente el impacto del programa? Una puestos de frutas y verduras frescas y otros
corriente de pensamiento actual sostiene alimentos nutritivos y estima que esta falta
que una evaluacin de programa de ese tipo de oferta puede estar contribuyendo a la
quiz no sea siempre la mejor manera de obesidad, y que la situacin se podra reme-
comenzar y que, en algunos casos, puede diar mediante la entrega de subsidios a los
ser preferible no llevar a cabo una evaluacin fruteros a n de que operen ms puntos de
de programa sino ms bien poner a prueba venta. Una simple cadena de resultados
algunos de los supuestos o mecanismos podra tener el aspecto que se presenta en
subyacentes. Los experimentos de meca- el grco B2.2.1.
nismo no prueban un programa; lo que prue- Una evaluacin del programa se centrara
ban es un mecanismo causal que subyace a en probar el impacto de los subsidios a las
la eleccin de un programa. fruteras en un conjunto de barrios pobres.

Recuadro 2.2: Experimentos de mecanismo (contina)
Grco B2.2.1 Identicacin de un experimento de mecanismo en una cadena de

resultados ms larga

INSUMOS

7,+",0 72 0'"',0),0 7 2*#+1,"#)+?*#/, 7,0/#0'"#+1#0"# 7#+,/-/#3)#+!'

3#+"#",/#0"# "#1'#+"0-2#01,0 //',0-, /#0 "#), #0'""
$/21053#/"2/0 .2#3#+"#+$/215 !,+02*#+*;s #+1/#/#0'"#+1#0
3#/"2/ )'*#+1,0+21/'1'3,0 "# //',0-, /#s
75,/"'0-,+' ')'""
"#)'*#+1,0+21/'1'3,0
#+ //',0-, /#0
#02)1",0 +

*-)#*#+1!'>+ )
)
En cambio, un experimento de mecanismo se En general, un experimento de mecanismo

enfocara en evidenciar de manera ms directa debera ser mucho ms barato de implemen-
los supuestos subyacentes. Por ejemplo, tar que una evaluacin de programa completa,
puede poner a prueba el siguiente supuesto: si porque se puede llevar a cabo en una escala
los habitantes de los barrios pobres tienen ms ms pequea. En el ejemplo anterior de la
acceso a alimentos nutritivos, comern ms obesidad, proporcionar subsidios a los fruteros
de estos alimentos. Una forma de demostrarlo en numerosos barrios y supervisar a un gran
podra ser distribuir una canasta de frutas y nmero de residentes en esos barrios sera
verduras gratis una vez a la semana a un grupo bastante caro, mientras que la entrega de la
de habitantes y comparar su consumo de cesta con productos gratis resultara mucho
frutas y verduras con el de los residentes que menos costosa y sera suciente para contar
no reciben la canasta gratis. Si no se encuentran con la participacin de varios cientos de fami-
diferencias en el consumo de frutas y lias. Si el experimento de mecanismo demues-
verduras en este experimento de mecanismo tra que el mecanismo funciona, todava habra
es probable que tampoco los subsidios a las que realizar un experimento de las polticas
fruteras tengan un impacto signicativo debido para evaluar si los subsidios son una manera
a que uno de los mecanismos causales efectiva de proveer frutas y verduras a los
subyacentes no est funcionando. habitantes de los barrios pobres.
Fuente: Ludwig, Kling y Mullainathan (2011).
efecto del nuevo programa de matemticas en las puntuaciones de las prue-

bas? En el ejemplo que se analiza a lo largo del libro, el Programa de Subsidios
de Seguros de Salud, la pregunta de la evaluacin es: cul es el efecto del
Programa de Subsidios de Seguros de Salud en los gastos directos en salud de
los hogares pobres?
Recuadro 2.3: Una reforma de las matemticas en la enseanza
secundaria: elaboracin de una cadena de resultados y una
pregunta de la evaluacin
El ministerio de Educacin de un pas X est donde se impartir la formacin de los pro-
pensando en introducir un nuevo programa de fesores de matemticas.
estudio de matemticas en la enseanza 8 Las actividades del programa consisten
secundaria. La currcula ha sido diseada para en disear la nueva currcula de estudio de
que resulte ser ms accesible a los profesores matemticas, desarrollar un programa de
y a los alumnos, a n de mejorar el desempeo capacitacin de los profesores, capacitar a
de los estudiantes en pruebas estandarizadas los profesores, y encargar la impresin y la
de matemticas y, eventualmente, optimizar distribucin de los nuevos libros de texto.
su capacidad para completar la escuela 8 Los productos son el nmero de profeso-
secundaria y tener acceso a mejores empleos. res que recibieron capacitacin, el nmero
Esta cadena de resultados esboza la teora de libros de texto entregados en las aulas
del cambio del programa. y la adaptacin de pruebas estandarizadas
8 Los insumos comprenden el personal del al nuevo programa de estudio.
ministerio de Educacin para liderar la 8 Los resultados en el corto plazo son la
reforma, los profesores de matemticas aplicacin por parte de los profesores de
de las escuelas secundarias, un presu- los nuevos mtodos, el uso de los libros
puesto para desarrollar el nuevo programa de texto en las aulas y la administracin
de estudio, y las instalaciones municipales de las nuevas pruebas.
Grco B2.3.1 Cadena de resultados para la reforma de la currcula de matemtica
en la escuela secundaria

INSUMOS

7/#02-2#01,-/ 7'0#=,"#)+2#3, 7-/,$#0,/#0 7,0-/,$#0,/#020+ 7#(,/"#)0100

#)+2#3,-/,%/* -/,%/*"# "#*1#*;1'!0 ),0)' /,0"#1#41, "#$'+)'6!'>+
"#*1#*;1'!0 #012"',0 "#0#!2+"/' 5#)+2#3,-/,%/* 7 2*#+1,"#),0
7,1!'>+"# 7-!'1!'>+"# !-!'1",0 "##012"',0#+ '+%/#0,0
-#/0,+)"#) -/,$#0,/#0 7 )' /,0"# )!)0# 7 2*#+1,"#)#*-)#,
*'+'01#/',"# 7"'!'>+'*-/#0'>+ 1#41,#+1/#%",0 7,0#012"'+1#0
"2!!'>+5"# "'01/' 2!'>+"# #+)0!)0#0 0'%2#+#)-/,%/*
"##012"',0
-/,$#0,/#0"# +2#3,0)' /,0
7#(,/"#)
0#!2+"/' "#1#41,
"#0#*-#=,"#),0
7+01)!',+#0 #012"'+1#0#+),0
*2+'!'-)#0"# #4;*#+#0"#
!-!'1!'>+ *1#*;1'!0
#02)1",0 +

*-)#*#+1!'>+ )
)

Recuadro 2.3: Una reforma de las matemticas en la enseanza secundaria: elaboracin de una cadena
de resultados y una pregunta de la evaluacin (contina)
8 Los resultados en el mediano plazo son 8 Si la implementacin se lleva a cabo

las mejoras en el desempeo de los como estaba previsto, los resultados de
alumnos en las pruebas estandarizadas las pruebas de matemticas mejorarn
de matemticas. en un promedio de 5 puntos.
8 Los resultados nales son el aumento en las 8 El desempeo en las matemticas en la
tasas de nalizacin de los estudios secun- secundaria inuye en las tasas de nali-
darios y en las tasas de empleo, y el incre- zacin de la enseanza secundaria, en las
mento en los ingresos de los graduados. perspectivas de empleo y en el nivel de
Diversas hiptesis sustentan la teora del los ingresos.
cambio:
La pregunta ms importante de la evalua-
8 Los profesores que recibieron formacin cin, que ha sido desarrollada por el equipo
utilizan el nuevo programa de estudio de de responsables de las polticas del Ministe-
manera efectiva. rio de Educacin y los investigadores que
8 Si los profesores reciben capacitacin y participaron para determinar la efectividad
se distribuyen los libros de texto, estos del programa, es: cul es el efecto del
se emplearn y los alumnos seguirn el nuevo programa de estudio de matemticas
programa de estudio. en las puntuaciones de las pruebas? Esta
8 El nuevo programa es superior al antiguo pregunta apunta al corazn del inters de las
en la manera de impartir los conocimien- polticas en cuanto a la efectividad del nuevo
tos de matemticas. programa de estudios.
El Programa de Subsidios de Seguros de Salud: una

introduccin
El Programa de Subsidios de Seguros de Salud (HISP, por sus siglas en

ingls, Health Insurance Subsidy Program) es un caso cticio de un
gobierno que emprende una reforma en gran escala del sector de la salud.
Las preguntas relacionadas con este caso se utilizarn en todo el libro.
El sitio web de Evaluacin de Impacto en la Prctica (http://www
.worldbank.org/ieinpractice) contiene soluciones para las preguntas del
estudio de caso del HISP, una base de datos y el cdigo de anlisis en
StataTM, as como un manual tcnico en lnea que proporciona un trata-
miento ms formal del anlisis de datos.
El objetivo nal del HISP es mejorar la salud de la poblacin del pas.
El innovador y potencialmente caro HISP se encuentra en etapa de
pruebas. El gobierno est preocupado porque los hogares rurales pobres
no pueden permitirse los costos de una atencin sanitaria bsica, lo cual

tiene consecuencias perjudiciales para su salud. A n de abordar este
problema, el HISP subsidia seguros de salud para los hogares rurales
pobres, y cubre los costos relacionados con la atencin primaria y los
medicamentos. El propsito central del HISP consiste en reducir el costo
de la atencin sanitaria de las familias pobres y, eventualmente, mejorar
los resultados de salud. Los responsables de las polticas estn pensando
en ampliar el HISP para cubrir al conjunto del pas, lo cual costara cien-
tos de millones de dlares.
La cadena de resultados del HISP se ilustra en el grco 2.2. Las hip-
tesis relacionadas con la reforma del HISP son: i) los hogares se inscribi-
rn en el programa una vez que se les ofrezca, ii) la inscripcin en el
programa disminuir los gastos directos de los hogares en salud, iii) los
costos impiden a la poblacin rural tener acceso a la atencin sanitaria
ya los medicamentos disponibles, y iv) los gastos directos en los costos
vinculados con la salud son un factor fundamental que contribuye a la
pobreza y a los malos resultados de salud.
La pregunta clave de la evaluacin es: cul es el impacto del Programa
de Subsidios de Seguros de Salud en los gastos directos de los hogares en
atencin sanitaria? Tanto en el libro como en el material en lnea, esta
pregunta de la evaluacin con relacin al HISP ser respondida varias
veces, a partir de diferentes enfoques metodolgicos. En ese marco, sur-
girn respuestas distintas y a veces opuestas, de acuerdo con la meto-
dologa de evaluacin utilizada.
Grco 2.2 La cadena de resultados del HISP

INSUMOS
S
7/#02-2#01,-/ 7'0#=,"#),0 7.2'-*'#+1,0"# 7?*#/,5-,/!#+1(# 7#(,/#+),0

#)-)+-'),1,. #+#$'!',05#) 0)2"#+ "#&,%/#0#)#%' )#0 /#02)1",0"#
7#""# $2+!',+*'#+1,"#) !,*2+'""#0/2/)#0 '+0!/'1,0#)-/'*#/=, 0)2"
#.2'-*'#+1,0 . -'),1,.2#-/1'!'-+ 7#+,/%01,#+0)2"
"#0)2" 7,/*!'>+"# "#)-/,%/*. "#),0&,%/#0/2/)#0
7#/0,+)#+ -#/0,+)#+!)<+'!0 7*-=-/))#%/ -, /#0
,$'!'+0"#0)2" /2/)#0"#
&,%/#0 7#(,/"#)!!#0,
"#)%, '#/+, !,*2+'""#0-'),1, #)#%' )#0#+)0 1#+!'>+-/'*/'
!#+1/)5),!) 701 )#!'*'#+1,"# !,*2+'""#0-'),1,. 71'0$!!'>+!,+#)
0'01#*0"#-%,05 -/,%/*.
"#'+$,/*!'>+0, /#
%#01'>+
7+6*'#+1,"#)
#+ !,*2+'""#0
/2/)#0-'),1,.
7*-='+$,/*1'3
5#"2!1'3
#02)1",0 +

*-)#*#+1!'>+ )
)

La seleccin de indicadores de resultados y
desempeo
Una pregunta clara de la evaluacin debe ir acompaada de la especica-

cin acerca de qu medidas de resultado se utilizarn para evaluar el desem-
peo, incluso en el caso de mltiples resultados. Las medidas de resultado
seleccionadas se usarn para establecer si un programa o una reforma deter-
minados tienen xito o no. Tambin son los indicadores que se pueden
emplear como referencia al realizar los clculos de la potencia con el n de
jar los tamaos de la muestra necesarios para la evaluacin, como se ver
en el captulo 15.
Luego de seleccionar los principales indicadores de inters, es preciso
denir objetivos claros en lo relativo al xito del programa. Este paso equi-
vale a determinar el efecto anticipado del programa sobre los principales
indicadores de resultado que se han seleccionado. Los tamaos del efecto
son los cambios previstos como resultado del programa o de la reforma; por
ejemplo, el cambio en las puntuaciones de las pruebas o en la tasa de adop-
cin de un nuevo tipo de pliza de seguro. Los tamaos del efecto previstos
son la base para llevar a cabo clculos de la potencia (que se abordan con
ms detalles tcnicos en el captulo 15).
Es fundamental que los principales agentes interesados en el equipo de
evaluacin (tanto el equipo de investigacin como el equipo de polticas
pblicas) estn de acuerdo tanto en los indicadores primarios de resulta-
dos de inters en la evaluacin de impacto, como en los tamaos esperados
de los efectos previstos como resultado del programa o de la innovacin
(para ms detalles sobre el equipo de evaluacin, vase el captulo 12), ya
que se usarn para juzgar el xito del programa y formar la base de los cl-
culos de la potencia. Numerosas evaluaciones de impacto fracasan porque
los tamaos de muestra no son lo bastante grandes para detectar los cam-
bios generados por el programa: tienen un dcit de potencia. En ese
sentido, es sustancial denir los tamaos mnimos previstos del efecto para
establecer criterios bsicos del xito del programa o de la innovacin.
Cuando hay datos disponibles, es posible realizar simulaciones ex ante
para observar diferentes escenarios de resultados con el n de establecer
una referencia del tipo de tamaos del efecto que se pueden esperar en una
gama de indicadores. Las simulaciones ex ante tambin se pueden utilizar
para revisar indicadores iniciales de costo-benecio o costo-efectividad y
comparar intervenciones alternativas para provocar cambios en los resul-
tados de inters.
Una cadena de resultados articulada con claridad proporciona un mapa
til para seleccionar los indicadores que se medirn a lo largo de la cadena,

a n de monitorear la implementacin del programa y evaluar los resulta- Concepto clave
dos. Como se ha dicho, es til contar con la participacin de agentes Los buenos
interesados del programa, tanto de los equipos de polticas como de los de indicadores son
EMARF (especcos,
investigacin, para seleccionar estos indicadores y asegurar que son buenas
medibles, atribuibles,
medidas del desempeo del programa. La regla general indica que los crite- realistas y
rios para asegurar que los indicadores utilizados son buenas medidas se focalizados).
resumen en el acrnimo EMARF. Los indicadores deberan ser:
Especcos: para medir la informacin requerida de la forma ms rigu-
rosa posible.
Medibles: para garantizar que la informacin se puede obtener
fcilmente.
Atribuibles: para asegurar que cada medida est relacionada con los
logros del proyecto.
Realistas: para garantizar que los datos se pueden obtener de manera
oportuna, con una frecuencia y un costo razonables.
Focalizados: en la poblacin objetivo.
Al elegir los indicadores, es importante identicarlos a lo largo de toda la

cadena de resultados, y no solo en el nivel de los resultados, de modo que
puedan seguir la lgica causal de cualquier resultado observado del pro-
grama. En las evaluaciones de implementacin que se centran en probar dos
o ms alternativas de diseo, los resultados de inters pueden producirse
antes en la cadena de resultados, como un resultado adelantado o como
resultado de una fase temprana. Aun cuando el inters solo est puesto en
las medidas de resultados para la evaluacin, es sustancial realizar un segui-
miento de los indicadores de implementacin, de tal manera que se pueda
determinar si las intervenciones se han llevado a cabo como estaban proyec-
tadas, si han sido recibidas por los beneciarios previstos y si han llegado a
tiempo. Si no se identican estos indicadores en toda la cadena de resulta-
dos se corre el riesgo de que la evaluacin de impacto sea como una caja
negra que podr determinar si los resultados previstos se materializaron o
no, pero no ser capaz de explicar por qu.
Lista de vericacin: datos para los indicadores
Como lista de vericacin nal, una vez que se han seleccionado los indica-
dores es til pensar en las disposiciones para producir los datos con el n de
medir los indicadores. En el captulo 4 se presenta un debate exhaustivo

sobre dnde conseguir los datos para la evaluacin. Esta lista de vericacin
(adaptada de PNUD, 2009) abarca las disposiciones prcticas necesarias
para asegurar que es posible producir todos los indicadores de manera able
y oportuna:
Se han especicado con claridad los indicadores (productos y resulta-
dos)? Estos provienen de las preguntas clave de la evaluacin y deberan
ser consistentes con los documentos de diseo del programa y con la
cadena de resultados.
Los indicadores son EMARF? Especcos, medibles, atribuibles, realis-
tas y focalizados.
Cul es la fuente de los datos de cada indicador? Es necesario denir con
claridad la fuente de los datos, como una encuesta, un estudio o una reu-
nin de las partes interesadas.
Con qu frecuencia se recopilarn los datos? Es preciso incluir un
calendario.
Quin es el responsable de recopilar los datos? Se debe especicar quin
es responsable de organizar la recopilacin de datos, vericar la calidad y
la fuente de los datos y asegurar el cumplimiento de las normas ticas.
Quin es responsable del anlisis y de los informes? Hay que jar la fre-
cuencia de los anlisis, el mtodo de anlisis y el responsable de los
informes.
Qu recursos se necesitan para producir los datos? Es fundamental que
los recursos requeridos sean claros y que estn destinados a producir los
datos, que a menudo es la parte ms cara de una evaluacin si se recopi-
lan datos primarios.
La documentacin es adecuada? Es til disear planes para documentar
los datos, incluir la utilizacin de un registro y asegurar el anonimato.
Qu riesgos implica? Al realizar el monitoreo planicado y las activida-
des de evaluacin es preciso considerar los riesgos y los supuestos, as
como la manera en que pueden inuir en la puntualidad y la calidad de
los datos y de los indicadores.
Para obtener material complementario de este captulo y para conseguir

hipervnculos a recursos adicionales se recomienda consultar el sitio de la
Evaluacin de Impacto en la Prctica (http://www.worldbank.org/ieinpractice).

El Mdulo 1 del World Banks Impact Evaluation Toolkit (http://www
.worldbank.org/health/impactevaluationtoolkit) ofrece un grco de la
teoradel cambio, una plantilla de cadena de resultados y ejemplos de
indicadores para nanciamiento basado en resultados.
L. Morra Imas y R. Rist (2009) brindan un buen estudio de las teoras del
cambio en The Road to Results: Designing and Conducting Effective
Development Evaluations. Washington, D.C.: Banco Mundial.
Para un debate sobre cmo seleccionar los indicadores de desempeo, vanse:
L. Morra Imas y R. Rist (2009), The Road to Results: Designing and
Conducting Effective Development Evaluations. Washington, D.C.:
Banco Mundial.
J. Kusek y R. Rist (2004), Ten Steps to a Results-Based Monitoring and
Evaluation System. Washington, D.C.: Banco Mundial.
Cattaneo, M., S. Galiani, P. Gertler, S. Martinez y R. Titiunik. 2009. Housing,

Health and Happiness. American Economic Journal: Economic Policy 1 (1):
75105.
Morra Imas, L. y R. Rist. 2009. The Road to Results: Designing and Conducting
Effective Development Evaluations. Washington, D.C.: Banco Mundial.
Kusek, J. y R. Rist. 2004. Ten Steps to a Results-Based Monitoring and Evaluation
System. Washington, D.C.: Banco Mundial.
Ludwig, J., J. Kling y S. Mullainathan. 2011. Mechanism Experiments and Policy
Evaluations. Journal of Economic Perspectives 25 (3): 1738.
PNUD (Programa de las Naciones Unidas para el Desarrollo). 2009. Handbook on
Planning, Monitoring and Evaluating for Development Results. Nueva York:
PNUD.
University of Wisconsin - Extension. 2010. Enhancing Program Performance with
Logic Models. Curso en lnea. Disponible en http://www.uwex.edu/ces/pdande
/evaluation/evallogicmodel.html.
Vermeersch, C., E. Rothenbhler y J. Sturdy. 2012. Impact Evaluation Toolkit:
Measuring the Impact of Results-Based Financing on Maternal and Child
Health. Washington, D.C.: Banco Mundial. Disponible en www.worldbank.org
/ health/impactevaluationtoolkit.

Segunda parte
CMO EVALUAR
La segunda parte de este libro explica cmo funcionan las evaluaciones de

impacto, a qu preguntas responden, qu mtodos estn disponibles para lle-
varlas a cabo y cules son las ventajas y las desventajas de cada uno de ellos.
El enfoque de la evaluacin de impacto propuesto en este libro aboga por la
seleccin del mtodo ms riguroso que sea compatible con las caractersti-
cas operativas de un programa. El men de opciones para una evaluacin de
impacto incluye la asignacin aleatoria, las variables instrumentales, el diseo
de regresin discontinua, las diferencias en diferencias y el pareamiento. Todos
estos mtodos comparten el objetivo comn de construir grupos de compara-
cin vlidos que permitan estimar los verdaderos impactos de un programa.
El captulo 3 introduce el concepto del contrafactual como piedra angular de la

evaluacin de impacto mediante una explicacin de las propiedades que debe
tener la estimacin del contrafactual y ejemplos de estimaciones invlidas o
falsas del contrafactual. Del captulo 4 al 8 se aborda cada una de las metodo-
logas para una evaluacin de impacto: el captulo 4 trata la asignacin aleato-
ria; el 5, las variables instrumentales; el 6, el diseo de regresin discontinua;
el 7, las diferencias en diferencias, y el 8, el pareamiento. En estos captulos se
analiza cmo y por qu cada mtodo puede producir una estimacin vlida del
contrafactual, en qu contexto de las polticas pblicas es posible implementar-
los y cules son las principales limitaciones de cada uno. Asimismo, se ilustra
el uso de los diferentes mtodos con ejemplos especcos del mundo real de
las evaluaciones de impacto que los han utilizado y con el estudio de caso del
Programa de Subsidios de Seguros de Salud (HISP, por sus siglas en ingls,
Health Insurance Subsidy Program) que se present en el captulo 2. El cap-
tulo 9 avanza sobre cmo abordar los problemas que pueden surgir durante la
implementacin, y reconoce que las evaluaciones de impacto no suelen ejecu-
tarse siguiendo el diseo de un modo exacto. En este contexto, se consideran
las dicultades habituales, entre ellas el cumplimiento imperfecto, los efectos
secundarios y el desgaste de la muestra, y se ofrece orientacin acerca de
cmo afrontar estos problemas. El captulo 10 concluye esta segunda parte del
libro con una gua de las evaluaciones de programas multifacticos, en especial
aquellos con distintos niveles de tratamiento y mltiples brazos de tratamiento.
A lo largo de la segunda parte, el libro brinda la oportunidad de aplicar mtodos

y poner a prueba la comprensin a partir del estudio de caso del HISP. Como se
recordar, la pregunta clave de la evaluacin para los responsables de la pol-
tica del HISP es: qu impacto tiene este programa en los gastos directos en
atencin sanitaria de los hogares pobres? Se utilizar la base de datos del HISP
para ilustrar cada mtodo de evaluacin e intentar responder esta pregunta.
Siendo que ya se han reunido adecuadamente los datos, de modo que se han
eliminado todos los problemas relacionados con estos datos, el libro proporcio-
nar los resultados del anlisis, que debern ser interpretados. En ese sentido,
la tarea del lector ser determinar por qu la estimacin del impacto del HISP
cambia con cada mtodo y decidir qu resultados son ms ables para justi-
car una decisin a favor o en contra de la ampliacin del HISP. Las soluciones
a las preguntas se hallan en el sitio web de evaluacin de impacto en la prc-
tica (www.worldbank.org/ieinpractice), donde, adems, se encuentra la base
de datos, el cdigo de anlisis en el software Stata y un manual tcnico que
proporciona un tratamiento ms formal de los datos.
La parte 3 comienza indicando cmo usar las reglas de operacin del programa,
esto es: los recursos disponibles de un programa, los criterios para la seleccin
de beneciarios, y el plazo de implementacin, como base para seleccionar
un mtodo de evaluacin de impacto. All se presenta un marco sencillo para
determinar cul de las metodologas de evaluacin de impacto expuestas en la
parte 2 es ms conveniente para un determinado programa, en funcin de sus
normas operativas.
CAPTULO 3
Inferencia causal y
contrafactuales
Inferencia causal
En las evaluaciones de impacto precisas y ables existen dos conceptos

esenciales: la inferencia causal y los contrafactuales.
Muchas preguntas de poltica econmica tienen que ver con relaciones
de causa y efecto: la formacin de los profesores mejora las puntuaciones
de los alumnos en las pruebas? Los programas de transferencias condicio-
nadas consiguen mejores resultados en la salud de los nios? Los progra-
mas de formacin profesional aumentan los ingresos de quienes los han
cursado?
Las evaluaciones de impacto pretenden responder estas preguntas de
causa y efecto con precisin. Evaluar el impacto de un programa en un con-
junto de resultados equivale a evaluar el efecto causal del programa en esos
resultados.1
Concepto clave
A pesar de que las preguntas de causa y efecto son habituales, contestar-
Las evaluaciones de
las no es un asunto sencillo. En el contexto de un programa de formacin impacto establecen
profesional, por ejemplo, la sola observacin de que los ingresos de una per- hasta qu punto un
sona que ha recibido formacin aumentan despus de que ha completado programa y solo ese
ese programa no basta para establecer la causalidad. Tal vez los ingresos de programa provoc un
esa persona se habran incrementado aunque no hubiera sido objeto de la cambio en un
resultado.
formacin, sino como consecuencia de sus esfuerzos, de las condiciones
53
cambiantes del mercado laboral o de muchos otros factores que inuyen en
los ingresos. Las evaluaciones de impacto ayudan a superar el problema de
atribuir causalidad pues determinan, empricamente, en qu medida un
programa concreto y solo ese programa contribuye a cambiar un resul-
tado. Para establecer causalidad entre un programa y un resultado se
emplean mtodos de evaluacin de impacto a n de descartar la posibilidad
de que cualquier factor distinto del programa de inters explique el impacto
observado.
La respuesta a la pregunta bsica de la evaluacin de impacto cul es el
impacto o efecto causal de un programa (P) en un resultado de inters (Y)
se obtiene mediante la frmula bsica de la evaluacin de impacto:
= (Y | P = 1) (Y | P = 0)
Segn esta frmula, el impacto causal () de un programa (P) en un resul-

tado (Y) es la diferencia entre el resultado (Y) con el programa (es decir,
cuando P = 1) y el mismo resultado (Y) sin el programa (cuando P = 0).
Por ejemplo, si P representa un programa de formacin profesional e Y
simboliza los ingresos, el impacto causal de un programa de formacin pro-
fesional () es la diferencia entre los ingresos de una persona (Y) despus
de participar en el programa de formacin profesional (es decir, cuando
P=1) y los ingresos de la misma persona (Y) en el mismo momento en el
tiempo, si no hubiera participado en el programa (cuando P = 0). Dicho de
otro modo, se trata de medir el ingreso en el mismo momento en el tiempo
para la misma unidad de observacin (en este caso, una persona) pero en
dos realidades diferentes. Si esto fuera posible, se observara cul sera el
ingreso de ese mismo individuo en el mismo momento en el tiempo tanto
con el programa como sin l, de modo que la nica explicacin posible de
cualquier diferencia en los ingresos de esa persona sera el programa.
Alcomparar al mismo individuo consigo mismo en el mismo momento se
conseguira eliminar cualquier factor externo que tambin pudiera expli-
car la diferencia de los ingresos. En ese caso, sera posible conar en que la
relacin entre el programa de formacin profesional y el cambio en los
ingresos es causal.
La frmula bsica de la evaluacin de impacto es vlida para cualquier
unidad analizada, ya sea una persona, un hogar, una comunidad, una
empresa, un colegio, un hospital u otra unidad de observacin que pueda
beneciarse del programa o verse afectada por l. La frmula tambin es
vlida para cualquier resultado (Y) relacionado con el programa en cuestin.
Una vez que se han medido los dos componentes clave de esta frmula el
resultado (Y) con el programa y sin l, es posible responder cualquier pre-
gunta acerca del impacto del programa.

El contrafactual
Como ya se seal, es posible pensar en el impacto () de un programa como

la diferencia en los resultados (Y) para la misma unidad (persona, hogar,
comunidad, etc.) cuando ha participado en el programa y cuando no lo ha
hecho. Sin embargo, es imposible medir al mismo sujeto en dos realidades
diferentes al mismo tiempo. En cualquier momento del tiempo, un sujeto
habr participado en el programa o no lo habr hecho. No se lo puede obser-
var simultneamente en dos realidades distintas (es decir, con el programa
y sin l). Esto se denomina problema contrafactual: cmo medir lo que Concepto clave
habra ocurrido si hubieran prevalecido las otras circunstancias? Aunque se El contrafactual es lo
puede observar y medir el resultado (Y) para un participante del programa que habra ocurrido
cul habra sido el
(Y | P = 1), no hay datos para establecer cul habra sido su resultado en
resultado (Y ) para un
ausencia delprograma (Y | P = 0). En la frmula bsica de la evaluacin de participante del
impacto, eltrmino (Y | P = 0) representa el contrafactual, lo cual se puede programa en ausencia
expresar como cul habra sido el resultado si una persona no hubiera par- del programa (P ).
ticipado en el programa?
Por ejemplo, si el seor Desafortunado toma una pldora y muere cinco
das despus, el solo hecho de que el seor Desafortunado haya muerto des-
pus de tomar la pldora no permite concluir que la pldora haya sido la
causa de su muerte. Quiz l estaba muy enfermo cuando tom la pldora y
fue la enfermedad la que provoc su muerte en lugar de la pldora. Para infe-
rir la causalidad habr que descartar todos los dems factores potenciales
capaces de haber inuido en el resultado en cuestin. En este sencillo ejem-
plo, para saber si la pldora caus la muerte del seor Desafortunado, un eva-
luador tendra que establecer qu le habra ocurrido al seor Desafortunado
si no hubiera tomado la pldora. Como el seor Desafortunado tom la pl-
dora, no es posible observar de forma directa qu habra ocurrido si no lo
hubiera hecho. Lo que le habra ocurrido si no hubiera tomado la pldora es
el contrafactual. Para denir el impacto de la pldora, el principal reto del
evaluador consiste en determinar qu aspecto tiene el estado contrafactual
de la realidad para el seor Desafortunado (vase el recuadro 3.1).
Cuando se lleva a cabo una evaluacin de impacto, es relativamente fcil
obtener el primer trmino de la frmula bsica (Y | P = 1) el resultado con
un programa, tambin conocido como el resultado bajo tratamiento, ya que Concepto clave
basta con medir el resultado de inters para el participante del programa. Como no es posible
Sin embargo, no es posible observar de forma directa el segundo trmino de observar directamente
el contrafactual, es
la frmula (Y | P = 0) para el participante. Es preciso obtener esta informa-
preciso estimarlo.
cin estimando el contrafactual.
Para entender este concepto clave de estimacin del contrafactual es til
recurrir a otro caso hipottico. La solucin del problema contrafactual sera
Inferencia causal y contrafactuales 55

Recuadro 3.1: El problema del contrafactual: la seorita nica y
el programa de transferencias condicionadas
La seorita nica es una recin nacida condicionadas y sin l: su familia cumple los
cuya madre percibe una asignacin moneta- requisitos (chequeos, vacunacin, seguimiento
ria mensual siempre que la nia sea some- del crecimiento) y recibe la transferencia condi-
tida a chequeos regulares en el centro de cionada o no lo hace. En otras palabras, no hay
salud local, reciba las vacunas y se chequee forma de observar cul es el contrafactual. Como
su crecimiento. Segn el gobierno, la trans- la madre de la seorita nica cumpli los requisi-
ferencia condicionada motivar a la madre tos y recibi la transferencia condicionada, no es
de la seorita nica a acudir a los servicios factible saber qu altura tendra la seorita nica
de salud que requiere el programa y contri- si su madre no hubiera recibido la transferencia
buir al crecimiento normal y saludable de la condicionada.
nia. Para realizar una evaluacin de impacto Ser difcil encontrar una comparacin
de la transferencia condicionada, el gobierno adecuada para la seorita nica porque,
elige la altura como indicador de resultados como su nombre indica, es nica. Sus ante-
de la salud en el largo plazo. cedentes socioeconmicos, sus atributos
Idealmente, para evaluar el impacto del genticos y sus caractersticas personales y
programa, habra que medir la altura de la del hogar no pueden ser hallados en nin-
seorita nica a los 3 aos, cuando su guna otra persona. Si se compara la seo-
madre recibi la transferencia condicionada rita nica con alguien que no particip en el
y tambin cuando su madre no recibi dicha programa por ejemplo, el seor Inimitable,
transferencia. Luego habra que comparar la comparacin tal vez resulte inadecuada:
las dos alturas para establecer el impacto. Si la seorita nica puede ser exactamente
fuera posible comparar la altura de la seo- idntica al seor Inimitable. Quiz la seo-
rita nica a los 3 aos bajo el programa con rita nica y el seor Inimitable no tienen el
la altura de la seorita nica a los 3 aos sin mismo aspecto, no viven en el mismo lugar,
el programa se sabra que cualquier diferen- no tienen los mismos padres y no midieron
cia en la altura habra sido efecto solo del lo mismo cuando nacieron. Por lo tanto, si
programa de transferencias condicionadas. se observa que el seor Inimitable es ms
Como todo lo dems relativo a la seorita bajo que la seorita nica a los 3 aos no
nica sera igual, no habra otras caracters- ser posible saber si la diferencia se debe al
ticas que explicaran la diferencia de altura. programa de transferencias condicionadas
Sin embargo, es imposible observar a la o a alguna de las muchas otras diferencias
seorita nica con el programa de transferencias entre los dos nios.
posible si el evaluador pudiera encontrar un clon perfecto de un partici-

pante en el programa (vase el grco 3.1). Por ejemplo, si el seor Fulanito
comienza a recibir US$12 como dinero de bolsillo y lo que se busca es medir
el impacto de este tratamiento en su consumo de caramelos, la existencia de
un clon perfecto del seor Fulanito hara la evaluacin muy fcil, pues se
Grco 3.1 El clon perfecto
Beneciario/a Clon
6 caramelos 4 caramelos
Impacto = 6 4 = 2 caramelos
podra comparar el nmero de caramelos que come el seor Fulanito

(por ejemplo, seis) cuando recibe el dinero, con el nmero de caramelos
(por ejemplo, cuatro) que come su clon, que no recibe dinero. En este caso,
el impacto del dinero de bolsillo sera de dos caramelos, es decir, la diferen-
cia entre el nmero de caramelos consumidos bajo tratamiento (seis) y el
nmero de caramelos consumidos sin tratamiento (cuatro). En realidad,
est claro que es imposible hallar clones perfectos, y que incluso entre
gemelos genticamente idnticos hay diferencias importantes.
La estimacin del contrafactual
La clave para estimar el contrafactual para los participantes del programa

consiste en desplazarse del nivel individual o de la persona al nivel del
grupo. A pesar de que no existe un clon perfecto de una persona nica, es
posible contar con propiedades estadsticas para generar dos grupos de
personas que, si su nmero es lo bastante alto, sean indistinguibles una de
otra desde el punto de vista estadstico en el nivel del grupo. El grupo que
participa en el programa se denomina grupo de tratamiento, y su resultado
es (Y | P = 1) despus de que ha participado en el programa. El grupo de com-
paracin estadsticamente idntico (a veces llamado grupo de control) es
el grupo que no es objeto del programa y permite estimar el resultado con-
trafactual (Y | P = 0): es decir, el resultado que se habra obtenido en el grupo
de tratamiento si no hubiera recibido el programa.
Concepto clave Por lo tanto, en la prctica el reto de una evaluacin de impacto es denir
Sin un grupo de un grupo de tratamiento y un grupo de comparacin que sean estadstica-
comparacin que mente idnticos, en promedio, en ausencia del programa. Si los dos grupos
produzca una
son idnticos (estadsticamente), con la nica excepcin de que un grupo
estimacin precisa del
contrafactual, no se
participa en el programa y el otro no, es posible estar seguros de que cual-
puede establecer el quier diferencia en los resultados tendra que deberse al programa.
verdadero impacto de Encontrar esos grupos de comparacin es la piedra angular de cualquier
un programa. evaluacin de impacto, al margen del tipo de programa que se evale. En
pocas palabras, sin un grupo de comparacin que produzca una estimacin
precisa del contrafactual, no se puede establecer el verdadero impacto de un
programa.
En ese sentido, el principal desafo para identicar los impactos es crear
un grupo de comparacin vlido que tenga las mismas caractersticas que el
grupo de tratamiento en ausencia del programa. Concretamente, los grupos
de tratamiento y de comparacin deben ser iguales en al menos tres
aspectos.
En primer lugar, las caractersticas promedio del grupo de tratamiento y
del grupo de comparacin deben ser idnticas en ausencia del programa.2
Aunque no es necesario que las unidades individuales en el grupo de trata-
miento tengan clones perfectos en el grupo de comparacin, en promedio
las caractersticas de los grupos de tratamiento y de comparacin deberan
ser las mismas. Por ejemplo, la edad promedio de las personas en el grupo de
tratamiento debera ser la misma que en el grupo de comparacin.
En segundo lugar, el tratamiento no tendra que afectar al grupo de
comparacin de forma directa ni indirecta. En el caso del seor Fulanito y
el dinero de bolsillo, el grupo de tratamiento no debera transferir recur-
sos al grupo de comparacin (efecto directo) ni inuir en el precio de los
caramelos en los mercados locales (efecto indirecto). Por ejemplo, si lo
que se busca es aislar el impacto del dinero de bolsillo en el consumo de
caramelos, al grupo de tratamiento no se le deberan ofrecer ms visitas
Concepto clave
ala tienda de caramelos que al grupo de comparacin; de otra manera,
Un grupo de compara-
cin vlido (1) tiene las
no se podra distinguir si el consumo adicional de caramelos es conse-
mismas caractersticas, cuencia del dinero de bolsillo o del mayor nmero de visitas a la tienda de
en promedio, que el caramelos.
grupo de tratamiento en En tercer lugar, los resultados de las personas en el grupo de control
ausencia del programa; deberan cambiar de la misma manera que los resultados en el grupo de tra-
(2) no es afectado por el
tamiento, si ambos grupos son objeto del tratamiento (o no). En este sentido,
programa; y (3)
reaccionara al los grupos de tratamiento y de comparacin tendran que reaccionar al
programa de la misma programa de igual modo. Por ejemplo, si los ingresos de las personas del
manera que el grupo de grupo de tratamiento aumentaran en US$100 gracias al programa de forma-
tratamiento, si fuera cin, los ingresos de las personas en el grupo de comparacin tambin ten-
objeto del programa.
dran que subir US$100 si hubieran sido objeto de la formacin.
Si se cumplen estas tres condiciones, solamente la existencia del pro-
grama de inters explicar cualquier diferencia en el resultado (Y) entre los
dos grupos. Esto obedece a que la nica diferencia entre los grupos de trata-
miento y los de comparacin es que los miembros del grupo de tratamiento
recibieron el programa, mientras que los del grupo de comparacin no lo
recibieron. Cuando la diferencia en el resultado se puede atribuir total-
mente al programa, se ha identicado el impacto causal del programa.
En el caso del seor Fulanito se observ que estimar el impacto del dinero
de bolsillo en su consumo de caramelos exiga la tarea impracticable de
encontrar el clon perfecto del seor Fulanito. En vez de analizar el impacto
en un solo individuo, es ms realista evaluar el impacto promedio en un
grupo de individuos (vase el grco 3.2). En ese sentido, si se pudiera iden-
ticar otro grupo de individuos que comparten el mismo promedio de edad,
composicin por sexo, educacin, preferencia por los caramelos, etc., con la
salvedad de que no recibe el dinero de bolsillo adicional, sera posible esti-
mar el impacto del dinero de bolsillo, pues este estara conformado por la Concepto clave
diferencia entre el consumo promedio de caramelos en ambos grupos. Por lo Cuando el grupo de
tanto, si el grupo de tratamiento consume una media de seis caramelos por comparacin no estima
con precisin el
persona, mientras que el grupo de comparacin consume una media de cua-
verdadero contrafac-
tro, el impacto promedio del dinero de bolsillo adicional en el consumo de tual, el impacto
caramelos sera de dos caramelos. estimado del programa
Despus de denir un grupo de comparacin vlido, es importante consi- no es vlido. En
derar qu ocurrira si la decisin fuera seguir adelante con una evaluacin trminos estadsticos
es sesgado.
sin haber hallado ese grupo. Es evidente que un grupo de comparacin no
Grco 3.2 Un grupo de comparacin vlido
Tratamiento Comparacin
Media Y = 6 caramelos Media Y = 4 caramelos
Impacto = 6 4 = 2 caramelos

vlido diere del grupo de tratamiento de alguna manera distinta de la
ausencia de tratamiento. Debido a esas otras diferencias, la estimacin de
impacto puede ser no vlida o, en trminos estadsticos, puede ser sesgada:
en ese caso la evaluacin de impacto no estimar el verdadero impacto del
programa, sino el efecto del programa mezclado con esas otras diferencias
existentes entre los grupos.
Dos estimaciones falsas del contrafactual
En lo que queda de la segunda parte de este libro se abordarn los diversos

mtodos disponibles para construir grupos de comparacin vlidos que
permitirn estimar el contrafactual. Sin embargo, antes resulta til analizar
dos mtodos de uso habitual, aunque sumamente riesgosos, para construir
grupos de comparacin que a menudo conducen a estimaciones inadecua-
das (falsas) del contrafactual:
Las comparaciones antes-despus (tambin conocidas como comparacio-
nes pre-post o reexivas): cotejan los resultados del mismo grupo antes y
despus de participar en un programa.
Las comparaciones de inscritos y no inscritos (o autoseleccionados): com-
paran los resultados de un grupo que elige participar en un programa con
otros de un grupo que elige no participar.
Contrafactual falso 1: comparacin entre resultados antes y

despus de un programa
Una comparacin antes-despus intenta establecer el impacto de un

programa a partir de un seguimiento de los cambios en los resultados en los
participantes del programa a lo largo del tiempo. De acuerdo con la frmula
bsica de la evaluacin de impacto, el resultado para el grupo de tratamiento
(Y | P = 1) es, sin duda, el resultado despus de participar en el programa. Sin
embargo, las comparaciones antes-despus consideran el contrafactual esti-
mado (Y | P = 0) como el resultado para el grupo de tratamiento antes de
quecomience la intervencin. Bsicamente, esta comparacin supone que si
el programa no hubiera existido, el resultado (Y) para los participantes del
programa habra sido igual a su situacin antes del programa. Lo cierto es
que en la mayora de los programas implementados durante meses o aos
este supuesto no puede sostenerse.
A modo de ejemplo se aborda la evaluacin de un programa de micro-
nanzas para agricultores pobres. El programa ofrece microprstamos a
los agricultores, lo que les permite comprar fertilizantes y aumentar su
produccin de arroz. El ao previo al inicio del programa, los agricultores
cosecharon un promedio de 1.000 kilos de arroz por hectrea (el punto B
enel grco 3.3). Un ao despus del lanzamiento del sistema de micro-
nanzas, la produccin de arroz subi a 1.100 kilos por hectrea (el punto A
en el grco 3.3). Si se tratara de evaluar el impacto sobre la base de una
comparacin antes-despus, se utilizara el resultado de antes del pro-
grama como una estimacin del contrafactual. Al aplicar la misma fr-
mula bsica de la evaluacin de impacto, se llegara a la conclusin de que
el programa ha incrementado la produccin de arroz en 100 kilos por
hectrea (A-B).
Ahora bien, si las lluvias fueron normales en el ao previo al lanza-
miento del programa y luego, durante el ao en que se implement el pro-
grama, se produjo una sequa, la produccin promedio de los agricultores
sin el sistema de microprstamos ser probablemente menor que B, y se
situar, por ejemplo, en el nivel D debido a la sequa. En ese caso, el verda-
dero impacto del programa sera A-D, que es mayor que los 100 kilos esti-
mados a partir de la comparacin antes-despus. En cambio, si las lluvias
hubieran mejorado entre los dos aos, el contrafactual de la produccin de
arroz podra haberse situado en el nivel C. Entonces el verdadero impacto
Grco 3.3 Estimaciones antes-despus de un programa de micronanzas
1.100 A
Produccin de arroz (kg por ha)
Cambio observado
Contrafactual C C? = 100
Contrafactual B
1.000 B
Contrafactual D
D?
Ao 0 Ao 1
Nota: = Cambio en la cosecha de arroz (kg); ha = hectreas; kg = kilogramos.

del programa habra sido inferior a 100 kilos. En otras palabras, si los an-
lisis de impacto no pueden dar cuenta de las lluvias y de todos los dems
factores capaces de inuir en la produccin de arroz a lo largo del tiempo,
es imposible calcular el verdadero impacto del programa mediante una
comparacin antes-despus.
En el ejemplo anterior de las micronanzas, las lluvias constituyen uno
de varios factores externos que pueden inuir en el resultado de inters del
programa (la produccin de arroz) durante su vigencia. De la misma manera,
muchos resultados que los programas de desarrollo pretenden mejorar,
como los ingresos, la productividad, la salud o la educacin, estn afectados
por un conjunto de factores en el transcurso del tiempo. Por ese motivo, el
resultado de referencia casi nunca es una buena estimacin del contrafac-
tual y se lo considera un contrafactual falso.
Evaluacin de impacto del HISP: una comparacin de

resultados antes-despus
Como se recordar, el HISP es un programa nuevo en el pas, que subsi-

dia los seguros de salud en los hogares rurales pobres, y este seguro cubre
los gastos relacionados con la atencin de salud y los medicamentos para
quienes se inscriben en l. El objetivo del HISP es reducir lo que los
hogares pobres gastan en atencin primaria de salud y medicamentos
y, eventualmente, mejorar los resultados de salud. Aunque se podran
contemplar numerosos indicadores de resultados para la evaluacin del
programa, al gobierno le interesa, en particular, el anlisis de los efectos
del HISP en los gastos directos en salud per cpita anuales (de ahora en
adelante denominados gasto en salud).
Si el HISP se ampliara a todo el pas representara un alto porcentaje
del presupuesto nacional, hasta el 1,5% del producto interno bruto (PIB),
segn algunas estimaciones. Adems, hay otras complejidades adminis-
trativas y logsticas importantes que intervienen en la gestin de un
programa de estas caractersticas. Por eso, en los niveles ms altos del
gobierno se ha tomado la decisin de introducir el HISP primero como
programa piloto y, ms tarde, segn los resultados de la fase inicial,
aumentar su escala de manera progresiva a lo largo del tiempo. Sobre la
base de los resultados de los anlisis nancieros y de costo-benecio, la
presidenta y su gabinete han anunciado que para que el HISP sea viable y
se pueda extender a todo el pas es preciso que los gastos en salud per
cpita anuales de los hogares rurales pobres disminuyan en al menos
US$9 en promedio, en comparacin con lo que habran gastado en ausen-
cia del programa, y se debe lograr esta meta en un plazo de dos aos.

Finalmente, durante la fase piloto inicial el HISP se implementa en
100 pueblos rurales. Justo antes del comienzo del programa, el gobierno
contrata una empresa de encuestas para que realice un sondeo de lnea
de base en los 4.959 hogares de estos pueblos. La encuesta recopila infor-
macin detallada sobre cada hogar, que incluye su composicin demo-
grca, sus activos, su acceso a los servicios sanitarios y su gasto en salud
durante el ao anterior. Poco despus de la encuesta de lnea de base, el
HISP llega a los 100 pueblos piloto con un gran despliegue de publicidad,
que abarca actividades comunitarias y otras campaas promocionales
para animar a los pobladores a inscribirse.
De los 4.959 hogares que contiene la muestra de lnea de base, un total
de 2.907 se inscriben en el HISP y el programa funciona con xito
durantelos dos aos siguientes. Todas las clnicas y farmacias que sirven
los 100 pueblos aceptan a los pacientes con el sistema de seguro y las
encuestas muestran que la mayora de los hogares inscritos expresa
satisfaccin con el programa. Al nal del perodo piloto de dos aos se
recopila una segunda ronda de datos de evaluacin en la misma muestra
de 4.959 hogares.3
La presidenta y el ministro de Salud le han encargado a un equipo que
supervise la evaluacin de impacto del HISP y este debe recomendarle al
gobierno si es conveniente ampliar el programa al nivel nacional o no. La
pregunta de evaluacin de impacto de inters es: cul es el efecto del
Programa de Subsidios de Seguros de Salud en los gastos directos en
salud de los hogares pobres? Es preciso recordar que hay mucho en juego.
Si se llega a la conclusin de que el HISP reduce los gastos en salud en al
menos US$10, se extender a todo el pas. Si el programa no alcanza ese
objetivo, la decisin ser que no se ample.
El primer consultor experto seala que para estimar el impacto del
HISP hay que calcular el cambio en los gastos en salud a lo largo del
tiempo en los hogares que se inscribieron. El consultor sostiene que
debido a que el HISP cubre todos los gastos de salud, cualquier reduccin
de los gastos durante la vigencia del programa debe ser atribuida al efecto
del HISP. A partir del subconjunto de los hogares inscritos, el experto
estima los gastos promedio en salud antes de la implementacin del
programa y luego de la ejecucin del mismo, dos aos despus. En otras
palabras, lleva a cabo una comparacin antes-despus (los resultados se
recogen en el cuadro 3.1) Se observa que el grupo de tratamiento redujo
sus gastos directos en salud en US$6,65, al pasar de US$14,49 antes de la
introduccin del HISP a US$7,84 dos aos ms tarde. Como indica el
valor t-estadstico, la diferencia entre gastos en salud antes y despus
delprograma es estadsticamente signicativa.4 Esto signica que se ha

Cuadro 3.1 Evaluacin del HISP segn comparacin antes-despus
Despus Antes Diferencia t-estadstico

Gasto en salud de los
hogares (en US$) 7,84 14,49 6,65** 39,76
** Signicativo al nivel del 1%.
Cuadro 3.2 Impacto del HISP segn comparacin antes-despus (anlisis

de regresin)
Regresin lineal
Regresin lineal multivariante
Impacto estimado en el
gasto en salud de los 6,65** 6,71**
hogares (en US$) (0,23) (0,23)
Nota: Los errores estndar estn entre parntesis.

encontrado evidencia slida contra quienes sostienen que la verdadera

diferencia entre los gastos antes y despus de la intervencin es cero.
Aunque la comparacin antes-despus es para el mismo grupo de
hogares, es preciso establecer si otras circunstancias cambiaron en estos
hogares a lo largo de los ltimos dos aos, inuyendo en sus gastos en
salud. Por ejemplo, hay nuevos medicamentos que se encuentran dispo-
nibles desde hace poco tiempo. Adems, la reduccin de los gastos en
salud podra haber sido provocada por la crisis nanciera que el pas ha
vivido recientemente. Para abordar algunas de estas cuestiones, el con-
sultor lleva a cabo un anlisis de regresin ms sosticado que intentar
controlar por estos otros factores.
El anlisis de regresin emplea las estadsticas para analizar las rela-
ciones entre una variable dependiente (la variable que ser explicada) y
variables explicativas (los resultados se recogen en el cuadro 3.2). Una
regresin lineal es la forma ms sencilla de hacerlo: los gastos en salud
son la variable dependiente y solo hay una variable explicativa, un indica-
dor binario (0-1) que asume el valor 0 si la observacin es de lnea de base
y 1 si la observacin corresponde al seguimiento.
En tanto, una regresin lineal multivariante aade variables explicati-
vas para controlar por, o mantener constantes, otras caractersticas que se
observan para los hogares en la muestra, que incluyen indicadores
deriqueza (activos), composicin del hogar, etctera.5

Se observa que el resultado de la regresin lineal es equivalente a la
simple diferencia antes y despus en los gastos promedio en salud que
muestra el cuadro 3.1 (una reduccin de US$6,65 en los gastos en salud).
Una vez que se utiliza una regresin lineal multivariante para controlar
por otros factores disponibles en los datos, se vuelve a obtener un resul-
tado similar: una disminucin de US$6,71 en los gastos en salud.
Pregunta HISP 1
A. La comparacin antes-despus controla por todos los factores que

inuyen en los gastos en salud a lo largo del tiempo?
B. Sobre la base de los resultados producidos por el anlisis antes-
despus, debera ampliarse el HISP a nivel nacional?
Contrafactual falso 2: comparacin entre los grupos de inscritos y

no inscritos (autoseleccionados)
La comparacin entre un grupo de individuos que se inscriben voluntaria-

mente en un programa y un grupo de individuos que elige no participar es
otro enfoque riesgoso de la evaluacin de impacto. Un grupo de compara-
cin que se autoselecciona para no participar en un programa ser otro
contrafactual falso. La seleccin se produce cuando la participacin en el
programa se basa en las preferencias, decisiones o caractersticas no obser-
vables de los participantes potenciales.
A modo de ejemplo se puede pensar en un programa de orientacin pro-
fesional para los jvenes desempleados. Dos aos despus de su lanza-
miento, una evaluacin intenta estimar su impacto en los ingresos a partir
de la comparacin de los ingresos promedio de un grupo de jvenes que
decidieron inscribirse en el programa con los de un grupo de jvenes que, a
pesar de ser elegibles, decidieron no inscribirse. Si los resultados demostra-
ran que los jvenes que eligieron inscribirse en el programa ganan el
doble de los que decidieron no hacerlo, cmo debera interpretarse este
hallazgo? En este caso, el contrafactual se estima sobre la base de los ingre-
sos de quienes eligieron no inscribirse en el programa. Sin embargo, es pro-
bable que los dos grupos sean, en esencia, diferentes. Aquellos individuos
que decidieron participar pueden estar muy motivados para mejorar sus
vidas y quiz esperen un retorno alto de la formacin. Mientras que los que
decidieron no inscribirse tal vez son jvenes desanimados que no esperan
beneciarse de este tipo de programas. Es factible que estos dos grupos
obtengan resultados bastante distintos en el mercado laboral y consigan
ingresos diferentes incluso sin el programa de formacin profesional.
Los mismos problemas surgen cuando la admisin en un programa se
basa en preferencias no observadas de los administradores del programa.
Por ejemplo, si los administradores del programa basan la admisin y la
inscripcin en una entrevista. Puede que los admitidos en el programa sean
aquellos en quienes los administradores ven una buena probabilidad de
beneciarse del programa. Tal vez los no admitidos pueden mostrar menos
motivacin en la entrevista, tener calicaciones ms bajas o sencillamente
carecer de destrezas en una entrevista. Como se seal en el caso anterior,
es probable que estos dos grupos de jvenes obtengan ingresos diferentes en
el mercado laboral incluso sin un programa de formacin profesional.
Por lo tanto, el grupo que no se inscribi no proporciona una buena
estimacin del contrafactual ya que la observacin de una diferencia en los
ingresos entre los dos grupos no permite determinar si se debe al programa
Concepto clave de formacin o a los contrastes subyacentes entre los dos grupos en motiva-
El sesgo de seleccin cin, destrezas y otros factores. As, el hecho de que individuos menos
se produce cuando los motivados o menos cualicados no se hayan inscrito en el programa de for-
motivos por los que un
macin genera un sesgo en la evaluacin de impacto del programa.6 Este
individuo participa en
un programa estn sesgo se llama sesgo de seleccin. En trminos ms generales, el sesgo de
correlacionados con seleccin se produce cuando los motivos por los que un individuo participa
los resultados. en un programa estn correlacionados con los resultados, incluso en ausen-
Asegurarse de que el cia del programa. Asegurarse de que el impacto estimado est libre de ses-
impacto estimado est gos de seleccin es uno de los principales objetivos de cualquier evaluacin
libre de sesgos de
seleccin es uno de los
de impacto, y plantea importantes dicultades. En este ejemplo, si los jve-
principales objetivos nes que se inscribieron en la formacin profesional hubiesen tenido ingre-
en cualquier sos ms altos incluso en ausencia del programa, el sesgo de seleccin sera
evaluacin de impacto positivo; en otras palabras, se sobreestimara el impacto del programa de
y plantea importantes formacin profesional al atribuirle los ingresos ms altos que los participan-
dicultades.
tes habran tenido de todas maneras.
Evaluacin del impacto del HISP: comparacin entre

hogares inscritos y no inscritos
Despus de haber reexionado de forma ms detenida sobre la compara-

cin antes-despus el equipo de evaluacin llega a la conclusin de que
todava hay numerosos factores que pueden explicar parte del cambio en
los gastos en salud a lo largo del tiempo (concretamente, al ministerio de
Finanzas le preocupa que una reciente crisis nanciera haya afectado los
ingresos de los hogares, y puede que explique el cambio observado en los
gastos en salud).

Otro consultor sugiere que sera ms adecuado estimar el contrafac-
tual en el perodo posterior a la intervencin, es decir, dos aos despus
del comienzo del programa. El consultor seala que de los 4.959 hogares
contenidos en la muestra, solo 2.907 se inscribieron en el programa, de
modo que alrededor del 41% de los hogares sigue sin cobertura del HISP.
El consultor sostiene que todos los hogares de los 100 pueblos piloto
cumplan las condiciones para inscribirse. Estos hogares comparten las
mismas clnicas de salud y estn sujetos a los mismos precios locales de
los productos farmacuticos. Adems, la mayora de los integrantes de
esos hogares trabaja en actividades econmicas similares. El consultor
opina que, en estas circunstancias, los resultados del grupo no inscrito
despus de la intervencin podran servir para estimar el resultado con-
trafactual del grupo inscrito en el HISP. Por lo tanto, decide calcular los
gastos promedio en salud en el perodo posterior a la intervencin, tanto
para los hogares que se inscribieron en el programa como para los que
no lo hicieron (losresultados se recogen en el cuadro 3.3). Utilizando los
gastos promedio de salud de los hogares no inscritos como la estimacin
del contrafactual, elconsultor llega a la conclusin de que el programa
ha reducido los gastos promedio de salud en casi US$14,46.
Ahora bien, los hogares que decidieron no inscribirse en el programa
pueden ser sistemticamente diferentes de los que s lo hicieron? Quiz
los hogares que se inscribieron en el HISP tenan mayores gastos en salud
o eran personas con ms informacin acerca del programa o ms atentas
a la salud de su familia. Otra posibilidad es que tal vez los hogares que se
inscribieron eran ms pobres, en promedio, que los que no se inscribie-
ron, ya que el HISP tena como objetivo los hogares pobres. El consultor
asegura que el anlisis de regresin puede controlar por estas diferencias
potenciales entre los dos grupos. Por lo tanto, realiza otra regresin mul-
tivariante que controla por todas las caractersticas del hogar que puede
encontrar en la base de datos, y estima el impacto del programa como se
muestra en el cuadro 3.4.
Cuadro 3.3 Evaluacin del HISP segn comparacin inscritos-no inscritos

(comparacin de medias)
Inscritos No inscritos Diferencia t-estadstico

Gasto en salud de los
hogares (en US$) 7,84 22,30 14,46** 49,08

Cuadro 3.4 Evaluacin del HISP segn comparacin inscritos-no inscritos
(anlisis de regresin)
Regresin lineal Regresin lineal multivariante

Impacto estimado
sobre el gasto en
salud de los hogares 14,46** 9,98**
(en US$) (0,33) (0,29)

Con una simple regresin lineal de los gastos en salud en una variable
indicativa de si un hogar se inscribi o no en el programa, es posible
encontrar un impacto estimado de US$ -14,46, es decir, que el programa
ha disminuido el promedio de gastos de salud en US$14,46. Sin embargo,
cuando se controla por todas las dems caractersticas de los datos, se
estima que el programa ha reducido los gastos en salud en US$ 9,98 al ao.
Pregunta HISP 2
A. Este anlisis controla por todos los factores que determinan las dife-
rencias en gastos en salud entre los dos grupos?
B. Sobre la base de los resultados producidos por el mtodo de inscripcin-
no inscripcin, debera ampliarse el HISP al nivel nacional?
Para material complementario del libro y para otros hipervnculos de recursos,

se recomienda ver el sitio web de la Evaluacin de Impacto en la Prctica
(http://www.worldbank.org/ieinpractice).
Notas
1. Usamos el Modelo Causal de Rubin como marco para la inferencia causal.

2. Esta condicin se relajar en algunos mtodos de evaluacin de impacto que, en
cambio, requerirn que el cambio promedio en los resultados (tendencias) sea el
mismo en ausencia del programa.
3. Se supone que ningn hogar ha dejado la muestra en esos dos aos (hay un
desgaste cero de la muestra). Este no es un supuesto realista en la mayora de las
encuestas de hogares. En la prctica, a veces no se puede hacer un seguimiento de

las familias que se mudan en su nueva localidad, y algunos hogares se rompen o
dejan de existir del todo.
4. Cabe destacar que un t-estadstico (t-stat) de 1,96 o ms (en valor absoluto) es
estadsticamente signicativo en un nivel del 5%.
5. Para ms informacin sobre el anlisis multivariante, vase el manual tcnico en
lnea del sitio web de la Evaluacin de Impacto en la Prctica (www.worldbank
.org/ieinpractice).
6. Otro ejemplo: si los jvenes que esperan beneciarse de un modo considerable
del sistema de formacin tambin tienen ms probabilidades de inscribirse
(tal vez porque esperan tener salarios ms altos con la formacin) compararlos
con un grupo de jvenes que espera menores retornos y que no se inscribe
arrojar una estimacin de impacto sesgada.
Imbens, G. y D. Rubin. 2008. Rubin Causal Model. En: S. N. Durlauf y L. E. Blume

(eds.), The New Palgrave Dictionary of Economics (2da. edicin). Nueva York:
Palgrave.
Rubin, D. 1974. Estimating Causal Effects of Treatments in Randomized and
Non- Randomized Studies. Journal of Educational Psychology 66 (5): 688701.

CAPTULO 4
La asignacin aleatoria
La evaluacin de programas basados en reglas

de asignacin
Despus de analizar dos estimaciones falsicadas del contrafactual que

se utilizan habitualmente, aunque con un alto riesgo de sesgo las compara-
ciones antes-despus y las comparaciones inscritos-no inscritos, a conti-
nuacin se presentar un conjunto de mtodos que se pueden aplicar para
estimar con mayor precisin los impactos de un programa. Sin embargo,
esas estimaciones no siempre son tan fciles como puede parecer a primera
vista. La mayora de los programas se disea y luego se implementa en un
entorno complejo y cambiante, donde diversos factores pueden inuir en
los resultados tanto de los participantes del programa como de aquellos que
no participan. Las sequas, los terremotos, las recesiones, los cambios de
gobierno y los vaivenes de las polticas nacional e internacional forman
parte del mundo real. En una evaluacin, se debe asegurar que la estima-
cin del impacto del programa siga siendo vlida a pesar de esta diversidad
de factores.
Las reglas de un programa para seleccionar a los participantes constitui-
rn el parmetro clave para determinar el mtodo de la evaluacin de
impacto. Creemos que, en la mayora de los casos, los mtodos de evalua-
cin deben intentar adaptarse al contexto de las reglas operativas de un
programa (con unos pocos ajustes por aqu y por all) y no al contrario.
Sin embargo, tambin se parte de la premisa de que todos los programas
71
sociales deben tener reglas de asignacin justas y transparentes. Una de las
reglas ms justas y transparentes para asignar recursos escasos entre pobla-
ciones que los merecen de igual manera consiste en que todos aquellos que
sean elegibles tengan la misma oportunidad de participar en el programa.
Una manera sencilla de conseguirlo es mediante un sorteo.
En este captulo, se analizar un mtodo que se asemeja a un sorteo y que
decide quin participa en un programa en un determinado momento y quin
no: el mtodo de asignacin aleatoria, tambin conocido como ensayo aleato-
rio controlado (RCT, por sus siglas en ingls, randomized control trial). Este
mtodo no solo proporciona a los administradores del programa una regla
imparcial y transparente para asignar recursos escasos entre poblaciones
igualmente merecedoras de ellos, sino que tambin representa el mtodo ms
slido para evaluar el impacto de un programa. Por eso, la aplicacin del
mismo para evaluar los impactos de los programas ha aumentado de manera
considerable en los ltimos aos.
La asignacin aleatoria del tratamiento
Cuando se asigna de forma aleatoria a los beneciarios de un programa es

decir, mediante sorteo entre una poblacin elegible numerosa, se puede
generar una estimacin robusta del contrafactual. La asignacin aleatoria
del tratamiento se considera la regla de oro de la evaluacin de impacto.
Utiliza un proceso aleatorio, o el azar, para decidir a quin se le conceder
acceso al programa y a quin no.1 En la asignacin aleatoria, todas las unida-
des elegibles (por ejemplo, una persona, un hogar, una empresa, un hospital,
una escuela o una comunidad) tienen la misma probabilidad de ser
seleccionadas para un programa.2
Antes de ver cmo se implementa la asignacin aleatoria en la prctica y
por qu genera una estimacin slida del contrafactual, conviene dedicar un
momento a pensar por qu la asignacin aleatoria tambin es una manera
justa y transparente de asignar los escasos recursos de un programa. Una
vez que se ha denido una poblacin objetivo (por ejemplo, hogares por
debajo de la lnea de la pobreza, nios menores de 5 aos o caminos en zonas
rurales en el norte del pas), la asignacin aleatoria es una regla de asigna-
cin justa porque permite que los administradores del programa se asegu-
ren de que todas las unidades elegibles tengan la misma probabilidad de
participar en el programa y de que el programa no sea asignado con criterios
arbitrarios o subjetivos, ni por cuestiones de favoritismo u otras prcticas
injustas. Cuando se produce un exceso de demanda de un programa, la
asignacin aleatoria es una regla que los administradores del mismo pueden
explicar fcilmente, que todas las partes interesadas pueden entender y que
se considera justa en numerosas circunstancias. Adems, cuando el proceso
de asignacin se lleva a cabo de modo abierto y transparente, no es fcil
manipularlo y, por lo tanto, protege a los administradores del programa de
posibles acusaciones de favoritismo o corrupcin. Por lo tanto, como meca-
nismo de asignacin, la asignacin aleatoria tiene sus propios mritos,
que van mucho ms all de su utilidad como instrumento de evaluacin
deimpacto. De hecho, diversos programas utilizan de manera rutinaria los
sorteos como una forma de seleccionar a los participantes del conjunto de
individuos elegibles, sobre todo debido a sus ventajas administrativas y de
gobernanza.3 El recuadro 4.1 presenta dos casos de este tipo en frica.
Recuadro 4.1: La asignacin aleatoria como un valioso instrumen-

to operativo
La asignacin aleatoria puede ser una regla til postulantes a un lugar pblico, y se introducan
para asignar los benecios de un programa, en una caja pequeos trozos de papel con
incluso fuera del contexto de una evaluacin nmeros que iban de 1 a N. Despus, se
de impacto. Los siguientes dos casos de llamaba a los postulantes uno por uno para
frica ilustran por qu. que sacaran un nmero de la caja delante de
En Costa de Marl, despus de un perodo todos los dems participantes. Una vez que
de crisis, el gobierno introdujo un programa se sacaba el nmero, se lea en voz alta.
de empleo temporal inicialmente dirigido a Despus de que se haba llamado a todos los
los ex combatientes, que luego se ampli postulantes, se vericaban uno por uno
a la juventud en trminos ms generales. El los nmeros que quedaban en la caja
programa ofreca a los jvenes oportunidades para cerciorarse de que correspondieran a
de empleo de corto plazo, sobre todo participantes que no haban asistido al sorteo.
limpiando o rehabilitando caminos, a travs Si haba N plazas disponibles en el programa,
de la agencia nacional de vialidad. Se invit se seleccionaba a aquellos postulantes que
a los jvenes en las municipalidades que haban sacado los nmeros ms bajos. El
participaban a que se inscribieran. Dado el proceso de sorteo se organiz por separado
atractivo de los benecios, fueron muchos para hombres y mujeres. Fue bien aceptado
ms los jvenes que postularon que las plazas por los participantes, y contribuy a dar una
disponibles. Para encontrar una manera imagen de imparcialidad y transparencia
transparente y justa de asignar los benecios al programa en un contexto posterior al
entre los postulantes, los administradores del conicto, marcado por tensiones sociales.
programa recurrieron a un proceso de sorteo Despus de varios aos en marcha, los
pblico. Una vez que la inscripcin se cerr y investigadores utilizaron esta regla de
se conoca el nmero de postulantes (por seleccin, ya integrada en el funcionamiento
ejemplo, N) en una localidad, se organizaba del programa, para emprender su evaluacin
un sorteo pblico. Se convocaba a todos los de impacto.
La asignacin aleatoria 73
Recuadro 4.1: La asignacin aleatoria como un valioso instrumento operativo (contina)
En Nger, el gobierno comenz a responsables de los pueblos al centro

implementar en 2011 un proyecto de red de municipal, se escriban los nombres de sus
proteccin nacional, con el apoyo del Banco pueblos en un trozo de papel, y se introducan
Mundial. Nger es uno de los pases ms en una caja. Despus, un nio sacaba al azar
pobres del mundo y la poblacin de hogares los papeles que correspondan a los pueblos
pobres que merecan el programa super por beneciarios hasta que se llenaban las
mucho los benecios disponibles durante los cuotas. El procedimiento se utiliz por
primeros aos de funcionamiento. Los separado para pueblos sedentarios y pueblos
administradores del programa contaban con nmadas a n de asegurar la representacin
un sistema de seleccin geogrca para de cada grupo. (Despus de seleccionar a
denir en qu departamentos y comunas los pueblos, se implement un mecanismo
se implementara primero el programa de de denicin de objetivos a nivel de los
transferencias de efectivo. Esto se poda hogares para identicar a los hogares ms
hacer porque haba datos para determinar la pobres, que posteriormente fueron inscritos
pobreza relativa o el estado de vulnerabilidad como beneciarios.) La transparencia y la
de los diversos departamentos o comunas. imparcialidad del sorteo pblico fueron muy
Sin embargo, dentro de las comunas, haba apreciadas por las autoridades locales y de
muy pocos datos disponibles para evaluar los pueblos, y por los administradores del
qu pueblos eran ms merecedores que programa, de tal manera que el proceso de
otros sobre la base de criterios objetivos. sorteo pblico sigui siendo utilizado en el
As, para la primera fase del proyecto, los segundo y tercer ciclo del proyecto para
administradores del programa decidieron seleccionar ms de 1.000 pueblos en todo
utilizar sorteos pblicos de modo de el pas. Aunque el sorteo pblico no fue
seleccionar a los pueblos beneciarios dentro necesario para realizar una evaluacin de
de las comunas denidas como objetivo. impacto en ese momento, su valor como
Esta decisin se llev a cabo en parte porque instrumento operativo transparente, justo
los datos disponibles para priorizar de manera y ampliamente aceptado para asignar
objetiva a los pueblos eran limitados, y benecios entre poblaciones que los
en parte porque en el proyecto se estaba merecan por igual, justic la continuidad de
incorporando una evaluacin de impacto. En su uso ante los administradores del programa
los sorteos pblicos se invitaba a todos los y las autoridades locales.
Fuentes: Bertrand et al. (2016); Premand, Barry y Smitz (2016).
La asignacin aleatoria a menudo puede derivarse de las reglas operati-

vas de un programa. En numerosos programas, la poblacin de posibles
participantes es decir, el conjunto de individuos que el programa qui-
sieraservir es mayor que el nmero de participantes a los que el programa
se puede realmente dirigir en un determinado momento. Por ejemplo,
en un solo ao un programa educativo puede proporcionar materiales
escolares a500 escuelas de un total de 1.000 escuelas elegibles en el pas.
Ounprograma de mejora de caminos rurales puede tener el objetivo de
pavimentar 250 caminos rurales, aunque haya cientos de caminos ms
queel programa deseara mejorar. O un programa de empleo para jvenes
puede tener la meta de llegar a 2.000 jvenes desempleados en su primer
ao de funcionamiento, aunque haya decenas de miles de jvenes en dichas
circunstancias que el programa quisiera servir. Por diversos motivos, puede
que los programas no logren alcanzar al conjunto de la poblacin de inters.
Las limitaciones presupuestarias pueden impedir que los administradores
ofrezcan el programa a todas las unidades elegibles desde el comienzo.
Aunque haya presupuestos disponibles para cubrir un gran nmero de
participantes, las limitaciones de capacidad a veces impedirn que un pro-
grama pueda ser implementado para todos al mismo tiempo. Por ejemplo,
en el caso del programa de formacin profesional para jvenes, la cantidad
de jvenes desempleados que desean obtener una formacin profesional
puede ser superior al nmero de plazas disponibles en las escuelas tcnicas
durante el primer ao del programa, y eso puede restringir el nmero de
alumnos que pueden matricularse.
Cuando la poblacin de participantes elegibles es superior al nmero de
plazas disponibles en el programa, alguien debe tomar la decisin de quin
participar y quin no. En otras palabras, los administradores del programa
deben denir un mecanismo de seleccin para asignar los servicios del
mismo. El programa podra funcionar segn un principio de orden de
llegada, o basarse en caractersticas observables (por ejemplo, atendiendo
primero las zonas ms pobres); la seleccin tambin podra basarse en
caractersticas no observables (por ejemplo, dejar que los individuos se ins-
criban a partir de sus propias motivaciones y conocimientos), o se podra
recurrir a un sorteo. Incluso en contextos donde es posible clasicar a los
participantes potenciales en funcin de la necesidad, puede que convenga
asignar parte de los benecios mediante un sorteo. Por ejemplo, pinsese en
un programa que tiene como objetivo al 20% ms pobre de los hogares sobre
la base de una medida del ingreso. Si el ingreso solo se puede medir de forma
imperfecta, el programa podra usar esta medida para incluir a todos los
participantes potenciales que se identican como de extrema pobreza
(por ejemplo, el 15% inferior). Sin embargo, dado que el ingreso se mide de
manera imperfecta, los hogares que se encuentren justo por debajo del
umbral de elegibilidad en el percentil 20, en la realidad pueden ser elegi-
bles o no serlo (si se pudiera medir el verdadero ingreso), mientras que los
hogares que se hallen justo por encima del percentil 20 tambin pueden ser
elegibles o no. En este contexto, utilizar un sorteo para determinar qu
hogares seran beneciarios en torno al percentil 20 (por ejemplo, entre los
percentiles 15 y 25 de la distribucin del ingreso) podra ser una manera
justa de asignar los benecios en este grupo de hogares.
Por qu la asignacin aleatoria produce una excelente
estimacin del contrafactual?
Como ya se ha visto, el grupo de comparacin ideal sera lo ms similar

posible al grupo de tratamiento en todos los sentidos, excepto con respecto
a su participacin en el programa que se evala. Cuando se asignan unida-
des de manera aleatoria a los grupos de tratamiento y de comparacin,
ese proceso de asignacin aleatoria producir dos grupos que tienen una
alta probabilidad de ser estadsticamente idnticos, siempre que el nmero
de unidades potenciales a las que se aplica el proceso de asignacin aleatoria
sea sucientemente grande. Concretamente, con un gran nmero de unida-
des el proceso de asignacin aleatoria producir grupos que tienen prome-
dios estadsticamente equivalentes en todas sus caractersticas.4
Concepto clave El grco 4.1 ilustra por qu la asignacin aleatoria produce un grupo
En la asignacin de comparacin estadsticamente equivalente al grupo de tratamiento.
aleatoria, cada unidad
Supngase que la poblacin de unidades elegibles (el conjunto de partici-
elegible tiene la
misma probabilidad de pantes potenciales, o la poblacin de inters para la evaluacin) consiste en
ser seleccionada para ms de 1.000 personas. Entonces, se asigna aleatoriamente la mitad al grupo
el tratamiento, de de tratamiento y la otra mitad al grupo de comparacin. Por ejemplo, se
modo que se asegura escriben los nombres de las 1.000 personas en trozos de papel individuales,
la equivalencia entre
se mezclan todos los trozos en una caja, y luego se le pide a alguien que
los grupos de
tratamiento y
extraiga a ciegas 500 nombres. Si los primeros 500 nombres constituyen el
comparacin tanto en grupo de tratamiento, entonces tendramos un grupo de tratamiento asig-
las caractersticas nado de forma aleatoria (los primeros 500 nmeros extrados) y un grupo
observables como en de comparacin asignado tambin de manera aleatoria (los 500 nombres
las no observables. que quedaron en la caja).
Ahora supngase que el 40% de las 1.000 personas originales eran mujeres.
Dado que los nombres se han asignado al azar, de los 500 nombres que
Grco 4.1 Caractersticas de los grupos bajo tratamiento con

asignacin aleatoria
Poblacin de unidades elegibles
La asignacin aleatoria La asignacin aleatoria

conserva las caractersticas conserva las caractersticas
Grupo de tratamiento: Grupo de comparacin:

asignado al tratamiento no asignado al tratamiento

sesacaron de la caja, alrededor del 40% sern tambin mujeres. Si entre las
1.000 personas, el 20% tena los ojos azules, entonces casi el 20% de ellas en
los grupos de tratamiento y de comparacin tambin deberan tener los ojos
azules. En general, si la poblacin de unidades elegibles es lo sucientemente
grande, el mecanismo de asignacin aleatoria asegura que cualquier caracte-
rstica de la poblacin se transera tanto al grupo de tratamiento como al
grupo de comparacin. Del mismo modo que las caractersticas observables,
como el sexo o el color de los ojos de un individuo, se transeren tanto al
grupo de tratamiento como al de comparacin, es lgico pensar que las carac-
tersticas que son ms difciles de observar (variables no observables), como
la motivacin, las preferencias u otros rasgos de la personalidad que son
complejos de medir, tambin se aplicarn por igual al grupo de tratamiento y
al de comparacin. As, los grupos de tratamiento y comparacin generados
a travs de la asignacin aleatoria sern similares no solo en cuanto a sus
caractersticas observables sino tambin en relacin con las no observables.
Tener dos grupos similares en todos los aspectos asegura que la estimacin
del contrafactual se aproxime al valor verdadero del resultado en ausencia de
tratamiento, y que una vez que el programa se haya implementado, las esti-
maciones de impacto no sufrirn un sesgo de seleccin.
Cuando una evaluacin utiliza la asignacin aleatoria para generar los
grupos de tratamiento y de comparacin, en teora, el proceso debera pro-
ducir dos grupos equivalentes, siempre que se cuente con un nmero de
unidades lo sucientemente grande. Con los datos de lnea de base de la
muestra de evaluacin con la que se cuente, se podr comprobar emprica-
mente este supuesto y vericar que, de hecho, no hay diferencias sistem-
ticas en las caractersticas observables entre los grupos de tratamiento y
de comparacin antes del inicio del programa. Luego, si despus de lanzar
el programa se observan diferencias en los resultados entre los grupos de
tratamiento y comparacin, sabremos que esas diferencias se deben nica-
mente a la incidencia del programa, dado que los dos grupos eran idnticos
en la lnea de base, antes del inicio del programa, y que estn expuestos a
los mismos factores externos a lo largo del tiempo. En este sentido, el
grupo de comparacin contiene todos los factores que tambin pueden
explicar el resultado de inters.
Para estimar el impacto de un programa bajo la asignacin aleatoria, se
debe observar la diferencia entre el resultado bajo tratamiento (el resul-
tado medio del grupo de tratamiento asignado de forma aleatoria) y nues-
tra estimacin del contrafactual (el resultado medio del grupo de
comparacin asignado de manera aleatoria). As, podemos conar en que
nuestro impacto estimado constituye el verdadero impacto del programa,
puesto que se han eliminado todos los factores observados y no observados
que, de otra manera, podran explicar la diferencia en los resultados.
Enlosrecuadros 4.2 a 4.6, se analizan las aplicaciones de la asignacin alea-
toria en el mundo real para evaluar el impacto de diversas intervenciones
en todo el mundo.
En el grco 4.1 se presupone que todas las unidades de la poblacin ele-
gible sern asignadas ya sea al grupo de tratamiento o al grupo de compara-
cin. Sin embargo, en algunos casos no es necesario incluir todas las unidades
en la evaluacin. Por ejemplo, si la poblacin de unidades elegibles es de
1milln de madres y se quiere evaluar la efectividad de los bonos en efectivo
en la probabilidad de que estas madres vacunen a sus hijos, bastar con
seleccionar una muestra aleatoria representativa de, por ejemplo, 1.000
madres y asignar a esas 1.000 madres ya sea al grupo de tratamiento o de
comparacin. El grco 4.2 ilustra este proceso. Segn la misma lgica que
Recuadro 4.2: La asignacin aleatoria como regla de seleccin de

un programa: las transferencias condicionadas y la educacin en
Mxico
El programa Progresa, actualmente primeros aos, y las otras 181 sirvieron como
denominado Prospera, proporciona grupo de comparacin antes de incorporarse
transferencias en efectivo a las madres al programa en el tercer ao.
pobres de zonas rurales de Mxico con la Sobre la base de la asignacin aleatoria,
condicin de que matriculen a sus hijos en la Schultz (2004) encontr un aumento
escuela y acudan regularmente a chequeos promedio de un 3,4% en la inscripcin de
de salud (vase el recuadro 1.1 en el captulo 1). todos los alumnos de primero a octavo
Las transferencias en efectivo para nios de grados, y el mayor incremento, de un 14,8%,a
entre tercero y noveno grado equivalen a se observ entre las nias que haban
alrededor del 50% al 75% del costo privado terminado sexto grado. El probable motivo
de la escolarizacin y estn garantizadas de este ltimo resultado es que la tasa de
durante tres aos. Las comunidades y nias que tienden a abandonar la escuela
los hogares elegibles para el programa se crece a medida que estas son mayores; por
determinaron sobre la base del ndice de ello, con el n de que permanecieran en la
pobreza creado a partir de los datos del censo escuela despus de los cursos de primaria,
y de la recopilacin de datos bsicos. Debido las nias recibieron una transferencia
a la necesidad de desplegar en fases el ligeramente superior. Estos impactos de
programa social de gran escala, cerca de las corto plazo luego fueron extrapolados para
dos terceras partes de las localidades (314 predecir el impacto a ms largo plazo del
de 495) fueron asignadas aleatoriamente para programa Progresa en la escolarizacin y en
ser beneciarias del programa en los dos los ingresos a lo largo de la vida.
Fuente: Schultz (2004).

a. Para ser precisos, Schultz combin la asignacin aleatoria con el mtodo de diferencias en diferencias que se
analiza en el captulo 7.

Recuadro 4.3: Asignacin aleatoria de donaciones para mejorar
las perspectivas de empleo juvenil en el norte de Uganda
En 2005 el gobierno de Uganda comenz un podan nanciar. Despus de una seleccin,
programa destinado a disminuir el desempleo el gobierno elabor una lista de 535
juvenil y a promover la estabilidad social en propuestas elegibles para el programa.
el norte del pas, sacudido por conictos. El Posteriormente, las propuestas fueron asig-
Programa de Oportunidades para los Jvenes nadas de manera aleatoria a grupos de trata-
invit a grupos de jvenes adultos a presentar miento (265 propuestas) o de comparacin
propuestas de ayuda para actividades (270 propuestas).
empresariales y formacin profesional. Se El monto de la ayuda en el grupo de trata-
presentaron miles de propuestas, pero el miento ascenda a un promedio de US$382
gobierno solo poda nanciar unas cuantas por persona. Cuatro aos despus del desem-
centenas. bolso, los jvenes del grupo de tratamiento
Aprovechando la alta demanda del pro- tenan ms del doble de probabilidades de
grama, los evaluadores trabajaron con el trabajar en un ocio calicado que los jvenes
gobierno para asignar de forma aleatoria del grupo de comparacin. Tambin ganaban
cules seran los grupos que recibiran nan- un 38% ms y ostentaban un 57% ms de
ciamiento. El gobierno central pidi a los stock de capital. Sin embargo, los investigado-
gobiernos de los distritos que presentaran res no encontraron impacto alguno en la cohe-
ms del doble de propuestas de las que sin social ni en las conductas antisociales.
Fuente: Blattman, Fiala y Martnez (2014).
Recuadro 4.4: Asignacin aleatoria de intervenciones en abasteci-

miento de agua y saneamiento en zonas rurales de Bolivia
A partir de 2012, el gobierno boliviano, con para dar a cada comunidad elegible la misma
apoyo del Banco Interamericano de Desarrollo probabilidad de participar. Junto con los
(BID), implement una asignacin aleatoria de gobiernos municipales, los administradores
intervenciones en materia de abastecimiento del programa organizaron una serie de
de agua y saneamiento en pequeas eventos donde celebraron sorteos pblicos
comunidades rurales. En los 24 municipios ante la presencia de dirigentes comunitarios,
del pas con las mayores necesidades, el la prensa y la sociedad civil.
programa identic ms de 369 comunidades Primero, se dividieron las comunidades
elegibles para la intervencin. Dado que solo segn el tamao de la poblacin. Luego,
haba recursos para cubrir 182 comunidades, dentro de cada grupo, se obtuvieron al azar
el programa utiliz la asignacin aleatoria los nombres de las comunidades y se
Recuadro 4.4: Asignacin aleatoria de intervenciones en abastecimiento de agua y saneamiento en
zonas rurales de Bolivia (contina)
registraron en una lista. Las comunidades misma lista ordenada de forma aleatoria
que quedaron al comienzo de la lista se para asignar un futuro nanciamiento
asignaron al grupo de tratamiento. Cada despus de completar la evaluacin. De
concurso fue monitoreado por un notario esta manera, ninguna comunidad quedara
pblico independiente, que posteriormente marginada de la intervencin debido
registr y certic los resultados, lo que nicamente a los objetivos de la evaluacin,
concedi un nivel adicional de legitimidad al pero existira un grupo de comparacin
proceso. En el caso de las comunidades que mientras las limitaciones presupuestarias
quedaron fuera del programa, los gobiernos restringieran el nmero de proyectos en
municipales se comprometieron a utilizar la cada municipalidad.
Fuente: Proyecto Banco Interamericano de Desarrollo N BO-L1065, vase http://www.iadb.org/en/projects

/project-description-title,1303.html?id=BO-L1065.
Nota: Vase el sorteo pblico para asignaciones aleatorias en https://vimeo.com/86744573.
Recuadro 4.5: Asignacin aleatoria de proteccin del agua de

pozos para mejorar la salud en Kenia
El vnculo entre calidad del agua e impactos la contaminacin. A partir de 2005, la ONG
en la salud en los pases en desarrollo ha sido International Child Support (ICS), implement
bien documentado. Sin embargo, el valor un programa de proteccin de pozos en dos
sanitario de mejorar la infraestructura cerca distritos de Kenia occidental. Debido a limita-
de las fuentes de agua es menos evidente. ciones nancieras y administrativas, ICS deci-
Kremer et al. (2011) midieron los efectos de di ampliar el programa a lo largo de cuatro
un programa que proporcionaba tecnologa aos. Esto les permiti a los evaluadores utili-
de proteccin de pozos para mejorar la zar los pozos que todava no haban recibido
calidad del agua en Kenia, asignando tratamiento como grupo de comparacin.
aleatoriamente los pozos receptores del De los 200 pozos elegibles, 100 fueron
tratamiento. asignados al azar para recibir el tratamiento en
Alrededor del 43% de los hogares de las los primeros dos aos. El estudio observ
zonas rurales de Kenia occidental obtienen que la proteccin de los pozos redujo la con-
el agua potable de pozos naturales. La taminacin fecal del agua en un 66% y la dia-
tecnologa de proteccin de fuentes de agua rrea infantil entre los usuarios de los pozos
asla la fuente de un pozo para disminuir en un 25%.
Fuente: Kremer et al. (2011).

Recuadro 4.6: Asignacin aleatoria e informacin a propsito de
los riesgos del VIH para reducir el embarazo adolescente en Kenia
En un experimento aleatorio que se realiz para que recibieran el primer tratamiento.
en Kenia occidental, Dupas (2011) prob la Despus, se asignaron de manera aleatoria
efectividad de dos diferentes tratamientos 71 escuelas al segundo tratamiento
de educacin sobre el VIH/Sida para reducir estraticando la muestra por su participacin
conductas sexuales no seguras entre los en el primer tratamiento. Esto produjo cuatro
adolescentes. El primer tratamiento consisti grupos de escuelas: las escuelas que reciban
en la formacin de profesores en el programa el primer tratamiento, las que reciban el
nacional de estudios sobre VIH/Sida, que se segundo, las que reciban ambos y las que no
centr en la aversin al riesgo y que promova reciban ninguno.
la abstinencia. El segundo tratamiento, la La asignacin aleatoria de las escuelas
Campaa de informacin sobre el riesgo garantizaba que no habra diferencias siste-
relativo, tena como objetivo reducir las mticas en la informacin a la que estaban
relaciones sexuales entre hombres mayores expuestos los alumnos antes de que comen-
y chicas jvenes proporcionando informacin zara el programa. Un ao despus de la ter-
sobre las tasas de VIH desagregadas por minacin del programa, Dupas observ que
edad y sexo. la campaa de informacin sobre el riesgo
El estudio se llev a cabo en dos distritos relativo produjo una disminucin del 28% en
rurales de Kenia, con una muestra de la probabilidad de que una joven quedara
328 escuelas primarias. Los investigadores embarazada. En cambio, las escuelas que
asignaron de forma aleatoria 163 escuelas solo haban sido destinatarias del primer
estraticadas por localidad, puntuacin de tratamiento no mostraron efecto alguno en
las pruebas y proporcin alumnos/sexo, el embarazo adolescente.
Fuente: Dupas (2011).
Grco 4.2 Muestra aleatoria y asignacin aleatoria de tratamiento
Poblacin de unidades elegibles
Validez
La seleccin aleatoria
externa
conserva las caractersticas
Muestra de evaluacin
La asignacin aleatoria La asignacin aleatoria

conserva las caractersticas conserva las caractersticas
Validez
interna
Grupo de tratamiento: Grupo de comparacin:
asignado al tratamiento no asignado al tratamiento
se detall ms arriba, la seleccin de una muestra aleatoria de la poblacin
de unidades elegibles para formar la muestra de evaluacin conserva las
caractersticas de la poblacin de las unidades elegibles. Dentro de la mues-
tra, la asignacin aleatoria de individuos a los grupos de tratamiento y
comparacin tambin conserva dichas caractersticas. En el captulo 15 se
abordarn otros aspectos del muestreo.
Validez externa e interna
Los pasos de la seleccin aleatoria del tratamiento, que ya se han detallado,

aseguran tanto la validez interna como externa de las evaluaciones de
impacto (grco 4.2).
Validez interna signica que el impacto estimado del programa es el
impacto libre de todos los dems factores de confusin potenciales (o, en
otras palabras, que el grupo de comparacin represente una estimacin
precisa del contrafactual de modo que se estime el verdadero impacto del
programa). Hay que recordar que la asignacin aleatoria produce un grupo
de comparacin que es estadsticamente equivalente al grupo de trata-
Concepto clave miento en la lnea de base, antes de que empiece el programa. Una vez que
Una evaluacin tiene el programa comienza, el grupo de comparacin est expuesto al mismo
validez interna si conjunto de factores externos que el grupo de tratamiento a lo largo del
proporciona una tiempo, con la nica excepcin del propio programa. Por lo tanto, si aparece
estimacin precisa del cualquier diferencia en los resultados entre los grupos de tratamiento y
contrafactual mediante de comparacin, solo puede deberse a la existencia del programa en el
un grupo de
comparacin vlido.
grupo de tratamiento. La validez interna de una evaluacin de impacto se
asegura a travs del proceso de asignacin aleatoria del tratamiento.
Validez externa quiere decir que la muestra de la evaluacin representa
Concepto clave con precisin a la poblacin de unidades elegibles. Los resultados de la eva-
Una evaluacin tiene luacin se pueden entonces generalizar a la poblacin de unidades elegibles.
validez externa si la Se utiliza el muestreo aleatorio para asegurar que la muestra de la evaluacin
muestra de evaluacin
representa con
reeje adecuadamente la poblacin de unidades elegibles, de modo que los
precisin a la impactos identicados en la muestra de la evaluacin pueden extrapolarse a
poblacin de unidades la poblacin.
elegibles. Los Ntese que se ha realizado un proceso de seleccin aleatoria con dos
resultados pueden objetivos diferentes: seleccin aleatoria de una muestra (para la validez
luego generalizarse al
externa), y asignacin aleatoria del tratamiento como mtodo de evaluacin
conjunto de la
poblacin de unidades de impacto (para la validez interna). Una evaluacin de impacto puede pro-
elegibles. ducir estimaciones internamente vlidas del impacto mediante una asigna-
cin aleatoria del tratamiento; sin embargo, si la evaluacin se lleva a cabo
con una muestra no aleatoria de la poblacin, puede que los impactos esti-
mados no sean generalizables para el conjunto de unidades elegibles.
Alcontrario, si la evaluacin utiliza una muestra aleatoria de la poblacin de
unidades elegibles, pero el tratamiento no se asigna de manera aleatoria, la
muestra sera representativa pero el grupo de comparacin puede no ser
vlido, lo cual pone en entredicho la validez interna. En algunos contextos,
puede que los programas se enfrenten a limitaciones que exigen un equilibrio
entre validez interna y externa. Este es el caso, por ejemplo, del programa
analizado anteriormente, que tiene como objetivo el 20% inferior de los
hogares sobre la base del ingreso. Si este programa incorpora a todos los
hogares por debajo del percentil 15, pero lleva a cabo una evaluacin de
impacto de asignacin aleatoria entre una muestra aleatoria de hogares
entre los percentiles 15 a 25, dicha evaluacin tendr validez interna gra-
cias a la asignacin aleatoria: es decir, se conocer el verdadero impacto en
el subconjunto de hogares entre los percentiles 15 y 25. Sin embargo, la
validez externa de la evaluacin de impacto ser limitada, dado que los
resultados no pueden extrapolarse directamente al conjunto de la poblacin
de beneciarios, en particular, a los hogares que se encuentren por debajo
del percentil 15.
Cundo puede aplicarse la asignacin aleatoria?
La asignacin aleatoria puede utilizarse como regla de asignacin de un

programa en dos escenarios especcos:
1. Cuando la poblacin elegible es mayor que el nmero de plazas disponibles
del programa. Cuando la demanda de un programa supera a la oferta, se
puede utilizar un sorteo para seleccionar el grupo de tratamiento dentro
de la poblacin elegible. En este contexto, todas las unidades de la pobla-
cin tienen la misma probabilidad (o una probabilidad conocida superior
a 0 e inferior a 1) de ser seleccionadas para el programa. El grupo que
gana el sorteo es el grupo de tratamiento y el resto de la poblacin a la
queno se ha ofrecido el programa es el grupo de comparacin. Siempre
que exista una limitacin que impida ampliar la escala del programa a
toda la poblacin, se pueden mantener los grupos de comparacin para
medir los impactos del programa a corto, mediano y largo plazo. En este
contexto, no hay un dilema tico en mantener indenidamente un grupo
de comparacin, ya que un subgrupo de la poblacin quedar necesaria-
mente excluido del programa debido a problemas de capacidad.
Por ejemplo, el ministerio de Educacin desea equipar con bibliotecas a
las escuelas pblicas de todo el pas, pero el ministerio de Finanzas solo
asigna un presupuesto suciente para cubrir una tercera parte de
lasbibliotecas. Si el ministerio de Educacin quiere que todas las escue-
las pblicas tengan las mismas posibilidades de tener una biblioteca,
organizar un sorteo en el que cada escuela tenga la misma probabilidad
(1 en 3) de resultar seleccionada. Las escuelas elegidas en el sorteo
reciben una nueva biblioteca y constituyen el grupo de tratamiento, y a
los otros dos tercios de las escuelas pblicas del pas no se les ofrece la
biblioteca y se convierten en el grupo de comparacin. A menos que se
asignen ms fondos al programa de bibliotecas, seguir habiendo un
grupo de escuelas que no recibir nanciamiento para una biblioteca a
travs del programa, y podr usarse como grupo de comparacin para
medir el contrafactual.
2. Cuando sea necesario ampliar un programa de manera progresiva hasta que
cubra a toda la poblacin elegible. Cuando un programa se extiende por
etapas, establecer de forma aleatoria el orden en el que los participantes se
benecian del mismo ofrece a cada unidad elegible la misma posibilidad
de recibir tratamiento en la primera fase o en una fase posterior. Siempre
que no se haya sumado todava el ltimo grupo al programa, este sirve
como grupo de comparacin vlido a partir del cual se podr estimar el
contrafactual para los que ya se han incorporado. Esta conguracin tam-
bin puede permitir que la evaluacin recoja los efectos de una exposicin
diferencial al tratamiento, es decir, el efecto de recibir un programa durante
un perodo ms o menos prolongado.
Por ejemplo, supngase que el ministro de Salud quiere capacitar a los
15.000 profesionales de enfermera de todo el pas en el uso de un nuevo
protocolo sanitario, pero necesita tres aos para capacitarlos a todos. En el
contexto de una evaluacin de impacto, el ministro podra seleccionar de
manera aleatoria a un tercio de las enfermeras para que reciban capacita-
cin durante el primer ao, un tercio para el segundo ao y un tercio para
el tercer ao. Para evaluar el efecto de un programa de capacitacin un
ao despus de su implementacin, el grupo de enfermeras capacitadas
durante el primer ao constituir el grupo de tratamiento y el grupo de
enfermeras seleccionadas de modo aleatorio para recibir capacitacin
durante el tercer ao sera el grupo de comparacin, ya que todava no se
habrn expuesto al aprendizaje.
Cmo asignar aleatoriamente el tratamiento
Despus de haber analizado cmo funciona la asignacin aleatoria y por qu

produce un buen grupo de comparacin, se abordarn los pasos para asignar
con xito el tratamiento de manera aleatoria. El grco 4.3 ilustra este
proceso.
El primer paso de la asignacin aleatoria consiste en denir las unidades
elegibles para el programa. Cabe recordar que, dependiendo del programa
concreto, una unidad podra ser una persona, un centro de salud, una
Grco 4.3 Pasos para la asignacin aleatoria del tratamiento
1. Definir las unidades 2. Seleccionar la muestra 3. Asignar aleatoriamente al

elegibles de evaluacin tratamiento
Comparacin
Tratamiento
Validez externa Validez interna
No elegible Elegible
escuela, una empresa o incluso todo un pueblo o una municipalidad. La

poblacin de unidades elegibles est compuesta por aquellos para los cuales
interesa conocer el impacto de un programa. Por ejemplo, si se est imple-
mentando un programa de formacin para los maestros de escuela primaria
en zonas rurales, los maestros de escuela primaria de zonas urbanas o los
profesores de secundaria no formaran parte del conjunto de unidades
elegibles.
Una vez que se ha determinado la poblacin de unidades elegibles, habr
que comparar el tamao del grupo con el nmero de observaciones requeri-
das para la evaluacin. El tamao de la muestra de la evaluacin se establece
mediante clculos de la potencia y se basa en el tipo de preguntas a las que el
evaluador deseara que se respondiera (ver captulo 15). Si la poblacin elegi-
ble es pequea, quizs haya que incluir todas las unidades elegibles en la eva-
luacin. Por el contrario, si hay ms unidades elegibles de las que se requiere
para la evaluacin, entonces el segundo paso consiste en seleccionar una
muestra de unidades a partir de la poblacin que se incluir en la muestra
deevaluacin.
Este segundo paso responde sobre todo a la necesidad de limitar los
costos de la recopilacin de datos. Si se observa que los datos de los sistemas
de monitoreo existentes se pueden usar para la evaluacin, y que esos
sistemas abarcan al conjunto de unidades elegibles, tal vez no sea necesario
elaborar una muestra distinta de la evaluacin. Sin embargo, imagnese una
evaluacin en la que la poblacin de unidades elegibles comprende decenas
de miles de maestros de todas las escuelas del pas, y que se necesita recopilar
informacin detallada sobre los conocimientos y las prcticas pedaggicas
de los maestros. Entrevistar y evaluar a todos los docentes del pas sera pro-
hibitivamente oneroso e inviable en trminos logsticos. A partir de los cl-
culos de potencia, puede que el evaluador decida que, para responder a su
pregunta de inters, es suciente contar con una muestra de 1.000 maestros
distribuidos en 200 escuelas. Siempre que la muestra de docentes sea repre-
sentativa del conjunto de la poblacin de maestros, cualquier resultado de la
evaluacin ser externamente vlido y se puede generalizar al resto de los
docentes del pas. La recopilacin de datos sobre esta muestra de 1.000
maestros en 200 escuelas ser mucho menos costosa que recolectar datos
sobre todos los docentes de todas las escuelas del pas.
El tercer paso consiste en congurar los grupos de tratamiento y de
comparacin a partir de las unidades de la muestra de la evaluacin, mediante
la asignacin aleatoria. En los casos en que la asignacin aleatoria tenga que
llevarse a cabo en un foro pblico, por ejemplo en la televisin, puede que sea
necesario utilizar una tcnica sencilla, como lanzar una moneda a la suerte
o sacar los nombres de una caja. Los siguientes ejemplos suponen que la
unidad de aleatorizacin es una persona individual, aunque la misma lgica
se aplica a la aleatorizacin de ms unidades agregadas de observacin,
como escuelas, rmas o comunidades:
1. Si se quiere asignar el 50% de los individuos al grupo de tratamiento y

50% al grupo de comparacin, hay que lanzar la moneda para cada per-
sona. Hay que decidir con antelacin cul cara de la moneda asignar una
persona al grupo de tratamiento.
2. Si se quiere asignar una tercera parte de la muestra de la evaluacin al
grupo de tratamiento, se puede tirar un dado para cada persona. Antes, hay
que decidir una regla, por ejemplo, si el dado muestra 1 o 2, el individuo
ser asignado al grupo de tratamiento, mientras que si arroja un 3, 4, 5 o 6
el individuo ser derivado al grupo de comparacin. El dado se tirara una
vez para cada persona en la muestra de evaluacin, y se la asignara sobre
la base del nmero del dado.
3. Escribir los nombres de todos los individuos en trozos de papel de igual
tamao y forma. Plegar los papeles de modo que no se puedan leer los
nombres y mezclarlos de manera conveniente en una caja o en algn otro
recipiente. Antes de empezar a sacar los nombres, debe decidirse la regla,

es decir, cuntos trozos de papel se extraern, y que extraer un nombre
signica asignar a esa persona al grupo de tratamiento. Una vez que la
regla est clara, se debe solicitar a alguien del pblico (una persona
imparcial, como un nio) que extraiga tantos trozos de papel como parti-
cipantes se requiera en el grupo de tratamiento.
Si tienen que asignarse muchas unidades (por ejemplo, ms de 100), utilizar
enfoques sencillos como los descritos requerir demasiado tiempo y habr
que utilizar un proceso automatizado. Para ello, primero habr que decidir
una regla de modo que se asignen los participantes sobre la base de nme-
ros aleatorios. Por ejemplo, si se deben asignar 40 de 100 unidades dela
muestra de evaluacin al grupo de tratamiento, puede decidirse asignar
esas 40 unidades con los nmeros aleatorios ms altos al grupo detrata-
miento y el resto al grupo de comparacin. Para implementar la asignacin
aleatoria, se asignar un nmero al azar a cada unidad en la muestra de
evaluacin, utilizando un generador aleatorio de nmeros en una hoja de
clculo, o en un programa estadstico especializado (grco 4.4), y se utili-
zar la regla ya denida para formar los grupos de tratamiento y compara-
cin. Esimportante decidir la regla antes de generar los nmeros al azar.
Grco 4.4 Asignacin aleatoria del tratamiento mediante hoja de clculo
Deotramanera, puede que el evaluador se vea tentado de usar una regla
basada en los nmeros aleatorios que ve, lo que invalidara la asignacin
aleatoria.
La lgica en que se fundamenta el proceso automatizado no es diferente
de la asignacin aleatoria basada en lanzar una moneda o extraer nombres
de un sombrero. Se trata de un mecanismo que asigna al azar si cada unidad
pertenece al grupo de tratamiento o de comparacin.
Al utilizar un sorteo pblico, dados o nmeros al azar generados por
computador, es importante documentar el proceso para asegurar que sea
transparente. En primer lugar, eso signica que la regla de asignacin debe
decidirse con antelacin y comunicarse al pblico. En segundo lugar, el eva-
luador debe ceirse a la regla una vez que se extraen los nmeros al azar. En
tercer lugar, debe demostrarse que el proceso era realmente aleatorio. En el
caso de los sorteos y el lanzamiento de dados, se puede grabar el proceso en
video; la asignacin mediante nmeros al azar generados por computador
requiere que se presente un registro de los cmputos, de modo que el pro-
ceso pueda ser auditado.5
A qu nivel se lleva a cabo una asignacin aleatoria?
La asignacin aleatoria puede llevarse a cabo en diversos niveles: indivi-

dual, hogares, empresas, comunidades o regiones. En general, el nivel en el
que se asignan aleatoriamente las unidades a los grupos de tratamiento y de
comparacin depender en gran medida de dnde y cmo se implemente el
programa. Por ejemplo, si se aplica un programa sanitario a nivel de las
clnicas de salud, primero se elegir una muestra aleatoria de dichas clnicas
y despus se asignar algunas de ellas al grupo de tratamiento y otras al
grupo de comparacin.
Cuando el nivel de asignacin aleatoria es superior o ms agregado, como
el nivel regional o provincial, puede resultar difcil realizar una evaluacin
de impacto, porque el nmero de regiones o provincias en la mayora de los
pases no es sucientemente grande para obtener grupos equilibrados de
tratamiento y de comparacin. Si un pas tiene nicamente seis provincias,
solo podr haber tres de ellas en el grupo de tratamiento y tres en el grupo
de comparacin, lo cual es insuciente para asegurar que las caractersticas
de referencia de los grupos de tratamiento y comparacin estn equilibra-
das. Adems, para que la asignacin aleatoria genere estimaciones de
impacto no sesgadas, es importante garantizar que los factores externos
dependientes del tiempo (como el clima o los ciclos de las elecciones locales)
sean en promedio los mismos en los grupos de comparacin y de trata-
miento. A medida que el nivel de asignacin aumenta, se vuelve cada vez
ms improbable que estos factores estn equilibrados entre ambos grupos.
Por ejemplo, la lluvia es un factor externo dependiente del tiempo porque
vara sistemticamente de un ao al siguiente. En una evaluacin del sector
agrcola, convendra asegurarse de que las sequas afecten por igual a las
provincias que se encuentran en el grupo de tratamiento y en el de compa-
racin. Con solo tres provincias en los grupos de tratamiento y comparacin,
este equilibrio podra perderse con facilidad. Por otro lado, si se rebajara la
unidad de seleccin al nivel subprovincial, como una municipalidad, es ms
probable que la lluvia est equilibrada entre los grupos de tratamiento y
comparacin a lo largo del tiempo.
Asimismo, a medida que el nivel de la asignacin aleatoria disminuye
por ejemplo, a nivel individual o del hogar aumentan las probabilidades
deque el grupo de comparacin se vea afectado de forma involuntaria por
el programa. Hay dos tipos particulares de riesgos que se deben tener en
cuenta cuando se escoge el nivel de asignacin, a saber: los efectos de
derrame y el cumplimiento imperfecto. El efecto de derrame se produce
cuando el grupo de tratamiento inuye de forma directa o indirecta en los
resultados del grupo de comparacin (o viceversa). Por su parte, el cumpli-
miento imperfecto tiene lugar cuando algunos miembros del grupo de
comparacin participan en el programa o algunos miembros del grupo
detratamiento no lo hacen (vase un anlisis ms detallado de estos con-
ceptos en el captulo 9).
Tener en cuenta el nivel de asignacin aleatoria de manera rigurosa
puede minimizar el riesgo de derrame y de cumplimiento imperfecto. Las
personas pueden asignarse a grupos o agrupaciones, como los alumnos de
una escuela o los hogares en una comunidad, para minimizar los ujos de
informacin y los contactos entre individuos en los grupos de tratamiento
y comparacin. Para reducir la contaminacin, el nivel de asignacin
tambin debera escogerse segn la capacidad del programa para mantener
una clara diferencia entre grupos de tratamiento y comparacin a lo largo
de la intervencin. Si el programa comprende actividades a nivel comuni-
tario, puede que sea difcil evitar exponer a todos los individuos de esa
comunidad al programa.
Un ejemplo bien conocido de efecto de derrame es la administracin de
medicamentos antiparasitarios a los nios. Si en el grupo de tratamiento
hay hogares situados cerca de un hogar del grupo de comparacin, los
nios de los hogares de comparacin pueden verse afectados positivamente
por un efecto de derrame del grupo de tratamiento, porque se reducirn sus
probabilidades de contraer parsitos procedentes de sus vecinos (Kremer y
Miguel, 2004). Para aislar el impacto del programa, los hogares de trata-
miento y comparacin deben estar situados sucientemente lejos unos de
otros de modo de evitar ese tipo de derrames. Sin embargo, a medida que la
distancia entre los hogares aumente, se volver ms oneroso implementar
el programa y, a la vez, administrar las encuestas. Como regla general, si se
pueden descartar los efectos de derrame de forma razonable, es preferible
llevar a cabo una asignacin aleatoria del tratamiento en el nivel ms
bajo posible de implementacin del programa, lo cual garantizar que el
nmero de unidades de los grupos de tratamiento y comparacin sea el
mayor posible.
La estimacin del impacto bajo asignacin aleatoria
Una vez que se haya seleccionado una muestra de evaluacin aleatoria y

asignado el tratamiento de manera aleatoria, es bastante sencillo estimar el
impacto del programa. Despus de que el programa ha funcionado durante
un tiempo, tendrn que medirse los resultados de las unidades de trata-
miento y de comparacin. El impacto del programa es sencillamente la dife-
rencia entre el resultado promedio (Y) para el grupo de tratamiento y
elresultado promedio (Y) para el grupo de comparacin. Por ejemplo, en
el caso genrico que se presenta en el grco 4.5, el resultado promedio
del grupo de tratamiento es 100, y el resultado promedio del grupo de
comparacin es 80, por lo que el impacto del programa equivale a 20. Por
ahora, se supondr que todas las unidades en el grupo de tratamiento son
efectivamente tratadas y que ninguna unidad del grupo de comparacin es
tratada. En el ejemplo del programa de formacin de los profesores, todos
los profesores asignados al grupo de tratamiento reciben la formacin y nin-
guno de los profesores del grupo de comparacin la recibe. En el captulo 5,
se analiza el escenario (ms realista) donde el cumplimiento es incompleto,
es decir, donde menos del 100% de las unidades en el grupo de tratamiento
realmente participa en la intervencin o algunas unidades decomparacin
tienen acceso al programa. En este caso, todava se puede obtener una esti-
macin no sesgada del impacto del programa mediante la asignacin aleato-
ria, aunque la interpretacin de los resultados variar.
Grco 4.5 Estimacin del impacto con la asignacin aleatoria
Tratamiento Comparacin Impacto

Media (Y ) para el grupo Media (Y ) para el grupo
Impacto = Y = 20
de tratamiento = 100 de comparacin = 80
Se inscribe
si y solo si
est
asignado
al grupo de
tratamiento

Lista de vericacin: la asignacin aleatoria
La asignacin aleatoria es el mtodo ms robusto para estimar los contrafac-

tuales; se considera el sello de oro de la evaluacin de impacto. Para estimar
la validez de esta estrategia de evaluacin en un determinado contexto,
deberan contemplarse algunas pruebas bsicas.
Estn equilibradas las caractersticas de la lnea de base? Deben com-
pararse las caractersticas de lnea de base del grupo de tratamiento y
del grupo de comparacin.6
Se ha producido algn incumplimiento con la asignacin? Se debe veri-
car si todas las unidades elegibles han recibido tratamiento y que no
haya unidades no elegibles que hayan recibido tratamiento. Si ha habido
incumplimiento, tendr que utilizarse el mtodo de variable instrumen-
tal (vase el captulo 5).
Son sucientemente numerosas las unidades en los grupos de trata-
miento y comparacin? Si no, sera necesario combinar la asignacin
aleatoria con diferencias en diferencias (vase el captulo 7).
Hay algn motivo para creer que los resultados en algunas unidades de
alguna manera dependen de la asignacin de otras unidades? Podra
haber un impacto del tratamiento en las unidades del grupo de compara-
cin? (vase el captulo 9).
Evaluacin del impacto del HISP con la asignacin

aleatoria
Volvamos al ejemplo del Programa de Subsidios de Seguros de Salud

(HISP, por sus siglas en ingls, Health Insurance Subsidy Program) y veri-
quemos qu signica asignacin aleatoria en este contexto. Recurdese
que se intenta estimar el impacto de un programa a partir de una prueba
piloto que comprende 100 pueblos de tratamiento.
Despus de llevar a cabo dos evaluaciones de impacto utilizando
estimaciones potencialmente sesgadas del contrafactual en el
captulo3 (con recomendaciones de polticas contradictorias), usted
decide volver a repensar cmo obtener una estimacin ms precisa del
contrafactual. Despus de consultar con su equipo de evaluacin, est
convencido de que construir una estimacin vlida del contrafactual
requerir identicar un grupo de pueblos que sean lo ms parecidos
posible a los 100 pueblos del tratamiento en todos los sentidos, con la
excepcin de que un grupo particip en el HISP y el otro no. Dado que
el HISP se implement como plan piloto, y que los 100 pueblos de
tratamiento fueron seleccionados de forma aleatoria entre los pueblos
rurales en todo el pas, usted observa que los pueblos del tratamiento
deberan, en promedio, tener las mismas caractersticas que los pue-
blos rurales no tratados en todo el pas. Por lo tanto, se puede estimar
el contrafactual de una manera vlida, midiendo los gastos en salud de
los hogares elegibles en los pueblos rurales que no participaron del
programa.
Afortunadamente, en el momento de las encuestas de lnea de base y
de seguimiento, se recopilaron datos de otros 100 pueblos rurales a los
que no se ofreci el programa. Esos 100 pueblos tambin fueron selec-
cionados de manera aleatoria entre la poblacin de los pueblos rurales
en el pas. Por lo tanto, la manera en que fueron escogidos los dos gru-
pos de pueblos garantiza que tienen caractersticas estadsticamente
idnticas, excepto que los 100 pueblos de tratamiento se inscribieron
en el HISP y los 100 pueblos del grupo de comparacin no fueron
destinatarios del programa. Se ha producido una asignacin aleatoria
del tratamiento.
Dada la asignacin aleatoria del tratamiento, usted confa en que
ningn factor externo, excepto el HISP, explicara las diferencias en los
resultados entre los pueblos de tratamiento y de comparacin. Para
validar este supuesto, usted comprueba si los hogares elegibles en los
pueblos de tratamiento y comparacin tienen caractersticas similares
en la lnea de base, como se muestra en el cuadro 4.1.
Usted observa que las caractersticas promedio de los hogares en los
pueblos de tratamiento y de comparacin son, de hecho, muy similares.
Las nicas diferencias estadsticamente signicativas son las relativas
al nmero de aos de escolarizacin del jefe de hogar y la distancia
al hospital, y esas diferencias son pequeas (solo 0,16 aos, o menos
del6% de los aos de escolarizacin promedio del grupo de compara-
cin, y 2,91 km, o menos del 3% de la distancia promedio al hospital del
grupo de comparacin). Incluso con un experimento aleatorio en una
muestra grande, se puede esperar un pequeo nmero de diferencias
debido al azar y a las propiedades del test estadstico. De hecho, al
utilizar niveles de signicancia estndar del 5%, poda esperarse que
alrededor del 5% de las diferencias en las caractersticas sean estadsti-
camente signicativas, aunque no se esperara que la magnitud de estas
diferencias fuese grande.

Cuadro 4.1 Evaluacin del HISP: balance entre los pueblos de tratamiento
y de comparacin en la lnea de base
Pueblos de Pueblos de
Caractersticas tratamiento comparacin
de los hogares (N = 2964) (N = 2664) Diferencia t-estadstico
Gasto en salud
(dlares de
EE.UU. anuales
per cpita) 14,49 14,57 0,08 0,73
Edad del jefe
de hogar (aos) 41,66 42,29 0,64 1,69
Edad del
cnyuge (aos) 36,84 36,88 0,04 0,12
Nivel de
estudios del
jefe de hogar
(aos) 2,97 2,81 0,16* 2,30
Nivel de
estudios del
cnyuge (aos) 2,70 2,67 0,03 0,43
Jefe de hogar
es mujer = 1 0,07 0,08 0,01 0,58
Jefe de hogar
es indgena = 1 0,43 0,42 0,01 0,69
Nmero de
miembros del
hogar 5,77 5,71 0,06 1,12
Tiene suelo de
tierra 0,72 0,73 0,01 1,09
Tiene bao = 1 0,57 0,56 0,01 1,04
Hectreas de
terreno 1,68 1,72 0,04 0,57
Distancia a un
hospital (km) 109,20 106,29 2,91 2,57
Con la validez del grupo de comparacin ya establecida, ahora

sepuede estimar el contrafactual como los gastos promedio en salud
de los hogares elegibles en los 100 pueblos del grupo de comparacin.
El cuadro 4.2 muestra los gastos promedio en salud de los hogares
elegibles en los pueblos de los grupos de tratamiento y de compara-
cin. Ntese que en la lnea de base los gastos promedio en salud de los
Cuadro 4.2 Evaluacin del HISP segn la asignacin aleatoria
Tratamiento Comparacin Diferencia t-estadstico

Lnea de base:
gasto en salud
de los hogares
(en dlares de
EE.UU.) 14,49 14,57 0,08 0,73
Encuesta de
seguimiento:
gasto en salud
de los hogares
(en dlares de
EE.UU.) 7,84 17,98 10,14** 49,15
hogares de los grupos de tratamiento y comparacin no son estadsti-

camente diferentes, como debera esperarse con una asignacin
aleatoria.
Ahora que se cuenta con un grupo de comparacin vlido, se puede
encontrar el impacto del HISP sencillamente calculando la diferencia
entre los gastos directos promedio en salud de los hogares en los pueblos
de tratamiento y de comparacin asignados de forma aleatoria en el
perodo de seguimiento. El impacto es una reduccin de US$10,14 a lo
largo de dos aos. Replicar este resultado mediante un anlisis de regre-
sin lineal arroja el mismo resultado, como se observa en el cuadro 4.3.
Por ltimo, mediante un anlisis de regresin multivariante que controla
por otras caractersticas observables de los hogares de la muestra, se
observa que el programa ha reducido los gastos de los hogares inscritos
en US$10,01, a lo largo de dos aos, lo cual es casi idntico al resultado de
la regresin lineal.
Con la asignacin aleatoria, podemos estar seguros de que no hay
factores que sean sistemticamente diferentes entre los grupos de trata-
miento y comparacin que tambin puedan explicar la diferencia en
gastos en salud. Ambos conjuntos de pueblos comenzaron con caracters-
ticas promedio muy similares y han estado expuestos al mismo conjunto
de polticas y programas nacionales durante los dos aos de tratamiento.
Por lo tanto, el nico motivo plausible por el que los hogares pobres en las
comunidades de tratamiento tienen gastos inferiores a los de los hogares

en los pueblos de comparacin es que el primer grupo fue destinatario
del programa de seguro de salud y el otro grupo no lo fue.
Cuadro 4.3 Evaluacin del HISP segn la asignacin aleatoria

Regresin
Regresin lineal lineal multivariante
Impacto estimado sobre
el gasto en salud de los 10,14** 10,01**
hogares (0,39) (0,34)
Nota: Los errores estndares estn entre parntesis.

Pregunta HISP 3
A. Por qu la estimacin de impacto obtenida mediante una regresin

lineal multivariante se mantiene bsicamente constante cuando se
controla por otros factores, al cotejarse con la regresin lineal simple
y la comparacin de medias?
B. Sobre la base del impacto estimado con el mtodo de asignacin alea-
toria, debera ampliarse el HISP a nivel nacional?
Para material de apoyo para este captulo e hipervnculos de recursos

adicionales, se recomienda consultar el sitio web de la Evaluacin de
Impacto en la Prctica (http://www.worldbank.org/ieinpractice).
Para ms recursos sobre las evaluaciones de impacto con asigna-
cin aleatoria, vase el portal de evaluacin del BID (www.iadb
.org/portalevaluacion).
Para un resumen completo de las evaluaciones de impacto con asigna-
cin aleatoria, vase el siguiente libro y el sitio web correspondiente:
R. Glennerster y K. Takavarasha (2013), Running Randomized Evaluations:
A Practical Guide. Princeton, NJ: Princeton University Press (http://
runningres.com/).
Para un debate en profundidad sobre cmo encontrar el equilibrio entre
grupos de tratamiento y de comparacin mediante la asignacin aleato-
ria, vase:
M. Bruhn y D. McKenzie (2009), In Pursuit of Balance: Randomization in
Practice in Development Field Experiments. American Economic Journal:
Applied Economics 1(4): 20032.
Para un ejemplo de asignacin aleatoria pblica para una evaluacin en

Camern, vase el World Bank Impact Evaluation Toolkit, Mdulo 3
(www.worldbank.org/health/impactevaluationtoolkit).
Notas
1. La asignacin aleatoria del tratamiento tambin suele denominarse ensayo

aleatorio controlado, evaluaciones aleatorias, evaluaciones experimentales y
experimentos sociales, entre otras denominaciones. Estrictamente hablando, un
experimento no tiene que identicar impactos mediante asignaciones aleatorias,
pero los evaluadores suelen utilizar el trmino experimento solo cuando la
evaluacin recurre a la asignacin aleatoria.
2. Ntese que esta probabilidad no necesariamente signica una probabilidad del
50% de ganar el sorteo. En la prctica, la mayora de las evaluaciones con
asignacin aleatoria darn a cada unidad elegible una probabilidad de seleccin
determinada, de manera que el nmero de ganadores (tratamientos) sea igual al
total de benecios disponibles. Por ejemplo, si un programa tiene sucientes
fondos para servir solo a 1.000 comunidades de una poblacin de 10.000
comunidades elegibles, cada comunidad tendr una probabilidad de una entre
10 de ser seleccionada para el tratamiento. La potencia estadstica (un concepto
analizado ms en detalle en el captulo 15) se maximizar cuando la muestra de
evaluacin se divida por igual entre los grupos de tratamiento y comparacin.
En el ejemplo de este caso, para un tamao total de la muestra de 2.000
comunidades, la potencia estadstica se maximizar si se seleccionan las
1.000comunidades de tratamiento y una submuestra de 1.000 comunidades
decomparacin, en lugar de tomar una muestra aleatoria simple del 20% de las
10.000 comunidades originales elegibles (lo que producira una muestra de
evaluacin de alrededor de 200 comunidades de tratamiento y 1.800
comunidades de comparacin).
3. Por ejemplo, los programas de vivienda que otorgan viviendas subvencionadas
suelen utilizar los sorteos para seleccionar a los participantes del programa.
Numerosas escuelas subvencionadas en Estados Unidos seleccionan a los
postulantes mediante sorteo.
4. Adems de crear grupos que tienen caractersticas promedio similares, la
asignacin aleatoria tambin crea grupos que tienen distribuciones similares.
5. La mayora de los programas informticos permiten establecer un nmero
aleatorio para que los resultados de la asignacin aleatoria sean plenamente
transparentes y replicables.

6. Como se ha mencionado, por motivos estadsticos no todas las caractersticas
observables deben ser similares en los grupos de tratamiento y de comparacin
para que la aleatorizacin sea exitosa. Incluso cuando las caractersticas de los
dos grupos son verdaderamente idnticas, se puede esperar que el 5% de las
mismas aparecern con una diferencia estadsticamente signicativa cuando se
utiliza un intervalo de conanza de 95% para la prueba. Las variables en cuyo
caso se presenta una diferencia grande entre los grupos de tratamiento y de
comparacin son especialmente preocupantes.
Bertrand, M., B. Crpon, A. Marguerie y P. Premand. 2016. Impacts Court et

Moyen Terme sur les Jeunes des Travaux Haute Intensit de Main doeuvre
(THIMO): Rsultats de lvaluation dimpact de la composante THIMO du
Projet Emploi Jeunes et Dveloppement des Comptence (PEJEDEC) en Cte
dIvoire. Washington, D.C.: Banco Mundial y Abidjan, BCP-Emploi.
Blattman, C., N. Fiala y S. Martnez. 2014. Generating Skilled Self-Employment in
Developing Countries: Experimental Evidence from Uganda. Quarterly Journal
of Economics. (doi:10.1093/qje/qjt057.).
Bruhn, M. y D. McKenzie. 2009. In Pursuit of Balance: Randomization in Practice
in Development Field Experiments. American Economic Journal: Applied
Economics 1(4): 20032.
Dupas, P. 2011. Do Teenagers Respond to HIV Risk Information? Evidence from
aField Experiment in Kenya. American Economic Journal: Applied Economics
3(1): 134.
Glennerster, R. y K. Takavarasha. 2013. Running Randomized Evaluations: A
Practical Guide. Princeton, NJ: Princeton University Press.
Kremer, M., J. Leino, E. Miguel y A. Peterson Zwane. 2011. Spring Cleaning: Rural
Water Impacts, Valuation, and Property Rights Institutions. Quarterly Journal
of Economics 126: 145205.
Kremer, M. y E. Miguel. 2004. Worms: Identifying Impacts on Education and
Health in the Presence of Treatment Externalities. Econometrica 72 (1):
159217.
Premand, P., O. Barry y M. Smitz. 2016. Transferts montaires, valeur ajoute de
mesures daccompagnement comportemental, et dveloppement de la petite
enfance au Niger. Rapport descriptif de lvaluation dimpact court terme du
Projet Filets Sociaux. Washington, D.C.: Banco Mundial.
Schultz, P. 2004. School Subsidies for the Poor: Evaluating the Mexican Progresa
Poverty Program. Journal of Development Economics 74 (1): 199250.
CAPTULO 5
Las variables instrumentales
La evaluacin de programas cuando no todos

cumplen su asignacin
En el anlisis de la asignacin aleatoria del captulo 4, se asume que el admi-

nistrador del programa tiene la facultad para asignar la intervencin a los gru-
pos de tratamiento y de comparacin, y que los asignados al tratamiento
participan en el programa y los asignados al grupo de comparacin nolohacen.
En otras palabras, las observaciones asignadas a los grupos de tratamiento y
de comparacin cumplen su asignacin. El pleno cumplimiento se logra con
mayor frecuencia en pruebas de laboratorio o en ensayos mdicos, donde el
investigador puede asegurar, primero, que todos los sujetos del grupo de tra-
tamiento reciban un determinado tratamiento y, segundo, que no lo reciba
ninguno de los sujetos del grupo de comparacin.1 De manera ms general, en
el captulo 4 se asume que los programas pueden determinar quines son
losparticipantes potenciales, excluyendo a algunos y asegurando que otros
participen.
Sin embargo, en los programas sociales del mundo real, puede que sea
poco realista pensar que el administrador del programa ser capaz de
asegurar un cumplimiento pleno de la asignacin del grupo. Aun as, nume-
rosos programas permiten a los participantes potenciales elegir si se inscri-
ben o no y, por lo tanto, no pueden excluir a participantes potenciales que
quieran inscribirse. Adems, algunos programas tienen un presupuesto lo
sucientemente grande para administrar la intervencin de forma inmediata
99
Concepto clave a toda la poblacin elegible, de modo que no sera tico asignar aleatoria-
El mtodo de variables mente a las personas a los grupos de tratamiento y de comparacin, y excluir
instrumentales se a participantes potenciales en aras de la evaluacin. Por ende, se necesita una
sustenta en alguna manera alternativa de evaluar el impacto de este tipo de programas.
fuente externa de El mtodo denominado variables instrumentales (VI) puede resultar til
variacin para
para evaluar los programas con cumplimiento imperfecto, inscripcin
determinar el estatus
del tratamiento. Ejerce voluntaria o cobertura universal. En general, para estimar los impactos, el
una inuencia sobre la mtodo VI depende de una fuente externa de variacin para determinar el
probabilidad de estatus del tratamiento. El mtodo puede aplicarse a un amplio espectro de
participar en un situaciones, ms all de la evaluacin de impacto. Se puede pensar en una VI
programa, pero est
como algo que escapa al control del individuo y que inuye en su probabili-
fuera del control de los
participantes y no se dad de participar en un programa pero que, de otra manera, no est asociado
relaciona con las con las caractersticas de dicho individuo.
caractersticas de los En este captulo, se analizar cmo esta variacin externa, o VI, puede
mismos. ser generada por las reglas de funcionamiento del programa que est bajo
el control de los encargados del mismo o de los equipos de evaluacin. Para
producir evaluaciones de impacto vlidas, esta fuente externa de variacin,
o VI, debe satisfacer un cierto nmero de condiciones, las cuales se aborda-
rn detenidamente en este captulo. Se ha observado que la asignacin
aleatoria del tratamiento, como se seal en el captulo 4, es un muy
bueninstrumento y que satisface las condiciones necesarias. El mtodo VI
se utilizar en dos aplicaciones comunes de la evaluacin de impacto.
Primero, se usar como una extensin del mtodo de asignacin aleatoria
cuando no todas las unidades cumplen con su asignacin de grupo.
Ensegundo lugar, se recurrir a l para disear una promocin aleatoria
del tratamiento, un mtodo de evaluacin que puede funcionar en algunos
programas que ofrecen inscripcin voluntaria o cobertura universal.
Elrecuadro 5.1 ilustra un uso creativo del mtodo de VI.
Tipos de estimaciones de impacto
Una evaluacin de impacto siempre estima el impacto de un programa com-

parando los resultados de un grupo de tratamiento con la estimacin de un
contrafactual obtenido de un grupo de comparacin vlido. En el captulo 4
se asuma que haba pleno cumplimiento en el tratamiento, es decir, que
todas las unidades a las que se ofreca un programa se inscriban en l y que
ninguna de las unidades del grupo de comparacin reciba el programa. En
este escenario, se estimaba el efecto promedio del tratamiento para la
poblacin.
En la evaluacin de los programas en el mundo real, donde los
participantes potenciales pueden decidir si se inscriben o no, el pleno
Recuadro 5.1: El uso de variables instrumentales para evaluar el
impacto de Plaza Ssamo en la preparacin escolar
El programa de televisin Plaza Ssamo, entre los hogares y la antena de televisin
destinado a preparar a los nios en edad ms cercana que transmitiera UHF como
preescolar para la escuela primaria, obtuvo instrumento de participacin en el programa.
rpidamente la aclamacin de la crtica y goz Los investigadores sostenan que, dado que
de gran popularidad al emitirse por primera vez las antenas de televisin estaban construidas
en 1969. Desde entonces lo han visto millones en lugares escogidos por el gobierno antes
de nios. En 2015 Kearney y Levine se de que Plaza Ssamo comenzara a ser
propusieron estudiar los impactos a largo plazo emitido la variable no estara relacionada
del programa en una evaluacin retrospectiva con las caractersticas del hogar ni con
realizada en Estados Unidos. Aprovechando cambios en el resultado.
las limitaciones de la tecnologa de las La evaluacin encontr resultados
emisiones televisivas durante los primeros positivos en la preparacin escolar de los
aos del programa, los investigadores utilizaron nios en edad preescolar. En las zonas con
un enfoque de variables instrumentales (VI). recepcin de la seal de televisin UHF
En los primeros aos, el programa no cuando el programa comenz, los nios
llegaba a todos los hogares. Solo se emita tenan ms probabilidades de cursar la
en los canales de frecuencia ultra alta (UHF). escuela primaria a la edad adecuada. Este
As, alrededor de solo dos tercios de la efecto fue notable en los nios afroamericanos
poblacin de Estados Unidos viva en zonas y en los nios no hispanos, en los varones y
con acceso al programa. Por lo tanto, en los pequeos de zonas econmicamente
Kearney y Levine (2015) utilizaron la distancia desfavorecidas.
Fuente: Kearney y Levine (2015).
cumplimiento es menos comn que en contextos como los experimentos de

laboratorio. En la prctica, los programas suelen ofrecer tratamiento a un
grupo especco, y algunas unidades participan y otras no. En este caso, sin
pleno cumplimiento, las evaluaciones de impacto pueden estimar el efecto
de ofrecer un programa o el efecto de participar en el programa.
La intencin de tratar (ITT, por sus siglas en ingls, intention-to-treat)
es un promedio ponderado de los resultados de los participantes y no
participantes en el grupo de tratamiento versus el resultado promedio
del grupo de comparacin. Es importante en aquellos casos en los que
seintenta determinar el impacto promedio de ofrecer un programa y la
inscripcin en el grupo de tratamiento es voluntaria. En cambio, puede
que tambin se desee conocer el impacto de un programa en el grupo
deindividuos a losque se ofrece el programa y que realmente participan.
Las variables instrumentales 101
Concepto clave Este impacto estimado se denomina tratamiento en los tratados (TOT,
La intencin de tratar por sus siglas en ingls, treatment-on-the-treated). La ITT y el TOT sern
(ITT) estima la iguales cuando haya pleno cumplimiento. Ms adelante se volver sobre
diferencia en los
las diferencias entre ambos, pero ahora se presentar un ejemplo para
resultados entre las
unidades asignadas al ilustrar estos conceptos.
grupo de tratamiento y Considrese el Programa de Subsidios de Seguros de Salud (HISP, por sus
las unidades siglas en ingls), que se ha analizado en los captulos anteriores. Debido a
asignadas al grupo de consideraciones operativas y para minimizar los efectos de derrame, la uni-
comparacin, dad de asignacin del tratamiento elegida por el gobierno es el centro
independientemente
poblado. Los hogares de un centro poblado de tratamiento (las circunscrip-
de si las unidades
asignadas al grupo de ciones donde se ofrece el programa de seguro de salud) pueden inscribirse
tratamiento reciben en de forma voluntaria para un subsidio de seguro de salud, mientras que los
efecto el tratamiento. hogares de las comunidades de comparacin no pueden. A pesar de que
todos los hogares de los pueblos de tratamiento son elegibles para inscri-
Concepto clave birse en el programa de seguro de salud, puede que una parte de los mismos
El tratamiento en los por ejemplo, el 10% decida no hacerlo (quiz porque ya tienen un seguro
tratados (TOT) estima a travs de sus empleos, porque estn sanos y no prevn la necesidad de cui-
la diferencia en los dados sanitarios, o por muchos otros motivos).
resultados entre las
En este escenario, el 90% de los hogares del pueblo de tratamiento
unidades que
realmente reciben el decide inscribirse en el programa y recibe los servicios que este ofrece. La
tratamiento y el grupo estimacin de ITT se obtendra comparando el resultado promedio de
de comparacin. todos los hogares a los que se ofreci el programa es decir, el 100% de los
hogares de los centros poblados de tratamiento con el resultado promedio
en los pueblos de comparacin (donde no se ha inscrito ningn hogar). En
cambio, el TOT se puede ver como el impacto estimado para el 90% de los
hogares de las circunscripciones de tratamiento que se inscribieron en el
programa. Cabe sealar que el impacto del TOT no es necesariamente el
mismo que el impacto que se obtendra para el 10% de los hogares de los
pueblos de tratamiento que no se inscribieron, en caso de que se inscriban.
Esto es debido a que los individuos que participan en un programa cuando
el mismo es ofrecido pueden ser distintos a los individuos a los que se ofrece
el programa pero que deciden no inscribirse. Por ello, los efectos del trata-
miento local no pueden extrapolarse directamente de un grupo a otro.
El cumplimiento imperfecto
Como ya se ha sealado, en los programas sociales del mundo real, el pleno

cumplimiento con los criterios de seleccin de un programa (y, por ende, la
adhesin a la condicin de tratamiento o comparacin) es deseable, y los
responsables de las polticas y los equipos de evaluacin por igual suelen
intentar acercarse lo ms posible a ese ideal. Sin embargo, en la prctica, no
siempre se consigue un cumplimiento del 100% de las asignaciones a los
grupos de tratamiento y comparacin, a pesar de los esfuerzos del encargado
del programa y del equipo de evaluacin. A continuacin, se presentarn
diferentes casos que pueden ocurrir y se debatirn las implicaciones para
los mtodos de evaluacin que se pueden utilizar. Para empezar, hay que
subrayar que la mejor solucin para el cumplimiento imperfecto consiste
sencillamente en evitarlo. En este sentido, los administradores del programa
y los responsables de las polticas deberan intentar que el cumplimiento sea
lo ms alto posible en el grupo de tratamiento y lo ms bajo posible en el
Supngase que se intenta evaluar un programa de formacin docente,
para el cual son elegibles 2.000 maestros a n de que participen en una
capacitacin piloto. Los maestros han sido asignados de forma aleatoria
auno de dos grupos: 1.000 al de tratamiento y otros 1.000 al de comparacin.
Cuando todos los docentes del grupo de tratamiento reciben la capacita-
cin, y ninguno en el grupo de comparacin la ha recibido, se estima el
efecto promedio del tratamiento (ATE, por sus siglas en ingls, average
treatment effect) calculando la diferencia en los resultados medios (por
ejemplo, las puntuaciones en las pruebas de los alumnos) entre los dos gru-
pos. Este ATE es el impacto promedio del tratamiento en los 1.000 maestros,
dado que todos los maestros asignados al grupo de tratamiento realmente
asisten al curso, algo que no ocurre con ninguno de los maestros asignados
al grupo de comparacin.
El primer caso de cumplimiento imperfecto ocurre cuando algunas
unidades asignadas al grupo de tratamiento deciden no inscribirse o, por
algn otro motivo, no reciben tratamiento. En el ejemplo de la formacin
docente, algunos maestros asignados al grupo de tratamiento no se pre-
sentan el primer da del curso. En este caso, no se puede calcular el trata-
miento promedio para todos los maestros porque algunos nunca se
inscribieron; por lo tanto, nunca se podr calcular qu resultados habran
tenido con el tratamiento. Sin embargo, se puede estimar el impacto pro-
medio del programa en aquellos que realmente siguen o aceptan el trata-
miento. Se quiere estimar el impacto del programa en aquellos maestros a
los que se asign el tratamiento y que en la prctica se inscribieron. Esta es
la estimacin del TOT. En el ejemplo de la formacin docente, la estima-
cin del TOT representa el impacto en los maestros asignados al grupo de
tratamiento que se presentaron y recibieron la capacitacin.
El segundo caso de cumplimiento imperfecto se produce cuando los
individuos asignados al grupo de comparacin consiguen participar en el
programa. En este caso, los impactos no pueden estimarse directamente
paratodo el grupo de tratamiento porque sus contrapartes en el grupo de
comparacin no se pueden observar sin tratamiento. Se supona que las
unidades tratadas en el grupo de comparacin generaban una estimacin
del contrafactual para algunas unidades en el grupo de tratamiento, pero
en la prctica reciben el tratamiento; por lo tanto, no hay manera de saber
cul habra sido el impacto del programa en este subconjunto de indivi-
duos. En el ejemplo de la formacin docente, supngase que los maestros
ms motivados del grupo de comparacin consiguen asistir de alguna
manera al curso. En este caso, los ms motivados en el grupo de tratamiento
no tendran contrapartes en el grupo de comparacin, de modo que
no sera posible estimar el impacto de la formacin en ese segmento de
maestros motivados.
Cuando hay incumplimiento en cualquiera de los dos lados, debera
pensarse detenidamente en qu tipo de efecto de tratamiento se estima y
cmo interpretarlo. Una primera opcin consiste en calcular una compa-
racin del grupo originalmente asignado al tratamiento con el grupo origi-
nalmente asignado a la comparacin; esto dar la estimacin de la ITT. La
ITT compara a aquellos a quienes se pretende tratar (los asignados al
grupo de tratamiento) con aquellos que se intenta no tratar (los asignados
al grupo de comparacin). Si el incumplimiento se produce solo del lado
del tratamiento, puede ser una medida de impacto interesante y relevante,
porque en cualquier caso la mayora de los responsables de las polticas
y administradores de programa solo pueden ofrecer un programa y no
pueden obligar a su poblacin designada a aceptar el mismo.
En el ejemplo de la formacin docente, puede que el gobierno quiera
conocer el impacto promedio del programa en todos los maestros asignados,
aunque algunos de ellos no asistan al curso. Esto se debe a que, aunque el
gobierno ample el programa, es probable que haya maestros que nunca
asistirn. Sin embargo, si hay incumplimiento en el lado de la comparacin,
la estimacin de la ITT no es tan esclarecedora. En el caso de la formacin
docente, dado que el grupo de comparacin inclua a maestros formados,
elresultado promedio en el grupo de comparacin se ha visto afectado por
el tratamiento. Supngase que el efecto de la formacin docente en los resul-
tados es positivo. Si aquellos que incumplieron en el grupo de comparacin
son los maestros ms motivados y los que ms se benecian de la capacita-
cin, el resultado promedio para el grupo de comparacin tendr un sesgo
positivo (porque los maestros motivados del grupo de comparacin que
recibieron capacitacin harn subir el resultado promedio) y la estimacin
ITT tendr un sesgo negativo (dado que se trata de la diferencia entre los
resultados promedio en el grupo de tratamiento y de comparacin).
En estas circunstancias de no cumplimiento, una segunda opcin
consiste en estimar lo que se conoce como el efecto local promedio del
tratamiento (LATE, por sus siglas en ingls, local average treatment effect).
ElLATEdebe ser interpretado con cuidado, ya que representa los efectos
del programa solo para un subgrupo especco de la poblacin. En particular,
cuando hay incumplimiento en el grupo de tratamiento y en el de
comparacin, el LATE es el impacto en el subgrupo de cumplidores. En el
ejemplo de la formacin docente, si hay incumplimiento en ambos grupos,
la estimacin LATE es vlida solo para los maestros del grupo de trata-
miento que se inscribieron en el programa y que no se habran inscrito si
hubieran sido asignados al grupo de comparacin.
A continuacin, se explicar cmo estimar el LATE y, algo que es igual de
importante, cmo interpretar los resultados. Los principios para estimar el
LATE se aplican cuando hay incumplimiento en el grupo de tratamiento, en
el de comparacin, o en ambos al mismo tiempo. ElTOT es simplemente un
LATE en el caso ms especco en que hay incumplimiento solamente en el
grupo de tratamiento. Por lo tanto, el resto de este captulo se enfoca en
cmo estimar el LATE.
Asignacin aleatoria de un programa y aceptacin nal
Imagnese que se debe evaluar el impacto de un programa de formacin

para el empleo en los salarios de los individuos. El programa se asigna de
forma aleatoria a nivel individual. El grupo de tratamiento recibe el pro-
grama, mientras que el grupo de comparacin no lo recibe. Lo ms probable
es que se encuentren tres tipos de individuos en la poblacin:
Inscritos si se lo ofrecen. Son los individuos que cumplen con su asigna-
cin. Si se les asigna al grupo de tratamiento (asignados al programa),
lo aceptarn y se inscribirn. Si se les asigna al grupo de comparacin
(noasignados al programa), no se inscriben.
Nuncas. Son los individuos que jams se inscriben ni aceptan el programa,
aunque se les asigne al grupo de tratamiento. Si en efecto se les asigna a
este ltimo, sern incumplidores.
Siempres. Estos individuos encontrarn una manera de inscribirse en el
programa o aceptarlo, aunque se les asigne al grupo de comparacin. Si en
efecto son asignados al grupo de comparacin, sern incumplidores.
En el contexto de un programa de formacin laboral, el grupo de los
Nuncas puede estar formado por personas no motivadas que, aunque se
lesasigne un lugar en el curso, no se presentan. En cambio, los del grupo
de los Siempres estn tan motivados que encuentran una manera de entrar
en el programa aunque originalmente se les haya asignado al grupo de
comparacin. El grupo de Inscritos si se lo ofrecen son los que se anotan en
el curso si son asignados a l, pero no buscan inscribirse si son asignados
al grupo de comparacin.
El grco 5.1 presenta la asignacin aleatoria del programa y de la
inscripcin nal, o aceptacin, cuando los tipos Inscritos si se lo ofrecen,
Nuncas y Siempres estn presentes. Supngase que la poblacin se com-
pone de un 80% de Inscritos si se lo ofrecen, 10% de Nuncas y 10% de
Siempres. Si se toma una muestra aleatoria de la poblacin para la mues-
tra de evaluacin, dicha muestra tendr tambin alrededor de un 80% de
Inscritos si se lo ofrecen, 10% de Nuncas y 10% de Siempres. Luego, si la
muestra de evaluacin se asigna de manera aleatoria a un grupo de trata-
miento y a un grupo de comparacin, una vez ms debera haber cerca de
un 80% de Inscritos si se lo ofrecen, 10% de Nuncas y 10% de Siempres en
ambos grupos. En el grupo asignado al tratamiento, se inscribirn los
individuos Inscritos si se lo ofrecen y Siempres, y solo el grupo de Nuncas
permanecer al margen. En el grupo de comparacin, los individuos de
Siempres se inscribirn, mientras que los grupos de Inscritos si se lo ofre-
cen y Nuncas permanecern fuera. Esimportante recordar que si bien se
sabe que en la poblacin existen estos tres tipos de individuos, no es
posible necesariamente distinguir el tipo de un individuo hasta que se
observan ciertas conductas. En el grupo de tratamiento, se podr identi-
car a los tipos de Nuncas cuando no se inscriben, pero no se podr dis-
tinguir entre los Inscritos si se lo ofrecen y los Siempres,dado que ambos
tipos se inscribirn. En el grupo de comparacin, se podr identicar a
Grco 5.1 Asignacin aleatoria con cumplimiento imperfecto
1. Definir las unidades elegibles 2. Seleccionar la muestra 3. Asignar aleatoriamente 4. Inscripcin

de evaluacin al tratamiento
Nunca Solo se Siempre Validez externa Validez interna

se inscribe se
inscribe si es inscribe
asignado

los Siempres cuando se inscriben, pero no se podr distinguir entre los
Inscritos si se lo ofrecen y los Nuncas, dado que ninguno de los dos tipos
se inscribir.
La estimacin de impacto bajo asignacin aleatoria con

cumplimiento imperfecto
Despus de establecer la diferencia entre asignar un programa y la

inscripcin o aceptacin en la prctica, se estimar el LATE del programa.
Esta estimacin se lleva a cabo en dos pasos, los cuales se ilustran en el
grco 5.2.2
Para estimar los impactos del programa bajo la asignacin aleatoria con
cumplimiento imperfecto, primero se estima el impacto de la ITT. Se debe
recordar que se trata solo de la diferencia en el indicador de resultados (Y)
Grco 5.2 Estimacin del efecto local promedio del tratamiento bajo
asignacin aleatoria con cumplimiento imperfecto
Grupo asignado Grupo no asignado

Impacto
al tratamiento al tratamiento
Porcentaje inscrito = 90% Porcentaje inscrito = 10% porcentaje de inscritos = 80%

Media Y para los asignados a Media Y para los no Y = ITT = 40
tratamiento = 110 asignados a tratamiento = 70 LATE = 40%/80% = 50
Nunca se
inscribe
Solo se
inscribe
si es
asignado
Siempre se
inscribe
Nota: La estimacin de la intencin de tratar (ITT) se obtiene comparando los resultados de los
individuos asignados al grupo de tratamiento con los de aquellos asignados al grupo de comparacin,
independientemente de la inscripcin en la prctica. La estimacin del efecto local promedio del trata-
miento (LATE) es el impacto del programa en los que se inscriben solo si son asignados al programa
(Inscritos si se lo ofrecen). La estimacin LATE no proporciona el impacto del programa en aquellos
que nunca se inscriben (Nuncas) o en aquellos que siempre se inscriben (Siempres).
= impacto causal; Y = resultado.

para el grupo que se asigna al tratamiento y el mismo indicador para el
grupo al que no se asigna tratamiento. Por ejemplo, si el salario medio (Y)
del grupo de tratamiento es US$110 y el salario medio del grupo de compa-
racin es US$70, la estimacin de la ITT del impacto sera de US$40 (US$110
menos US$70).
En segundo lugar, habra que recuperar la estimacin del LATE para el
grupo de Inscritos si se lo ofrecen de la estimacin ITT. Para esto, se debe
identicar de dnde proviene la diferencia de US$40. Se procede por
eliminacin. Primero, se sabe que la diferencia no puede ser causada por
diferencias entre las personas que nunca se inscriben (los Nuncas) en los
grupos de tratamiento y de comparacin. Esto se debe a que los Nuncas
jams se inscriben en el programa, de modo que para ellos es igual estar
enel grupo de tratamiento que en el de comparacin. En segundo lugar,
sesabe que la diferencia de US$40 no puede ser producida por diferencias
entre los individuos de Siempres en los grupos de tratamiento y de compa-
racin porque estos siempre se anotan en el programa. Para ellos tampoco
hay diferencia entre estar en el grupo de tratamiento o el grupo de compa-
racin. Por lo tanto, la diferencia en los resultados entre ambos grupos
debe necesariamente provenir del efecto del programa en el nico grupo
afectado por su asignacin al grupo de tratamiento o de comparacin, es
decir, el grupo de Inscritos si se lo ofrecen. Si se puede identicar a los
Inscritos si se lo ofrecen en ambos grupos, ser fcil estimar el impacto del
programa en ellos.
En realidad, aunque se sabe que estos tres tipos de individuos existen
enla poblacin, no se puede separar a los individuos en funcin de si son
Inscritos si se lo ofrecen, Nuncas o Siempres. En el grupo que fue asignado al
tratamiento, se puede identicar a los Nuncas (porque no se han inscrito),
pero no se puede diferenciar entre los Siempres y los Inscritos si se lo ofrecen
(porque ambos estn inscritos). En el grupo de comparacin, se puede iden-
ticar el grupo de Siempres (porque se inscriben en el programa), pero no es
posible diferenciar entre los Nuncas y los Inscritos si se lo ofrecen.
Sin embargo, una vez que se observa que el 90% de las unidades en el
grupo asignado al tratamiento en efecto se inscribe, se puede deducir que
el 10% de las unidades de nuestra poblacin debe estar formada Nuncas
(esdecir, el porcentaje de individuos del grupo asignados al tratamiento que
no se inscribieron). Adems, si se observa que el 10% de las unidades del
grupo de comparacin se inscribe, se sabe que el 10% son Siempres (una vez
ms, el porcentaje de individuos de nuestro grupo que no fue asignado al
tratamiento y que s se inscribi). Esto deja al 80% de las unidades en el
grupo de Inscritos si se lo ofrecen. Se sabe que el impacto de US$40 proviene
de una diferencia en la inscripcin en el 80% de las unidades de la muestra
que corresponde a Inscritos si se lo ofrecen. Si el 80% de las unidades es
responsable de un impacto promedio de US$40 en el conjunto del grupo
asignado al tratamiento, el impacto en ese 80% de Inscritos si se lo ofrecen
debe ser 40/0,8, o US$50. Dicho de otra manera, el impacto del programa
para los Inscritos si se lo ofrecen es de US$50, pero cuando este impacto se
distribuye en el conjunto del grupo asignado al tratamiento, el efecto pro-
medio se diluye debido al 20% que no cumpli con la asignacin aleatoria
original.
Recurdese que uno de los problemas bsicos de la autoseleccin en los
programas es que no siempre se puede saber por qu algunas personas deci-
den participar y otras no. Cuando se lleva a cabo una evaluacin donde las
unidades estn asignadas de forma aleatoria, pero la participacin en la
prctica es voluntaria o existe una forma en que las unidades del grupo de
comparacin participen en el programa, se presenta un problema similar, a
saber, que no siempre se entender la conducta que determina si un indivi-
duo se comporta como un Nunca, un Siempre, o un Inscrito si se lo ofrecen.
Sin embargo, si la falta de cumplimiento no es demasiado severo, la asigna-
cin aleatoria sigue proporcionando un instrumento til para la evaluacin
del impacto. El aspecto negativo de la asignacin aleatoria con cumplimiento
imperfecto es que esta estimacin de impacto ya no es vlida para el con-
junto de la poblacin. En cambio, la estimacin debera interpretarse como
una estimacin local que se aplica solo a un subgrupo especco dentro de la
poblacin designada, los Inscritos si se lo ofrecen.
La asignacin aleatoria de un programa tiene dos caractersticas impor-
tantes que permiten estimar el impacto cuando hay cumplimiento imper-
fecto (vase el recuadro 5.2):
1. Puede servir para predecir la inscripcin en el programa si la mayora de

las personas se comportan como Inscritos si se lo ofrecen, y se inscriben en
el programa cuando se les asigna al tratamiento y no se inscriben cuando
no se les asigna.
2. Dado que los dos grupos (asignados y no asignados al tratamiento)
se generan mediante un proceso aleatorio, las caractersticas de los
individuos en los dos grupos no estn correlacionadas con ningn otro
factor como la habilidad o la motivacin que pueda inuir tambin en
los resultados (Y).
En trminos estadsticos, la asignacin aleatoria sirve como VI. Se trata de

una variable que predice la inscripcin real de unidades en un programa,
pero que no est relacionada con otras caractersticas de los individuos
quepuedan estar vinculadas a los resultados. Aunque en parte la decisin de
los individuos de inscribirse en un programa no puede estar controlada
porlos administradores del programa, otra parte de la decisin s est bajo
Recuadro 5.2: Variables instrumentales para lidiar con la falta de
cumplimiento en un programa de vales escolares en Colombia
El Programa de Ampliacin de Cobertura Hubo cierto incumplimiento con el diseo
de la Educacin Secundaria (PACES), en aleatorio, ya que alrededor del 90% de los
Colombia, suministr vales a ms de ganadores del sorteo haban usado el vale
125.000 estudiantes para cubrir algo ms de u otra forma de beca, y el 24% de los
la mitad del costo de asistencia a escuelas perdedores del sorteo haban recibido becas.
secundarias privadas. Dado el presupuesto Utilizando nuestra terminologa, la poblacin
limitado del programa, los vales se asigna- debe haber contenido un 10% de Nuncas,
ron mediante sorteo. Angrist et al. (2002) un 24% de Siempres y un 66% de Inscritos
aprovecharon este tratamiento asignado de si se lo ofrecen. Angrist et al. (2002) tambin
manera aleatoria para determinar el efecto utilizaron la asignacin original, o la condicin
del programa sobre los resultados educati- del ganador o perdedor del sorteo de los
vos y sociales. alumnos, como una variable instrumental
Angrist et al. (2002) observaron que los para estimar el tratamiento en los tratados
ganadores del sorteo tenan un 10% ms de (TOT), la recepcin real de la beca. Por ltimo,
probabilidades de terminar el octavo grado y pudieron efectuar un anlisis de costo-
registraron una desviacin estndar de 0,2 benecio para entender mejor el impacto del
puntos ms en las pruebas estandarizadas programa de vales tanto en los gastos de los
tres aos despus del sorteo inicial. Tambin hogares como del gobierno. Los investigado-
observaron que los efectos educativos res llegaron a la conclusin de que los costos
fueron mayores en las nias que los nios. sociales totales del programa eran pequeos
Luego examinaron el impacto del programa y se vean compensados por los retornos
en varios resultados no educativos y previstos para los participantes y sus fami-
observaron que era menos probable que los lias, lo que sugiere que los programas orien-
ganadores del sorteo estuvieran casados y tados a la demanda, como PACES, pueden
que trabajaban alrededor de 1,2 horas ser una solucin costo-efectiva para aumen-
menos por semana. tar los logros educativos.
Fuente: Angrist et al. (2002).
su control. Concretamente, la parte de la decisin que puede controlarse es

la asignacin a los grupos de tratamiento y comparacin. En la medida en
que la asignacin a los grupos de tratamiento y de comparacin predice la
inscripcin nal en el programa, la asignacin aleatoria se puede usar como
un instrumento para predecir la inscripcin nal. Tener esta VI permite
recuperar las estimaciones del LATE de las estimaciones del efecto de ITT
para el tipo de unidades Inscritos si se lo ofrecen.
Una variable VI debe satisfacer dos condiciones bsicas:
1. No debera estar correlacionada con las caractersticas de los grupos de
tratamiento y de comparacin. Esto se consigue asignando el tratamiento
aleatoriamente a las unidades en la muestra de evaluacin. Esto se
conoce como exogeneidad. Es importante que la VI no inuya directa-
mente en elresultado de inters. Los impactos deben ser causados ni-
camente a travs del programa que nos interesa evaluar.
2. Debe inuir en las tasas de participacin de los grupos de tratamiento
ycomparacin de manera diferente. Normalmente se piensa en aumen-
tar la participacin en el grupo de tratamiento. Esto se puede vericar
constatando que la participacin es ms alta en el grupo de tratamiento
que en el de comparacin. Esta condicin se conoce como relevancia.
Interpretacin de la estimacin del efecto promedio del

tratamiento local
La diferencia entre la estimacin de un ATE y la estimacin de un LATE es

especialmente importante cuando se trata de interpretar los resultados de
una evaluacin. Pinsese sistemticamente en cmo interpretar una esti-
macin LATE. En primer lugar, debe reconocerse que los individuos que
cumplen en un programa (el tipo Inscritos si se lo ofrecen) son diferentes de
los individuos que no cumplen (los tipos Nuncas y Siempres). Concretamente,
en el grupo de tratamiento, los no cumplidores/no participantes (Nuncas)
pueden ser aquellos que esperan ganar poco con la intervencin. En el
grupo de comparacin, los no cumplidores/participantes (Siempres) pro-
bablemente constituyan el grupo de individuos que esperan el mayor bene-
cio de participar. En el ejemplo de la formacin docente, los maestros
asignados a la capacitacin pero que deciden no participar (el tipo Nuncas)
pueden ser aquellos que creen que no necesitan formacin, maestros con
un mayor costo de oportunidad del tiempo (por ejemplo, porque tienen un
segundo empleo o porque tienen que cuidar de sus hijos), o maestros regi-
dos por una supervisin laxa, que pueden dejar de asistir sin tener proble-
mas. Por otro lado, los docentes asignados al grupo de comparacin pero
que se inscriben de todas maneras (el tipo Siempres) pueden ser aquellos
que creen que necesitan formacin, maestros que no tienen hijos que cui-
dar o maestros con un director estricto que insiste en que todos tienen que
recibir capacitacin.
En segundo lugar, se sabe que la estimacin LATE proporciona el
impacto para un subgrupo particular de la poblacin: tiene en cuenta solo
al subgrupo que no se ve afectado por ningn tipo de incumplimiento. En
otras palabras, tiene en cuenta solo el tipo Inscritos si se lo ofrecen. Dado
que el tipo Inscritos si se lo ofrecen es diferente de los Nuncas y de los
Siempres, el impacto que se halla a travs de la estimacin LATE no se
aplica a los tipos Nuncas o Siempres. Por ejemplo, si el ministerio de
Educacin decidiera implementar una segunda ronda de capacitacin y
pudiera obligar a los maestros Nuncas que no recibieron formacin en la
primera ronda a recibirla en esta ocasin, no se sabe si esos maestros ten-
dran efectos menores, iguales o mayores en comparacin con los partici-
pantes de la primera ronda. De la misma manera, si los docentes ms auto
motivados siempre encuentran una manera de seguir la capacitndose a
pesar de ser asignados de forma aleatoria al grupo de comparacin, el
LATE para los cumplidores de los grupos tanto de tratamiento como de
comparacin no proporciona informacin acerca del impacto del pro-
grama para los maestros sumamente motivados (los Siempres). La estima-
cin del LATE se aplica nicamente a un subconjunto especco de la
poblacin, a saber, aquellos tipos que no estn afectados por la falta de
cumplimiento es decir, solo el tipo cumplidor y no debera extrapolarse
a otros subconjuntos de la poblacin.
Promocin aleatoria como variable instrumental
En la seccin anterior, se expuso cmo estimar el impacto sobre la base de la

asignacin aleatoria del tratamiento, aun cuando el cumplimiento con los
grupos de tratamiento y comparacin originalmente asignados sea imper-
fecto. A continuacin, se propone un enfoque muy similar que se puede apli-
car a la evaluacin de programas que tienen elegibilidad universal o
inscripcin abierta, o en los que el administrador del programa no puede
controlar quin participa y quin no.
Este enfoque, denominado promocin aleatoria, proporciona un est-
mulo ms para que un conjunto aleatorio de unidades se inscriba en el
programa. Esta promocin aleatoria sirve como VI. Sirve como una fuente
externa de variacin que afecta la probabilidad de recibir tratamiento,
pero no est relacionada de ninguna forma con las caractersticas de los
participantes.
Los programas de participacin voluntaria suelen permitir que los indi-
viduos que se interesan en el programa decidan por s mismos si quieren
inscribirse y participar. Pinsese una vez ms en el programa de formacin
laboral tratado anteriormente, aunque esta vez la asignacin aleatoria no es
posible y cualquier individuo que desee inscribirse en el programa puede
hacerlo. De manera muy parecida a la del ejemplo anterior, se prev encon-
trar diferentes tipos de personas: cumplidores, un grupo de Siempres y un
grupo de Nuncas.
Siempres. Los individuos que siempre se inscribirn en el programa.
Nuncas. Los individuos que jams se inscribirn.

Cumplidores o Inscritos si se promueve. En este contexto cualquier indivi-
duo que quiera inscribirse en el programa puede hacerlo. Sin embargo,
algunos individuos pueden estar interesados en inscribirse, pero por
diversos motivos no tienen suciente informacin o el incentivo correcto
para hacerlo. En este caso, los cumplidores son aquellos que se inscriben
si se promueve. Se trata de un grupo de individuos que se anotan en el
programa solo si se les ofrece un incentivo adicional, un estmulo o moti-
vacin que los impulse a participar. Sin este estmulo adicional, los
Inscritos si se promueve sencillamente quedaran fuera del programa.
Para volver al ejemplo de la formacin para el empleo, si la agencia que orga-
niza la capacitacin est bien nanciada y tiene suciente capacidad, puede
que despliegue una poltica de puertas abiertas y trate a todas las personas
desempleadas que quieran participar. Sin embargo, es poco probable que
todas las personas desempleadas quieran participar o incluso que sepan que
el programa existe. Puede que algunas personas desempleadas tengan repa-
ros para inscribirse porque saben muy poco acerca del contenido de la for-
macin y les cuesta obtener informacin adicional. Supngase que la agencia
de formacin para el empleo contrata a un trabajador de extensin comuni-
taria para que se pasee por la ciudad a n de alentar a un grupo de personas
desempleadas seleccionado de forma aleatoria para que se inscriban en el
programa de formacin laboral. Con la lista de personas desempleadas ele-
gidas de manera aleatoria, llama a sus puertas, describe el programa de for-
macin y les ofrece ayuda para inscribirse en ese mismo momento. La visita
es una forma de promocin o estmulo para participar en el programa. Desde
luego, no se puede obligar a nadie a participar. Adems, las personas desem-
pleadas que el trabajador de extensin comunitaria no visita tambin pue-
den inscribirse, aunque tendrn que ir personalmente a la agencia para
hacerlo. Por lo tanto, ahora hay dos grupos de personas desempleadas: aque-
llas que fueron asignadas de modo aleatorio a una visita del trabajador
comunitario y aquellas que aleatoriamente no fueron visitadas. Si el esfuerzo
de extensin es efectivo, la tasa de inscripcin entre las personas desem-
pleadas que fueron visitadas debera ser superior a la tasa entre las personas
desempleadas que no fueron visitadas.
Pinsese ahora en cmo se puede evaluar este programa de formacin
laboral. No se puede simplemente comparar a las personas desempleadas
que se inscriben con aquellas que no se inscriben. Esto se debe a que los
desempleados que se inscriben probablemente sean muy diferentes de
aquellos que no lo hacen, tanto en sus caractersticas observables como no
observables. Puede que tengan un nivel educativo mayor o menor (esto
puede observarse con facilidad) y probablemente estn ms motivados y
deseosos de encontrar un empleo (esto es difcil de observar y medir).

Sin embargo, hay una variacin adicional que se puede explotar para
encontrar un grupo de comparacin vlido. Pinsese si se puede comparar
el grupo de personas que fueron asignadas aleatoriamente para recibir una
visita del trabajador de extensin con el grupo que no fue visitado. Dado que
los grupos con promocin y sin promocin fueron determinados de forma
aleatoria, ambos contienen composiciones idnticas de personas muy moti-
vadas (Siempres) que se inscribirn independientemente de que el trabaja-
dor de extensin llame a su puerta o no. Ambos grupos tambin contienen
personas no motivadas (Nuncas) que no se inscribirn en el programa, a
pesar de los esfuerzos del trabajador de extensin. Por ltimo, si el trabaja-
dor de extensin es efectivo motivando a las personas a inscribirse, algunos
(Inscritos si se promueve) se anotarn en el programa si el trabajador de
extensin los visita, pero no lo harn si no reciben dicha visita.
Dado que el trabajador de extensin visit a un grupo de individuos
asignados de manera aleatoria, puede derivarse una estimacin LATE,
como se sealaba anteriormente. La nica diferencia es que en lugar de
asignar el programa de modo aleatorio, se lo est promoviendo aleatoria-
mente. Siempre que los Inscritos si se promueve (que se inscriben cuando
sehace contacto con ellos pero no se anotan si no hay contacto) sean lo
sucientemente numerosos, entre el grupo con la promocin y el grupo sin
la promocin habr variaciones que permitirn identicar el impacto de la
formacin en los Inscritos si se promueve. En lugar de cumplir la asigna-
cin del tratamiento, los Inscritos si se promueve ahora cumplen con la
promocin.
Para que esta estrategia funcione, la actividad de promocin tiene que ser
efectiva y aumentar la inscripcin considerablemente en el grupo de
Inscritos si se promueve. Al mismo tiempo, las actividades de promocin en
s mismas no deberan inuir en los resultados nales de inters (como los
ingresos), dado que al nal lo que interesa sobre todo es estimar el impacto
del programa de formacin y no el impacto de la estrategia de promocin en
los resultados nales. Por ejemplo, si el trabajador de extensin ofreci
grandes cantidades de dinero a los desempleados para conseguir que se ins-
cribieran, sera difcil saber si algn cambio posterior en los ingresos fue
causado por la formacin o por la actividad de promocin.
La promocin aleatoria es una estrategia creativa que genera el equivalente
de un grupo de comparacin para los nes de la evaluacin de impacto. Se
puede usar cuando un programa tiene inscripcin abierta y es posible organi-
zar una campaa de promocin destinada a una muestra aleatoria de la pobla-
cin de inters. La promocin aleatoria es otro ejemplo de VI que permite
evaluar el impacto de manera no sesgada. Sin embargo, una vez ms, como
sucede con la asignacin aleatoria con cumplimiento imperfecto, las evalua-
ciones de impacto que dependen de la promocin aleatoria proporcionan una
estimacin LATE: una estimacin local del efecto en un subgrupo especco
de la poblacin, el grupo de Inscritos si se promueve. Como sucedi antes, esta
estimacin LATE no puede extrapolarse directamente al conjunto de la
poblacin, dado que los grupos de Siempres y Nuncas probablemente sean
bastante diferentes del grupo de Inscritos si se promueve.
Ha dicho promocin?
Concepto clave
La promocin aleatoria pretende aumentar la aceptacin de un programa La promocin aleatoria
voluntario en una submuestra de la poblacin seleccionada aleatoriamente. es un mtodo de
La promocin puede adoptar diversas formas. Por ejemplo, puede que se variables instrumenta-
decida iniciar una campaa de informacin para llegar a aquellas personas les que permite
que no se han inscrito porque no lo saban o porque no entienden cabalmente estimar el impacto de
manera no sesgada.
el contenido del programa. Tambin, se pueden ofrecer incentivos para ins-
Asigna aleatoriamente
cribirse, como pequeos obsequios o premios, o facilitando el transporte. una promocin o
Como se seal de manera ms general en el caso de las VI, para que el incentivo para
mtodo de promocin aleatoria genere una estimacin vlida del impacto participar en el
del programa debe cumplirse una serie de condiciones: programa. Es una
estrategia til para
1. Los grupos que son objeto y no objeto de la promocin deben ser simila- evaluar programas que
res. Es decir, las caractersticas promedio de los dos grupos deben ser estn abiertos a todos
los que sean elegibles.
estadsticamente equivalentes. Esto se consigue asignando de forma
aleatoria las actividades de extensin o promocin entre las unidades de
la muestra de evaluacin.
2. La propia promocin no debera inuir directamente en los resultados de
inters. Este es un requisito crtico, de modo que se pueda saber que los
cambios en los resultados de inters son provocados por el programa
mismo y no por la promocin.
3. La campaa de promocin debe alterar considerablemente las tasas de
inscripcin en el grupo objeto de la promocin en relacin con el grupo
que no ha sido objeto de la misma. Normalmente, se piensa en aumentar
la inscripcin mediante la promocin. Esto se puede vericar consta-
tando que las tasas de inscripcin sean ms altas en el grupo que es objeto
de la promocin que en el grupo que no lo es.
El proceso de promocin aleatoria
El proceso de promocin aleatoria se presenta en el grco 5.3. Al igual

quecon los mtodos anteriores, se comienza con la poblacin de unidades
elegibles para el programa. A diferencia de la asignacin aleatoria, ya no
se puede elegir aleatoriamente quin recibir el programa y quin no lo
Grco 5.3 Proceso de promocin aleatoria
1. Definir las unidades elegibles 2. Seleccionar la muestra 3. Realizar la promocin 4. Inscripcin

de evaluacin aleatoria del programa
Sin promocin
Promocin
Nunca Inscritos Siempre Validez externa Validez interna

si son
objeto de la
promocin
recibir, porque el programa es totalmente voluntario. Sin embargo, en la

poblacin de unidades elegibles, habr tres tipos de unidades:
Siempres. Aquellos que siempre quieren inscribirse en el programa.
Inscritos si se promueve. Aquellos que se inscriben en el programa solo si
son objeto de la promocin.
Nuncas. Aquellos que jams se inscriben en el programa, independiente-
mente de que sean objeto de la promocin o no.
Una vez ms, ntese que ser un Siempre, un Inscrito si se promueve o un
Nunca es una caracterstica intrnseca de las unidades que no se puede medir
fcilmente con un equipo de evaluacin del programa porque estrelacio-
nado con factores como la motivacin, la inteligencia y la informacin.
Una vez que se dene la poblacin elegible, el paso siguiente consiste en
seleccionar de manera aleatoria una muestra de la poblacin que formar
parte de la evaluacin. Estas son las unidades sobre las que se recopilan
datos. En algunos casos, por ejemplo, cuando se dispone de datos sobre
todas las unidades elegibles, se puede incluir al conjunto de la poblacin en
la muestra de evaluacin.
Una vez que se ha denido la muestra de evaluacin, la promocin
aleatoria asigna aleatoriamente la muestra mencionada en el grupo
objeto de la promocin y un grupo que no es objeto de ella. Dado que
tanto los miembros del grupo con promocin como los del grupo sin pro-
mocin se escogen de forma aleatoria, ambos grupos compartirn las
caractersticas de la muestra de evaluacin general, que sern equivalen-
tes a las caractersticas de la poblacin de las unidades elegibles. Por lo
tanto, el grupo que es objeto de la promocin y el grupo que no lo es
tendrn caractersticas similares.
Despus de acabar la campaa de promocin, pueden observarse las
tasas de inscripcin en ambos grupos. En el grupo sin promocin, se inscri-
birn solo los Siempres. Aunque se sabe qu unidades son Siempres en el
grupo sin promocin, en este grupo no se podr distinguir entre los Nuncas
y los Inscritos si se promueve. En cambio, en el grupo con promocin se ins-
cribirn tanto los Inscritos si se promueve como los Siempres, mientras que
los Nuncas no se anotarn. Por ello, en el grupo con promocin se podr
identicar al grupo de Nuncas, pero no se podr distinguir entre los Inscritos
si se promueve y los Siempres.
Estimacin de impacto bajo la promocin aleatoria
Imagnese que en un grupo de 10 individuos la campaa de promocin

aumenta la inscripcin de un 30% en el grupo sin promocin (3 Siempres) a
un 80% en el grupo con promocin (3 Siempres y 5 Inscritos si se promueve).
Supngase que el resultado promedio de todos los individuos del grupo sin
promocin (10 individuos) es 70, y que el resultado promedio de los indivi-
duos en el grupo con promocin (10 individuos) es 110 (grco 5.4). Cul
sera el impacto del programa?
Grco 5.4 Estimacin del efecto local promedio del tratamiento bajo la
promocin aleatoria
Grupo con promocin Grupo sin promocin Impacto
Porcentaje de inscritos = 80% Porcentaje de inscritos = 30% porcentaje de inscritos = 50%

Media Y para grupo con Media Y para grupo sin Y = 40
promocin = 110 promocin = 70 LATE = 40%/50% = 80
Nunca
Inscrito si
es objeto
de la
promocin
Siempre
Nota: Las guras que aparecen con el fondo sombreado corresponden a los que se inscriben.
= impacto causal; Y = resultado.

En primer lugar, calclese la simple diferencia de los resultados entre los
grupos con promocin y sin promocin, que es de 40 (110 - 70). Se sabe que
ningn elemento de esta diferencia de 40 proviene de los Nuncas porque
estos no se inscriben en ningn grupo. Tambin se sabe que ningn ele-
mento de la diferencia de 40 se debe a los Siempres porque estos se inscriben
en ambos grupos. Por lo tanto, toda la diferencia de 40 tendra que deberse
al grupo Inscritos si se promueve.
El segundo paso consiste en obtener la estimacin LATE del programa de
los Inscritos si se promueve. Se sabe que la diferencia de 40 entre los grupos
con promocin y sin promocin puede atribuirse a los Inscritos si se pro-
mueve, que constituyen solo el 50% de la poblacin. Para evaluar el efecto
promedio del programa en un cumplidor, se divide 40 por el porcentaje de
Inscritos si se promueve en la poblacin. Aunque no se puede identicar
directamente a los Inscritos si se promueve, se puede deducir cul debe ser
su porcentaje de la poblacin, es decir, la diferencia en las tasas de inscrip-
cin de los grupos con promocin y sin promocin (50%, o 0,5). Por lo tanto,
la estimacin del efecto local promedio del tratamiento del programa del
grupo Inscritos si se promueve es 40/0,5 = 80.
Dado que la promocin se asigna de forma aleatoria, los grupos con pro-
mocin y sin promocin tienen iguales caractersticas. Por lo tanto, las dife-
rencias que se observan en los resultados promedio entre los dos grupos
tienen que deberse al hecho de que en el grupo con promocin los Inscritos
si se promueve se inscriben, mientras que en el grupo sin promocin no lo
hacen. Una vez ms, los impactos estimados de los Inscritos si se promueve
no deberan extrapolarse directamente a otros grupos, puesto que es proba-
ble que sean bastante diferentes de los grupos que se inscriben Nunca y
Siempre. El recuadro 5.3 presenta un ejemplo de promocin aleatoria para
un proyecto en Bolivia.
Recuadro 5.3: Promocin de inversiones en infraestructura

educativa en Bolivia
En 1991 Bolivia institucionaliz y ampli un incorpor una evaluacin de impacto al
exitoso Fondo de Inversin Social (FIS) que diseo del programa.
ofreca nanciamiento a comunidades Como parte de la evaluacin de impacto
rurales para infraestructura de educacin, del componente educativo, se seleccionaron
salud y agua. El Banco Mundial, que aleatoriamente comunidades de la regin
contribua al nanciamiento del fondo, de Chaco para la promocin activa del FIS.

Recuadro 5.3: Promocin de inversiones en infraestructura educativa en Bolivia (contina)
Estas recibieron visitas adicionales de la electricidad, las instalaciones de sanea-
incentivos para participar. El programa miento, el nmero de libros de texto por
estaba abierto a todas las comunidades estudiante y la proporcin de estudiantes
elegibles en la regin y estaba orientado a por profesor. Sin embargo, detectaron un
la demanda, ya que las comunidades deban escaso impacto en los resultados educati-
solicitar fondos para un proyecto especco. vos, con la excepcin de un descenso de
La participacin fue mayor entre las alrededor del 2,5% en la tasa de abandono
comunidades con promocin. escolar. Como consecuencia de estas obser-
Newman et al. (2002) usaron la promo- vaciones, el Ministerio de Educacin y el FIS
cin aleatoria como variable instrumental. dedican ahora ms atencin y recursos al
Observaron que las inversiones en educa- software de la educacin, y solo nancian
cin lograron mejorar la calidad de ciertos mejoras de la infraestructura fsica cuando
aspectos de la infraestructura escolar, como forman parte de una intervencin integral.
Fuente: Newman et al. (2002).
Evaluacin de impacto del HISP: promocin aleatoria
A continuacin, se procurar utilizar el mtodo de promocin aleatoria

para evaluar el impacto del HISP. Supngase que el ministerio de Salud
toma la decisin ejecutiva de que el subsidio de seguro de salud debera
estar disponible inmediatamente para cualquier hogar que quiera inscri-
birse. Ntese que se trata de un escenario diferente del caso de asigna-
cin aleatoria que se ha estudiado hasta ahora. Sin embargo, usted sabe
que en trminos realistas esta ampliacin a nivel nacional ser progresiva
lo largo del tiempo, de modo que llega a un acuerdo para intentar acelerar
la inscripcin en un subconjunto aleatorio de pueblos mediante una
campaa de promocin. En una submuestra aleatoria de los pueblos,
usted emprende un esfuerzo intensivo de promocin que incluye la
comunicacin y el marketing social con el n de crear conciencia de la
existencia del HISP. Las actividades de promocin estn diseadas cui-
dadosamente para evitar contenidos que puedan incentivar de forma
involuntaria cambios en otros comportamientos relacionados con la
salud, dado que esto invalidara la promocin como VI. En cambio, la
promocin se concentra exclusivamente en aumentar la inscripcin en el
HISP. Despus de dos aos de promocin y de implementacin del pro-
grama, se observa que el 49,2% de los hogares de los pueblos que fueron

asignados aleatoriamente a la promocin se ha inscrito en el programa,
mientras que solo lo ha hecho un 8,4% de los hogares de los pueblos sin
promocin (cuadro 5.1).
Dado que los pueblos con promocin y sin promocin fueron asignados
aleatoriamente, se sabe que las caractersticas promedio de los dos grupos
deberan ser las mismas en ausencia de la promocin. Dicho supuesto
puede vericarse comparando los gastos bsicos en salud (as como cual-
quier otra caracterstica) de las dos poblaciones. Despus de dos aos de
implementacin del programa, se observa que el gasto promedio en salud
en los pueblos con promocin es de US$14,97 versus US$18,85 en las zonas
sin promocin (una diferencia inferior a US$3,87). Sin embargo, dado que
la nica diferencia entre los pueblos con promocin y sin promocin es
que la inscripcin en el programa ha sido ms alta en los pueblos con pro-
mocin (gracias a la campaa de promocin), esta diferencia de US$3,87
en gastos de salud tiene que deberse al 40,78% adicional de hogares que se
inscribieron en los pueblos con promocin debido precisamente a la pro-
mocin. Por lo tanto, hay que ajustar las diferencias en gastos sanitarios
para encontrar el impacto del programa en los Inscritos si se promueve.
Para esto, se divide la estimacin de la ITT es decir, la simple diferencia
entre los grupos con promocin y sin promocin por el porcentaje de
Inscritos si se promueve: 3,87/0,4078 = US$9,49. Su colega, un especialista
en econometra que sugiere utilizar la promocin aleatoria como variable
instrumental, estima el impacto del programa mediante un procedimiento
de mnimos cuadrados en dos etapas (vase el manual tcnico en lnea en
Cuadro 5.1 Evaluacin del HISP segn la promocin aleatoria

Pueblos con Pueblos sin

promocin promocin Diferencia t-estadstico
Lnea de
base: gasto
en salud de
los hogares 17,19 17,24 0,05 0,47
Encuesta de
seguimiento:
gasto en
salud de los
hogares 14,97 18,85 3,87 16,43
Participacin
en el HISP 49,20% 8,42% 40,78% 49,85

Cuadro 5.2 Evaluacin del HISP segn la promocin aleatoria

Impacto estimado
sobre el gasto en 9,50** 9,74**
salud de los hogares (0,52) (0,46)
Nota: Los errores estndares se encuentran entre parntesis.

www.worldbank.org/ieinpractice para ms detalles sobre el enfoque eco-

nomtrico para estimar los impactos con VI). Su colega encuentra los
resultados que aparecen en el cuadro 5.2. Este impacto estimado es vlido
para aquellos hogares que se inscribieron en el programa debido a la pro-
mocin, pero que de otra manera no se habran inscrito: en otras palabras,
los Inscritos si se promueve.
Pregunta HISP 4
A. Cules son las condiciones clave requeridas para aceptar los resulta-
dos de la evaluacin de promocin aleatoria del HISP?
B. Sobre la base de estos resultados, se debera ampliar el HISP a nivel
nacional?
Limitaciones del mtodo de promocin aleatoria
La promocin aleatoria es una estrategia til para evaluar el impacto de

programas voluntarios y programas con elegibilidad universal, sobre todo
porque no requiere la exclusin de ninguna unidad elegible. Sin embargo, el
enfoque tiene algunas limitaciones en comparacin con la asignacin alea-
toria del tratamiento.
En primer lugar, la estrategia de promocin debe ser efectiva. Si la cam-
paa de promocin no aumenta la inscripcin, no aparecer ninguna diferen-
cia entre los grupos con promocin y sin promocin, y no habr nada que
comparar. Por lo tanto, es crucial disear cuidadosamente la campaa de pro-
mocin y realizar una prueba piloto extensiva de la misma para asegurarse de
que ser efectiva. El aspecto positivo es que el diseo de dicha campaa puede
ayudar a los administradores del programa ensendoles cmo aumentar la
inscripcin despus de que haya concluido el perodo de evaluacin.
En segundo lugar, el mtodo de promocin aleatoria permite estimar el
impacto del programa solo para un subconjunto de la poblacin de unidades
elegibles (un LATE). Concretamente, el impacto promedio local del programa
se estima a partir del grupo de individuos que se inscriben nicamente cuando
se les incentiva a hacerlo. Sin embargo, puede que los individuos de este grupo
tengan caractersticas muy diferentes de aquellos que siempre se inscriben o
nunca se inscriben. Por lo tanto, el efecto promedio del tratamiento para el
conjunto de la poblacin puede ser distinto del efecto del tratamiento prome-
dio estimado para los individuos que participan solo cuando se les incentiva.
Una evaluacin con promocin aleatoria no estimar los impactos en el grupo
de individuos que se inscriben en el programa sin ser incentivados. En algu-
nos casos, este grupo (los Siempres) puede ser precisamente el grupo que el
programa est diseado para beneciar. En este contexto, el diseo de promo-
cin aleatoria arrojar luz sobre los impactos esperados en nuevas poblacio-
nes que se inscribiran debido a la promocin adicional, pero no en cuanto a la
poblacin que ya se ha inscrito por su propia iniciativa.
Lista de vericacin: promocin aleatoria como

variable instrumental
La promocin aleatoria genera estimaciones vlidas del contrafactual si la

campaa de promocin aumenta de forma considerable la aceptacin del
programa sin inuir directamente en los resultados de inters.
Las caractersticas de lnea de base, estn equilibradas entre las unida-
des que recibieron la campaa de promocin y aquellas que no la recibie-
ron? Comprense las caractersticas de lnea de base de los dos grupos.
La campaa de promocin, ha inuido de forma considerable en la acep-
tacin del programa? Tendra que inuir. Comprense las tasas de acep-
tacin del programa en las submuestras con promocin y sin promocin.
La campaa de promocin, inuye directamente en los resultados?
Notendra que inuir. Esto no puede comprobarse directamente, de modo
que tiene que depender de la teora, del sentido comn y del conocimiento
adecuado del entorno de la evaluacin de impacto como gua.
Para material de apoyo del libro e hipervnculos a recursos adicionales,

serecomienda consultar el sitio web de la Evaluacin de Impacto en la
Prctica (http://www.worldbank.org/ieinpractice).
Para otros recursos sobre VI, vase el portal de evaluacin del Banco
Interamericano de Desarrollo (BID) (http//:www.iadb.org/portalevaluacion).
Notas
1. En la ciencia mdica, los pacientes del grupo de comparacin suelen recibir

un placebo, es decir, una pldora edulcorada que no tendr efecto en el
resultado previsto. Esto se hace con el n de controlar mejor el efecto placebo,
es decir, los cambios potenciales en la conducta y los resultados que podran
darse sencillamente por el acto de recibir un tratamiento, aunque el trata-
miento mismo sea inefectivo.
2. Estos dos pasos corresponden a la tcnica economtrica de mnimos cuadrados
en dos etapas, que produce una estimacin del efecto local promedio del
tratamiento.
Angrist, J., E. Bettinger, E. Bloom, E. King y M. Kremer. 2002. Vouchers for Private
Schooling in Colombia: Evidence from a Randomized Natural Experiment.
American Economic Review 92 (5): 153558.
Kearney, M. S. y P. B. Levine. 2015. Early Childhood Education by MOOC: Lessons
from Sesame Street. Documento de trabajo NBER 21229, National Bureau of
Economic Research, Cambridge, MA.
Newman, J., M. Pradhan, L. B. Rawlings, G. Ridder, R. Coa y J. L. Evia. 2002. An
Impact Evaluation of Education, Health, and Water Supply Investments by the
Bolivian Social Investment Fund. World Bank Economic Review 16 (2): 24174.

CAPTULO 6
Diseo de regresin discontinua
Evaluacin de programas que utilizan un ndice

de elegibilidad
Los programas sociales a menudo utilizan un ndice para decidir quin

tiene derecho a inscribirse en un programa y quin no. Por ejemplo, los
programas de lucha contra la pobreza suelen focalizarse en los hogares
pobres, identicados mediante una puntuacin o un ndice de la pobreza.
El ndice de pobreza se puede basar en una frmula que mide un conjunto
de activos bsicos del hogar como factor aproximado (o estimativo) de sus
medios (como el ingreso, el consumo o el poder adquisitivo).1 Se clasica a
los hogares con baja puntuacin como pobres, y a los hogares con puntua-
ciones ms altas se les considera relativamente acomodados. Los progra-
mas de lucha contra la pobreza suelen establecer un umbral o una
puntuacin lmite, por debajo del cual se determina la condicin de
pobreza y la elegibilidad para el programa. El sistema de seleccin de
beneciarios del gasto social en Colombia es un ejemplo de este tipo
deesquema (vase el recuadro 6.1). Las puntuaciones en las pruebas edu-
cativas constituyen otro ejemplo (recuadro 6.3). Se puede conceder la
admisin a la universidad a los individuos que obtienen los mejores resul-
tados en las pruebas estandarizadas, calicados desde el ms bajo al ms
alto. Siel nmero de becas es limitado, solo sern admitidos los alumnos
conpuntuaciones por encima de un cierto umbral (como, por ejemplo, el
10% superior de los alumnos). En ambos ejemplos hay un ndice de
125
Recuadro 6.1: Uso del diseo de regresin discontinua para
evaluar el impacto de la reduccin de las tarifas escolares en
los ndices de matriculacin en Colombia
Barrera-Osorio, Linden y Urquiola (2007) uti- puntuacin SISBEN en la lnea de base;
lizaron un diseo de regresin discontinua en otras palabras, no hay saltos en las
(DRD) para evaluar el impacto de un pro- caractersticas en la puntuacin SISBEN. En
grama para reducir las tarifas escolares en segundo lugar, los hogares en ambos lados
Colombia (Gratuidad) sobre los ndices de de las puntuaciones lmite tienen caractersti-
matriculacin en los colegios de la ciudad cas similares, y generan grupos de compara-
de Bogot. El programa deni su poblacin cin crebles. En tercer lugar, se dispona de
objetivo sobre la base del SISBEN, un ndice una muestra grande de hogares. Por ltimo,
continuo de pobreza cuyo valor est deter- el gobierno mantuvo en secreto la frmula
minado por caractersticas de los hogares, utilizada para calcular el ndice SISBEN, de
como la ubicacin, los materiales de cons- modo que no se pudieran manipular las
truccin de la vivienda, los servicios de los puntuaciones.
que dispone, la demografa, la salud, la edu- Al usar el mtodo DRD, los investigado-
cacin, el ingreso y las ocupaciones de los res observaron que el programa tuvo un
miembros de la familia. El gobierno estable- impacto positivo signicativo en los ndices
ci dos puntuaciones lmite en el ndice de matriculacin escolar. Concretamente, la
SISBEN. As, los nios de los hogares con matriculacin fue 3 puntos porcentuales
puntuaciones inferiores a la primera puntua- ms alta en los alumnos de primaria de
cin lmite eran elegibles para recibir educa- hogares con puntuaciones inferiores a la
cin gratuita entre los grados 1 y 11, los primera puntuacin lmite y 6 puntos por-
nios de los hogares cuyas puntuaciones se centuales ms alta en los alumnos de
hallaban entre la primera y la segunda pun- secundaria de los hogares ubicados entre la
tuacin eran elegibles para un subsidio del primera y la segunda puntuacin lmite. Este
50% en las tarifas para los grados 10 y 11, y estudio aporta evidencia sobre los bene-
los nios de los hogares con puntuaciones cios de reducir los costos directos de la
superiores a la segunda puntuacin no eran escolarizacin, sobre todo entre los alum-
elegibles para recibir educacin gratuita ni nos en situacin de riesgo. Sin embargo,
subsidios. sus autores tambin recomiendan una
Los autores utilizaron un DRD por cuatro investigacin ms detallada sobre las elasti-
motivos. En primer lugar, las caractersticas cidades con respecto al precio para funda-
del hogar, como el ingreso o el nivel educa- mentar mejor el diseo de los programas
tivo del jefe de familia, son continuos en la de subsidios como este.
Fuente: Barrera-Osorio, Linden y Urquiola (2007).

elegibilidad continuo, as como tambin un umbral o una puntuacin
lmite que determina quin es elegible y quin no lo es.
El diseo de regresin discontinua (DRD) es un mtodo de evaluacin de
impacto que se puede utilizar en programas que tienen un ndice de elegibi-
lidad continuo con un umbral (puntuacin lmite) de elegibilidad denido
con claridad para determinar quin es elegible y quin no lo es. A n de
aplicar un DRD, deben cumplirse las siguientes condiciones:
1. El ndice debe clasicar a las personas o unidades de una manera conti-

nua o uida. ndices como el de pobreza, las puntuaciones de las
pruebas estandarizadas o la edad tienen numerosos valores que se pue-
den ordenar de menor a mayor y, por lo tanto, se pueden considerar
continuos. En cambio, las variables con categoras discretas que solo
tienen unos pocos valores posibles o no se pueden ordenar, no se consi-
deran continuas. Ejemplos de esta ltima clase son la condicin laboral
(empleado o desempleado), el nivel ms alto de estudios alcanzado
(primario, secundario, universitario o posgrado), la propiedad de un
automvil (s o no) o el pas de nacimiento.
2. El ndice debe tener una puntuacin lmite claramente denida, es decir,

un punto por debajo o por encima del cual se clasica a la poblacin
como elegible para el programa. Por ejemplo, los hogares con un ndice
de pobreza igual o menor a 50 sobre 100 se podran clasicar como
pobres, los individuos mayores de 67 aos se podran clasicar como ele-
gibles para una jubilacin, y los alumnos con una puntuacin superior a
90 sobre 100 podran considerarse elegibles para una beca. Las puntua-
ciones lmite en estos ejemplos son 50, 67 y 90 respectivamente.
3. La puntuacin lmite debe ser nica para el programa de inters, es decir, Concepto clave
aparte del programa que se evala, no debera haber otros programas que El diseo de regresin
utilicen la misma puntuacin lmite. Por ejemplo, si un ndice de pobreza discontinua (DRD) es un
por debajo de 50 clasica a un hogar para recibir una transferencia de mtodo de evaluacin de
impacto adecuado para
efectivo, un seguro de salud y transporte pblico gratis, no se podra uti-
programas que utilizan
lizar el mtodo DRD para estimar por s solo el impacto del programa de un ndice continuo para
transferencias de efectivo. clasicar a los
participantes potenciales
4. La puntuacin de un individuo o una unidad particular no puede ser y que tienen una
manipulada por los encuestadores, los beneciarios potenciales, los puntuacin lmite en el
administradores del programa o los polticos. ndice que determina si
los participantes
El DRD estima el impacto en torno a la puntuacin lmite de elegibilidad potenciales tienen
como la diferencia entre el resultado promedio de unidades del lado tratado derecho o no a
de la puntuacin lmite de elegibilidad y el resultado promedio de unidades beneciarse del
en el lado no tratado (comparacin) de la puntuacin lmite. programa.
Diseo de regresin discontinua 127

Pinsese en un programa agrcola cuyo n es aumentar la produccin
total de arroz subsidiando la compra de fertilizantes de los agricultores. El
programa est destinado a ncas pequeas y medianas con menos de 50
hectreas. Antes del comienzo del programa, se puede esperar que las ncas
ms pequeas tengan una produccin menor que las grandes, como se
muestra en el grco 6.1, que ilustra el tamao de la nca y la produccin de
arroz. En este caso, la puntuacin de elegibilidad es el nmero de hectreas
de la nca, y la puntuacin lmite es de 50 hectreas. Las reglas del pro-
grama establecen que las ncas por debajo de 50 hectreas son elegibles
para recibir subsidios para fertilizantes, y las ncas de 50 o ms hectreas no
lo son. Entonces, se puede prever que participar del programa una canti-
dad de ncas de 48, 49 o incluso 49,9 hectreas. Y habr otro grupo con 50,
50,1 y 50,2 hectreas que no participar del programa, porque esas ncas
superan la puntuacin lmite. Es probable que el grupo de ncas con 49,9
hectreas sea muy similar al grupo de aquellas que tienen 50,1 hectreas en
todos los aspectos, salvo que un grupo recibi el subsidio para fertilizantes y
el otro no. A medida que nos alejamos de la puntuacin lmite de elegibili-
dad, hay ms diferencias entre las ncas elegibles. Sin embargo, la extensin
de las ncas es una buena medida de sus diferencias, y permite controlar por
una buena parte de esas diferencias.
Grco 6.1 Produccin de arroz, ncas pequeas vs. ncas grandes

(lnea de base)
Produccin de arroz (fanegas por hectrea)
20
19
18
17
16
15
20 30 40 50 60 70 80
Hectreas de terreno
= produccin de las fincas > 50 hectreas

= produccin de las fincas < 50 hectreas

Una vez que el programa se pone en marcha y subvenciona el costo del
fertilizante de las ncas pequeas y medianas, la evaluacin de impacto
podra utilizar un DRD para evaluar su impacto (grco 6.2). El DRD cal-
cula el impacto como la diferencia en los resultados, por ejemplo, de la pro-
duccin de arroz, entre las unidades a ambos lados del lmite de elegibilidad,
que en este caso es un tamao de nca de 50 hectreas. Las ncas que eran
demasiado grandes para inscribirse en el programa constituyen el grupo de
comparacin y generan una estimacin del resultado contrafactual de esas
ncas del grupo de tratamiento que eran justo lo sucientemente pequeas
para inscribirse. Dado que estos dos grupos eran muy similares en la lnea de
base y estn expuestos al mismo conjunto de factores externos a lo largo del
tiempo (como el clima, los shocks de precios y las polticas agrcolas locales
y nacionales), el nico motivo plausible de la diferencia en los resultados
tiene que ser el propio programa.
Dado que el grupo de comparacin est compuesto por ncas que
superan la puntuacin de elegibilidad, el impacto dado por un DRD es
vlido solo a nivel local, es decir, en la cercana del lmite de elegibili-
dad. De esta manera, se obtiene una estimacin de un efecto local prome-
dio del tratamiento (LATE) (vase el captulo 5). El impacto del programa
de subvenciones de fertilizantes es vlido para las ncas ms grandes
Grco 6.2 Produccin de arroz, ncas pequeas vs. ncas grandes

(seguimiento)
Produccin de arroz (fanegas por hectrea)
20
19
A
18
17
B
A
16 = Impacto
B
15
20 30 40 50 60 70 80
Hectreas de terreno
= produccin de las fincas > 50 hectreas
= produccin de las fincas < 50 hectreas

dentro de aquellas de tamao medio, es decir, aquellas cuya extensin se
halla justo por debajo de las 50 hectreas. La evaluacin de impacto no
ser necesariamente capaz de identicar directamente el impacto del
programa en las ncas ms pequeas por ejemplo, las de 10 o 20 hect-
reas de supercie, donde los efectos de una subvencin de los fertili-
zantes podran diferir en aspectos importantes de las ncas de tamao
medio de 48 o 49 hectreas. Una ventaja del mtodo DRD es que una vez
que se aplican las reglas de elegibilidad del programa, no es preciso dejar
a ninguna unidad elegible sin tratamiento para los nes de la evaluacin
de impacto. La otra cara de la moneda es que los impactos de las obser-
vaciones lejos de la puntuacin lmite no se conocern. El recuadro 6.2
presenta un ejemplo del uso del DRD para evaluar un programa de redes
de proteccin social en Jamaica.
Recuadro 6.2: Redes de proteccin social basadas en un ndice de

pobreza en Jamaica
El mtodo de diseo de regresin puntuacin, Levy y Ohls (2010) pudieron
discontinua (DRD) se utiliz para evaluar el comparar los hogares justo por debajo del
impacto de una iniciativa de redes de umbral de elegibilidad con los hogares justo
proteccin social en Jamaica. En 2001 el por encima (con una diferencia de entre 2 y
gobierno de este pas lanz el programa 15 puntos con respecto a la puntuacin
Advancement through Health and Education lmite). Los investigadores justicaron el uso
(PATH) (Salud y Educacin para el Progreso) del mtodo de DRD con datos de lnea de
destinado a aumentar las inversiones en base que mostraban que los hogares de
capital humano y mejorar la focalizacin de tratamiento y comparacin tenan niveles
los benecios de las prestaciones sociales similares de pobreza, medidos por las pun-
para los pobres. El programa ofreca tuaciones de tipo proxy mean, y niveles
subsidios de salud y educacin a los nios similares de motivacin, dado que todos los
de los hogares pobres elegibles, con la hogares de la muestra haban postulado al
condicin de que asistieran a la escuela y programa. Los investigadores tambin utili-
realizaran chequeos mdicos de manera zaron la puntuacin de elegibilidad del pro-
regular. El benecio mensual promedio para grama en el anlisis de regresin para
cada nio fue de alrededor de US$6,50, controlar por cualquier diferencia entre
adems de una exencin estatal de ciertas ambos grupos.
tasas en salud y educacin. Levy y Ohls (2010) llegaron a la conclusin
Despus de determinar la elegibilidad de que el programa PATH aumentaba la
para el programa con una frmula de asistencia escolar de los nios de entre 6 y

Recuadro 6.2: Redes de proteccin social basadas en un ndice de pobreza en Jamaica (contina)
17 aos en una media de 0,5 das al mes, lo de que la magnitud de los impactos que
cual es signicativo, dado que la tasa de hallaron era en general consistente con los
asistencia ya era bastante alta (85%). programas de transferencias condicionadas
Adems, las visitas a los centros de salud de implementados en otros pases. Un aspecto
nios de 0 a 6 aos aumentaron en alrededor nal interesante de esta evaluacin es
de un 38%. Aunque los investigadores no que recopil tanto datos cuantitativos
pudieron encontrar ningn impacto de ms como cualitativos, utilizando sistemas de
largo plazo en los logros escolares ni en la informacin, entrevistas, grupos focales y
condicin de salud, llegaron a la conclusin encuestas de hogares.
Fuente: Levy y Ohls (2010).
El diseo de regresin discontinua difuso
Aun cuando se haya vericado que no existe evidencia de manipulacin en

el ndice de elegibilidad, puede que todava persista un problema si las uni-
dades no respetan su asignacin al grupo de tratamiento o de compara-
cin. En otras palabras, algunas unidades que tienen derecho al programa
sobre la base de su ndice de elegibilidad pueden decidir no participar,
mientras que otras unidades que no tenan derecho al programa sobre la
base de su ndice de elegibilidad pueden encontrar un modo de participar
de todas maneras. Cuando todas las unidades cumplen con la asignacin
que les corresponde sobre la base de su ndice de elegibilidad, se dice que
el DRD es ntido, y si hay incumplimiento en alguno de los lados de la
puntuacin lmite, se dice que el DRD es difuso (grco 6.3). Si el DRD es
difuso, se puede utilizar el enfoque de variable instrumental para corregir
por la falta de cumplimiento (vase el captulo 5). Recurdese que en el
caso de la asignacin aleatoria con incumplimiento, se utiliza la asignacin
aleatoria como la variable instrumental que ayud a corregir por la falta de
cumplimiento. En el caso del DRD, se puede usar la asignacin original
basada en el ndice de elegibilidad como variable instrumental. Sin
embargo, hacerlo tiene un inconveniente, a saber, que la estimacin de
impacto con el DRD instrumental ser ms localizada en el sentido de que
ya no es vlida para todas las observaciones cercanas a la puntuacin lmite
sino que representa el impacto para el subgrupo de la poblacin situada
cerca de la puntuacin lmite y que participa en el programa solo debido a
los criterios de elegibilidad.
Grco 6.3 Cumplimiento de la asignacin
a. DRD ntido b. DRD difuso

(pleno cumplimiento) (cumplimiento incompleto)
Porcentaje de hogares
que participan
que participan 100 100
50 50
10 10
30 40 50 60 70 80 30 40 50 60 70 80
ndice de pobreza de la ndice de pobreza de la
lnea de base lnea de base
Vericacin de la validez del diseo de regresin

discontinua
Para que un DRD produzca una estimacin LATE no sesgada de la puntua-

cin lmite, es importante que el ndice de elegibilidad no sea manipulado en
la cercana de la puntuacin lmite de modo que un individuo pueda cambiar
su condicin de tratamiento o control.2 La manipulacin de los criterios de
elegibilidad puede adoptar numerosas formas. Por ejemplo, los encuestadores
que recopilan los datos que se utilizan para calcular la puntuacin de elegibi-
lidad podran cambiar una o dos respuestas de los encuestados; o puede que
los encuestados mientan deliberadamente a los encuestadores si creen que
con eso tendrn acceso al programa. Adems, la manipulacin de las
puntuaciones puede agravarse a lo largo del tiempo, a medida que los encues-
tadores, los encuestados y los polticos comienzan a aprender las reglas del
juego. En el ejemplo de la subvencin de los fertilizantes, la manipulacin en
torno al lmite se producira si los agricultores pudieran alterar los ttulos de
propiedad o si dieran informes falsos sobre el tamao de sus ncas. O un
agricultor con 50,3 hectreas de tierra podra encontrar una manera de vender
media hectrea para ser elegible para el programa, en el caso de que los bene-
cios previstos de la subvencin a los fertilizantes merecieran la pena hacerlo.
Una de las seales que delata la manipulacin se ilustra en el grco 6.4.
El panel (a) muestra la distribucin de los hogares segn su ndice de lnea
de base cuando no hay manipulacin. La densidad de los hogares en torno al
lmite (50) es continua (o uida). El panel (b) presenta una situacin dife-
rente: un nmero mayor de hogares parecen estar agrupados justo por
Grco 6.4 Manipulacin del ndice de elegibilidad
a. Sin manipulacin b. Manipulacin

No elegible No elegible
Elegible Elegible
20 30 40 50 60 70 80 90 20 30 40 50 60 70 80 90
ndice de pobreza de la lnea de base ndice de pobreza de la lnea de base
Recuadro 6.3: El efecto en el desempeo escolar de la agrupacin

de alumnos segn sus puntuaciones en las pruebas educativas
en Kenia
Para comprobar si la asignacin de alumnos mejores resultados que aquellos asignados a
a clases sobre la base del desempeo mejora la seccin de bajo desempeo.
los resultados educativos, Duo, Dupas y En promedio, las puntuaciones de las prue-
Kemer (2011) llevaron a cabo un experimento bas nales de los colegios que agruparon
con 121 escuelas primarias en la regin occi- estudiantes en clases con niveles similares de
dental de Kenia. En la mitad de las escuelas, desempeo fueron 0,14 desviaciones estn-
los alumnos de primer grado fueron distribui- dar ms altas que en el caso de los colegios
dos de forma aleatoria en dos diferentes sec- que no usaron este mtodo y en cambio utili-
ciones de la clase. En la otra mitad de los zaron la asignacin aleatoria para crear grupos
colegios, los alumnos fueron asignados a equivalentes de estudiantes. Estos resultados
una seccin de alto o de bajo desempeo no fueron solo producto de los alumnos en las
segn sus puntuaciones en las pruebas ini- secciones de alto desempeo, dado que los
ciales, usando la puntuacin de las pruebas estudiantes de la seccin de bajo desempeo
educativas como punto lmite. tambin mostraron mejoras en las puntuacio-
El diseo de regresin discontinua (DRD) nes de las pruebas. En el caso de los alumnos
les permiti comprobar a los autores si la com- justo en torno a la puntuacin lmite, los inves-
posicin de los alumnos de una clase tena un tigadores encontraron que no haba una dife-
efecto directo en las puntuaciones de las prue- rencia signicativa en las puntuaciones nales
bas. Los investigadores compararon las pun- de las pruebas. Estas conclusiones rechazan
tuaciones nales de las pruebas de los alumnos la hiptesis de que los alumnos se benecian
justo en torno al lmite para ver si aquellos asig- directamente al tener compaeros de clase
nados a la seccin de alto desempeo tenan con un desempeo superior.
Fuente: Duo, Dupas y Kemer (2011).

debajo del lmite, mientras que hay relativamente pocos hogares justo por
encima del lmite. Dado que no hay un motivo a priori para creer que debe-
ra haber un gran cambio en el nmero de hogares justo en torno al lmite, la
ocurrencia de ese cambio en la distribucin en torno al lmite es una prueba
de que de alguna manera los hogares pueden estar manipulando sus pun-
tuaciones para tener acceso al programa. Una segunda prueba de manipula-
cin graca el ndice de elegibilidad en relacin con la variable de resultado
en la lnea de base y verica que no haya discontinuidad, o un salto, justo
en torno a la lnea del lmite.
Evaluacin de impacto del HISP: diseo de regresin

discontinua
Pinsese en cmo se puede aplicar el mtodo de diseo de regresin

discontinua (DRD) al Programa de Subsidios de Seguros de Salud (HISP).
Despus de llevar a cabo investigaciones sobre el diseo del HISP, se
descubre que adems de seleccionar aleatoriamente los pueblos de trata-
miento, las autoridades localizaron el programa en los hogares de bajos
ingresos utilizando la lnea nacional de pobreza. La lnea de la pobreza se
basa en un ndice de pobreza que asigna a cada hogar en el pas una pun-
tuacin entre 20 y 100 en funcin de sus activos, las condiciones de la
vivienda y la estructura sociodemogrca. La lnea de pobreza ha sido
jada ocialmente en 58. Esto signica que todos los hogares con una
puntuacin de 58 o menos se clasican como pobres, y que todos los
hogares con una puntuacin de ms de 58 se consideran no pobres.
Incluso en los pueblos de tratamiento, solo los hogares pobres son elegi-
bles para inscribirse en el HISP. La base de datos con la que se cuenta
contiene informacin tanto de los hogares pobres como de los no pobres
en las comunidades de tratamiento.
Antes de llevar a cabo las estimaciones del diseo de regresin discon-
tinua, se decide vericar si hay evidencia de manipulacin del ndice de
elegibilidad. Como primera medida, se verica si la densidad del ndice
de elegibilidad suscita alguna preocupacin a propsito de la manipula-
cin del ndice. Luego se graca el porcentaje de hogares en contraste con
el ndice de pobreza de la lnea de base (grco 6.5).3 El grco no seala
ninguna concentracin de los hogares justo por debajo del lmite de 58.
A continuacin, se verica si los hogares respetaron su asignacin a
los grupos de tratamiento y comparacin sobre la base de su puntuacin
de elegibilidad. Se grca la participacin en el programa en contraste
con el ndice de pobreza de lnea de base (grco 6.6) y se observa que

Grco 6.5 HISP: densidad de los hogares, segn el ndice de pobreza de
lnea de base
0,04
0,03
Densidad estimada
0,02
0,01
Elegible No elegible
58
0
20 40 60 80 100
ndice de pobreza de la lnea de base (20100)
Grco 6.6 Participacin en el HISP, segn el ndice de pobreza de lnea

de base
1,0
Tasa de participacin en el HISP
0,8
0,6
0,4
0,2
0
20 40 60 80 100

dos aos despus del comienzo del plan piloto, solo los hogares con una
puntuacin de 58 o menos (es decir, a la izquierda de la lnea de la
pobreza) han podido inscribirse en el HISP. Adems, todos los hogares
elegibles se inscribieron en el HISP. En otras palabras, se observa un
cumplimiento total, por lo cual se obtiene un DRD ntido.
A continuacin, se procede a aplicar el mtodo de DRD para calcular
el impacto del programa. Utilizando datos del seguimiento, se vuelve a
gracar la relacin entre las puntuaciones en el ndice de pobreza y los
gastos previstos en salud, y se observa la relacin que se ilustra en el
grco 6.7. En la relacin entre el ndice de pobreza y los gastos previstos
en salud, se encuentra una clara ruptura, o discontinuidad de la lnea de
pobreza (58).
La discontinuidad reeja una disminucin de los gastos en salud en
aquellos hogares elegibles para beneciarse del programa. Dado que los
hogares en ambos lados de la puntuacin lmite de 58 son muy similares,
la explicacin plausible de la diferencia en el nivel de gastos en salud es
que un grupo de los hogares era elegible para inscribirse en el programa
y el otro no. Esta diferencia se estima a travs de una regresin con los
datos recogidos en el cuadro 6.1.
Grco 6.7 ndice de pobreza y gastos en salud: el HISP dos aos despus
60
Gastos en salud (dlares de EE.UU.)
40
20 A
0 58
20 40 60 80 100
Gastos en salud (dlares de EE.UU.) Valores ajustados

Impacto estimado en el gasto en salud

Cuadro 6.1 Evaluacin del HISP: diseo de regresin discontinua con
anlisis de regresin
Regresin lineal multivariante

Impacto estimado en el gasto en salud de 9,03**
los hogares (0,43)
Nota: Los errores estndar estn entre parntesis. ** Signicativo al nivel del 1%.
Pregunta HISP 5
A. El resultado que se reeja en el cuadro 6.1, es vlido para todos los

hogares elegibles?
B. En comparacin con el impacto estimado con la asignacin aleatoria,
qu dice este resultado con respecto a los hogares con un ndice de
pobreza justo por debajo de 58?
C. De acuerdo con las estimaciones de impacto del DRD, se debera
ampliar el HISP a nivel nacional?
Limitaciones e interpretaciones del mtodo de

diseo de regresin discontinua
El diseo de regresin discontinua proporciona estimaciones del LATE en

torno al lmite de elegibilidad en el punto en que las unidades de trata-
miento y comparacin son ms similares. Cuanto ms se acerque uno a la
puntuacin lmite, ms similares sern las unidades a cada lado del umbral.
De hecho, si uno se aproxima mucho a la puntuacin lmite, las unidades a
ambos lados del umbral sern tan similares que su comparacin ser tan
buena como si los grupos de tratamiento y de comparacin se hubieran
elegido mediante la asignacin aleatoria del tratamiento.
Dado que el mtodo de DRD estima el impacto del programa en torno a
la puntuacin lmite, o localmente, la estimacin no se puede necesaria-
mente generalizar a unidades cuyas puntuaciones se alejan ms del umbral,
es decir, donde los individuos elegibles y no elegibles quiz no sean tan
similares. El hecho de que el mtodo de DRD no pueda proporcionar una
estimacin de un efecto de tratamiento promedio para todos los participan-
tes del programa puede verse a la vez como una fortaleza y como una limita-
cin, lo cual depende de la pregunta de la evaluacin de inters. Si la

evaluacin pretende responder la pregunta el programa debera existir o
no?, el efecto de tratamiento promedio para toda la poblacin elegible puede
ser el parmetro ms relevante, y es evidente que el DRD no ser del todo
perfecto. Sin embargo, si la cuestin de inters para las polticas es el pro-
grama debera suspenderse o ampliarse? es decir, para los beneciarios
(potenciales) justo en las inmediaciones del lmite, el DRD produce preci-
samente la estimacin local de inters para sustentar esta importante deci-
sin de poltica.
Como ya se seal, pueden surgir otras complicaciones cuando el cum-
plimiento en cualquiera de los dos lados del lmite es imperfecto. Este DRD
difuso se produce cuando las unidades que no son elegibles debido a su pun-
tuacin en el ndice consiguen tener acceso al programa, o cuando las unida-
des elegibles segn la puntuacin del ndice deciden no participar en el
programa. En este caso, se puede utilizar una metodologa de variable ins-
trumental similar a la denida en el captulo 5, a saber, la localizacin de las
unidades por encima o por debajo de la puntuacin lmite se usar como
variable instrumental para la participacin observada en el programa. Como
suceda en los ejemplos del captulo 5, esto tiene un inconveniente: solo se
puede estimar el impacto de aquellas unidades que son sensibles al crite-
rio de elegibilidad, esto es si se trata del tipo Inscrito si es elegible, pero no si
se trata del tipo Siempres o Nuncas.
El hecho de que el mtodo de DRD estime el impacto solo en las inmedia-
ciones de las puntuaciones lmite tambin genera dicultades en trminos
de la potencia estadstica del anlisis. En ocasiones, solo se emplea en el an-
lisis un conjunto limitado de observaciones que se sitan cerca de la puntua-
cin lmite, con lo cual el nmero de observaciones en el anlisis de DRD se
reduce, en comparacin con los mtodos que analizan todas las unidades en
los grupos de tratamiento y comparacin. Para obtener una potencia esta-
dstica suciente al aplicar el DRD, habr que utilizar un ancho de banda en
torno a la puntuacin lmite que incluya un nmero suciente de observa-
ciones. En la prctica, se debera intentar utilizar un ancho de banda lo ms
amplio posible, a la vez que se conserva el equilibrio en las caractersticas
observadas de la poblacin por encima y por debajo de la puntuacin lmite.
Luego, se puede aplicar la estimacin varias veces usando diferentes anchos
de banda para vericar si las estimaciones son sensibles al ancho de banda
utilizado.
Es necesario formular otra advertencia al utilizar el mtodo de DRD, a
saber, la especicacin puede ser sensible a la forma funcional que se emplea
para modelar la relacin entre la puntuacin de elegibilidad y el resultado
de inters. En los ejemplos presentados en este captulo, se da por sentado
que la relacin entre el ndice de elegibilidad y el resultado es lineal. En rea-
lidad, la relacin podra ser ms compleja, e incluir relaciones no lineales e
interacciones entre variables. Si uno no se da cuenta de estas relaciones
complejas en la estimacin, se las puede confundir con una discontinuidad,
lo que llevara a una interpretacin incorrecta de la estimacin de impacto
con DRD. En la prctica, se puede estimar el impacto del programa utili-
zando diversas formas funcionales (lineales, cuadrticas, cbicas, curticas,
y otras similares) para evaluar si, de hecho, las estimaciones de impacto son
sensibles a la forma funcional.
Por ltimo, como se seala ms arriba, hay unas cuantas condiciones
importantes para la regla de elegibilidad y el umbral. En primer lugar, deben
ser nicos del programa de inters. Por ejemplo, puede utilizarse un ndice
de pobreza que establezca un ranking de hogares o individuos para focalizar
una diversidad de programas sociales para los pobres. En este caso, no ser
posible aislar el impacto de un solo programa de lucha especca contra la
pobreza de todos los dems programas que utilizan los mismos criterios de
focalizacin. En segundo lugar, la regla de elegibilidad y el umbral deberan
ser resistentes a la manipulacin de los encuestadores, los beneciarios
potenciales, los administradores de los programas o los polticos. La mani-
pulacin del ndice de elegibilidad crea una discontinuidad en el ndice que
socava la condicin bsica para que el mtodo funcione, a saber, que el ndice
de elegibilidad debera ser continuo en torno al umbral.
Incluso con estas limitaciones, el DRD es un poderoso mtodo de evalua-
cin de impacto para generar estimaciones no sesgadas del impacto de un
programa en la cercana del lmite de elegibilidad. El DRD aprovecha las
reglas de asignacin del programa, a partir de ndices de elegibilidad conti-
nuos, que ya son habituales en numerosos programas sociales. Cuando se
aplican las reglas de focalizacin basadas en el ndice, no es necesario excluir
un grupo de hogares o individuos elegibles como beneciarios del trata-
miento a los nes de la evaluacin, porque se puede utilizar el diseo de
regresin discontinua como alternativa.
Lista de vericacin: diseo de regresin

discontinua
El DRD requiere que el ndice de elegibilidad sea continuo en torno a la pun-

tuacin lmite, y que las unidades sean similares en las cercanas por encima
o por debajo de la puntuacin lmite.
Es continuo el ndice en torno la puntuacin lmite en el momento de la
lnea de base?
Hay alguna evidencia de falta de cumplimiento de la regla que determine
la elegibilidad para el tratamiento? Comprubese que todas las unidades
elegibles y ninguna unidad no elegible han recibido el tratamiento. Si se
encuentra falta de cumplimiento, habr que combinar el DRD con un
enfoque de variable instrumental para corregir esta discontinuidad
difusa.4
Hay alguna evidencia de que las puntuaciones del ndice puedan haber
sido manipuladas con el n de inuir en quien tena derecho a bene-
ciarse del programa? Comprubese si la distribucin de la puntuacin del
ndice es uida en el punto lmite. Si se halla evidencia de una concen-
tracin de puntuaciones ya sea por encima o por debajo del punto lmite,
puede que esto sea una seal de manipulacin.
El umbral corresponde a un nico programa que se est evaluando o
est siendo usado por otros programas tambin?
Otros recursos
Para material de apoyo de este libro y para hipervnculos de otros recur-

sos, se recomienda consultar el sitio web de Evaluacin de Impacto en la
Prctica (http://www.worldbank.org/ieinpractice).
Para informacin acerca de la evaluacin de un programa de transferen-
cias de efectivo utilizando un DRD, vase la entrada en el blog de impacto
del desarrollo del Banco Mundial http://blogs.worldbank.org
/impactevaluations/.
Para una revisin de los temas prcticos en la implementacin del DRD,
vase G. Imbens y T. Lemieux (2008), Regression Discontinuity Designs:
A Guide to Practice. Journal of Econometrics 142 (2): 61535.
Notas
1. En ocasiones, esto se denomina prueba de medias proxy.

2. El ndice de elegibilidad continuo a veces se denomina variable forzada.
3. Nota tcnica: la densidad se estim utilizando el mtodo de estimacin univa-
riante del ncleo de Epanechnikov.
4. En este caso, se utilizara la localizacin a la izquierda o la derecha del punto
lmite como variable instrumental para la aceptacin del programa en la
prctica en la primera etapa de una estimacin de mnimos cuadrados en dos
etapas.

Barrera-Osorio, F., L. Linden y M. Urquiola. 2007. The Effects of User Fee

Reductions on Enrollment: Evidence from a Quasi-Experiment. Washington,
D.C.: Columbia University y Banco Mundial.
Duo, E., P. Dupas y M. Kremer. 2011. Peer Effects, Teacher Incentives, and the
Impact of Tracking: Evidence from a Randomized Evaluation in Kenya.
American Economic Review 101: 173974.
Imbens, G. y T. Lemieux. 2008. Regression Discontinuity Designs: A Guide to
Practice. Journal of Econometrics 142 (2): 61535.
Levy, D. y J. Ohls. 2010. Evaluation of Jamaicas PATH Conditional Cash Transfer
Programme. Journal of Development Effectiveness 2 (4): 42141.

CAPTULO 7
Diferencias en diferencias
Evaluacin de un programa cuando la regla de

asignacin es menos clara
Los tres mtodos de evaluacin de impacto analizados hasta ahora,

asignacin aleatoria, variables instrumentales (VI) y diseo de regresin
discontinua (DRD), estiman el contrafactual mediante reglas explcitas de
asignacin del programa que el equipo de evaluacin conoce y entiende. Se
ha visto por qu estos mtodos ofrecen estimaciones crebles del contrafac-
tual haciendo relativamente pocas suposiciones e imponiendo pocas condi-
ciones. Los dos prximos tipos de mtodos, diferencias en diferencias (DD)
y pareamiento, ofrecen al equipo de evaluacin herramientas adicionales
que pueden aplicarse cuando las reglas de asignacin del programa son
menos claras o cuando no es factible ninguno de los tres mtodos antes des-
critos. En casos como este, se suele utilizar tanto el mtodo de diferencias
en diferencias como el de pareamiento. Sin embargo, ambos tambin
requieren supuestos ms fuertes que la asignacin aleatoria, o los mtodos
de VI o DRD. Se entiende que si no se conoce la regla de asignacin del pro-
grama, hay una incgnita ms en la evaluacin, acerca de la cual se deben
formular supuestos. Dado que los supuestos no son necesariamente verda-
deros, puede que el mtodo de diferencias en diferencias o el de parea-
miento no siempre proporcionen estimaciones ables de los impactos de
los programas.
143
El mtodo de diferencias en diferencias
Concepto clave El mtodo de diferencias en diferencias contrasta las diferencias en los

El mtodo de resultados a lo largo del tiempo entre una poblacin inscrita en un programa
diferencias en (el grupo de tratamiento) y una poblacin no inscrita (el grupo de compara-
diferencias compara
cin). Pinsese, por ejemplo, en un programa de reparacin de carreteras
los cambios en los
resultados a lo largo
que se lleva a cabo a nivel de distrito pero que no se puede asignar aleatoria-
del tiempo entre mente entre distritos ni se asigna sobre la base de un ndice con un umbral
unidades inscritas en claramente denido, lo cual permitira un diseo de regresin discontinua.
un programa (el grupo Las juntas de los distritos pueden decidir inscribirse o no inscribirse en el
de tratamiento) y programa. Uno de los objetivos del programa consiste en mejorar el acceso
unidades que no lo
de la poblacin a los mercados laborales, y uno de los indicadores de resul-
estn (el grupo de
comparacin). Esto tados es la tasa de empleo. Como se analiz en el captulo 3, el solo hecho de
permite corregir observar el cambio antes y despus en las tasas de empleo en los distritos
cualquier diferencia que se inscriben en el programa no capturar el impacto causal del pro-
entre los grupos de grama porque es probable que muchos otros factores inuyan en el empleo
tratamiento y
a lo largo del tiempo. A la vez, comparar los distritos que se inscribieron y los
comparacin que sea
constante a lo largo
que no se inscribieron en el programa de reparacin de carreteras ser pro-
del tiempo. blemtico si existen motivos no observables por los que algunos distritos se
inscribieron en el programa y otros no lo hicieron (el problema de sesgo de
seleccin en el escenario de inscritos versus no inscritos).
Sin embargo, qu pasara si se combinan los dos mtodos y se comparan
los cambios antes-despus en los resultados de un grupo que se inscribi en
el programa con los cambios antes-despus de un grupo que no se inscribi
en el programa? La diferencia en los resultados antes-despus para el grupo
inscrito la primera diferencia controla por factores que son constantes a lo
largo del tiempo en ese grupo, puesto que se est comparando el propio
grupo consigo mismo. Sin embargo, todava quedan los factores externos
que varan con el tiempo (factores variables en el tiempo) en este grupo. Una
manera de capturar esos factores que varan en el tiempo es medir el cambio
antes-despus en los resultados de un grupo que no se inscribi en el pro-
grama pero que estuvo expuesto al mismo conjunto de condiciones ambien-
tales (la segunda diferencia). Si se limpia la primera diferencia de otros
factores variables en el tiempo que inuyen en el resultado de inters sustra-
yendo la segunda diferencia, se habr eliminado una fuente de sesgo que
resultaba preocupante en las comparaciones sencillas antes-despus. El
enfoque de diferencias en diferencias hace lo que su nombre sugiere: com-
bina las dos estimaciones falsas del contrafactual (comparaciones antes-des-
pus y comparaciones entre quienes se inscriben y quienes deciden no
hacerlo) para producir una mejor estimacin del contrafactual. En el ejem-
plo del programa de reparacin de carreteras, el mtodo DD podra compa-
rar los cambios en el empleo antes y despus de que se ponga en marcha el
programa en los individuos que viven en distritos que lo introdujeron con los
cambios en el empleo en los distritos donde no se implement el programa.
Es importante sealar que el contrafactual que se estima en este caso es
el cambio en los resultados del grupo de tratamiento. La estimacin de este
contrafactual es el cambio en los resultados del grupo de comparacin. Los
grupos de tratamiento y comparacin no tienen necesariamente que tener
las mismas condiciones antes de la intervencin. Sin embargo, para que el
mtodo de diferencias en diferencias sea vlido, el grupo de comparacin
debe mostrar con precisin el cambio en los resultados que habra experi-
mentado el grupo de tratamiento en ausencia de tratamiento. Para aplicar
diferencias en diferencias, hay que medir los resultados en el grupo que se
benecia del programa (el grupo de tratamiento) con los resultados del
grupo que no se benecia (el grupo de comparacin), tanto antes como des-
pus del programa. En el recuadro 7.1, se presenta un ejemplo de utilizacin
del mtodo DD para entender el impacto de los incentivos electorales en la
implementacin de un programa de transferencias condicionadas aplicado
en Brasil y en las tasas de desercin escolar.
Recuadro 7.1: Utilizacin del mtodo DD para entender el impacto

de los incentivos electorales en las tasas de abandono escolar en
Brasil
En un estudio emprico sobre los incentivos en el desempeo del programa en las dife-
electorales locales, De Janvry, Finan y Sadoulet rentes municipalidades. Para explorar esta
(2011) analizan los impactos de un programa variacin, los investigadores compararon la
de transferencias condicionadas en Brasil. El mejora en las tasas de abandono escolar en
programa Bolsa Escola entregaba a las madres los municipios cuyos alcaldes ejercan su pri-
de los hogares pobres una mensualidad con la mer mandato con los municipios donde los
condicin de que sus hijos asistieran a la alcaldes ya estaban en su segundo man-
escuela. Se trataba de un programa federal dato. Su hiptesis era que, dado que en
similar al de Oportunidades de Mxico (vanse Brasil existe un lmite de dos mandatos para
los recuadros 1.1 y 4.2), pero a nivel municipal. los cargos locales, a los alcaldes que se
Las municipalidades eran las encargadas de hallaban en su primer mandato les preocu-
identicar a los beneciarios e implementar el paba su reeleccin y, por lo tanto, actuaban
programa. de manera diferente que los alcaldes que
Utilizando el mtodo de diferencias en ejercan ya en su segundo mandato, que no
diferencias, los autores estimaron el impacto tenan esas preocupaciones.
del programa en las tasas de abandono En general, el programa tuvo xito y redujo
escolar, y encontraron una variacin notable las tasas de abandono escolar en un promedio
Diferencias en diferencias 145

Recuadro 7.1 Utilizacin del mtodo DD para entender el impacto de los incentivos electorales en las
tasas de abandono escolar en Brasil (contina)
del 8% entre los beneciarios. Los investiga- Su conclusin fue que las preocupaciones
dores observaron que el impacto del pro- acerca de la reeleccin incentivaron a los pol-
grama era un 36% mayor en los municipios ticos locales a aumentar sus esfuerzos en la
cuyos alcaldes ejercan su primer mandato. implementacin del programa Bolsa Escola.
Fuente: De Janvry, Finan y Sadoulet (2011).
Grco 7.1 El mtodo de diferencias en diferencias
Resultado- Grupo de
tasa de comparacin
empleo
D = 0,81
C = 0,78
B = 0,74
Impacto estimado = 0,11
E = 0,63
A = 0,60
Grupo de Tendencia del grupo de

tratamiento comparacin
Tiempo
Ao 2 Ao 1 Ao 0 Ao 1
Nota: Todas las diferencias entre los puntos deberan leerse como diferencias verticales de los
resultados en el eje vertical.
El grco 7.1 ilustra el mtodo de diferencias en diferencias en el ejemplo

de la reparacin de carreteras. El ao 0 es el ao de lnea de base. En el ao
1 se inscribe en el programa un grupo de distritos de tratamiento, mientras
que no lo hace un grupo de distritos de comparacin. El nivel de los resulta-
dos (la tasa de empleo) en el grupo de tratamiento va de A, antes del
comienzo del programa, a B, despus del comienzo del programa, mientras
que el resultado para el grupo de comparacin va de C, antes del comienzo
del programa, a D, despus del comienzo del programa.
Recurdense los dos falsos contrafactuales: la diferencia de los resulta-
dos antes y despus de la intervencin en el grupo de tratamiento (B-A) y la
diferencia de los resultados despus de la intervencin entre los grupos de
tratamiento y de comparacin (BD). Con las diferencias en diferencias, la
estimacin del contrafactual se obtiene calculando el cambio en los resul-
tados del grupo de comparacin (DC) y luego sustrayndolo del cambio en
los resultados del grupo de tratamiento (BA). Utilizar el cambio en los
resultados del grupo de comparacin como la estimacin del contrafactual
para el cambio en los resultados del grupo de tratamiento es similar a supo-
ner que si el grupo que se inscribi no hubiera participado en el programa,
sus resultados habran evolucionado a lo largo del tiempo siguiendo la
misma tendencia que el grupo que no se inscribi, es decir, la evolucin en
el resultado del grupo inscrito habra ido de A a E, como se muestra en el
grco 7.1.
En resumen, el impacto del programa se computa simplemente como la
diferencia entre dos diferencias:
Impacto de la DD = (B A) (D C) = (0,74 0,60) (0,81 0,78) = 0,11.
Las relaciones que se muestran en el grco 7.1 tambin pueden presen-

tarse en un cuadro sencillo. El cuadro 7.1 describe los componentes de las
estimaciones de diferencias en diferencias. La primera lnea contiene los
resultados del grupo de tratamiento antes de la intervencin (A) y despus
de la intervencin (B). La comparacin antes-despus del grupo de trata-
miento es la primera diferencia (BA). La segunda lnea contiene los resul-
tados del grupo de comparacin antes de la intervencin (C) y despus de
la intervencin (D), de modo que la segunda diferencia es (DC).
El mtodo de diferencias en diferencias computa la estimacin del impacto
de la siguiente manera:
1. Se calcula la diferencia del resultado (Y) entre las situaciones antes y

despus para el grupo de tratamiento (B A).
Cuadro 7.1 Clculo del mtodo de diferencias en diferencias
Despus Antes Diferencia

Tratamiento/inscritos B A BA
Comparacin/no inscritos D C DC
Diferencia BD AC DD = (B A) (D C)
Despus Antes Diferencia

Tratamiento/inscritos 0,74 0,60 0,14
Comparacin/no inscritos 0,81 0,78 0,03
Diferencia 0,07 0,18 DD = 0,14 0,03 = 0,11

2. Se calcula la diferencia del resultado (Y) entre las situaciones antes y des-
pus para el grupo de comparacin (D C).
3. A continuacin, se calcula la diferencia entre la diferencia en los resulta-
dos del grupo de tratamiento (B A) y la diferencia del grupo de compa-
racin (D C), o DD = (B A) (D C). Estas diferencias en diferencias
constituyen la estimacin del impacto.
Tambin se consideran las diferencias en diferencias en la direccin contra-
ria: se calcula primero la diferencia en el resultado entre el grupo de trata-
miento y el de comparacin en la situacin despus; luego se calcula la
diferencia en el resultado entre el grupo de tratamiento y de comparacin
en la situacin antes, y nalmente se sustrae este ltimo del primero.
Impacto DD = (B D) (A C) = (0,74 0,81) (0,60 0,78) = 0,11.
Qu utilidad tiene el mtodo de diferencias en

diferencias?
Para entender la utilidad de este mtodo, debe tomarse nuestro segundo

contrafactual falso, analizado en el captulo 3, que comparaba las unidades
inscritas con las no inscritas en un programa. Recurdese que la principal
preocupacin en este caso era que las dos series de unidades pudieran tener
caractersticas diferentes y que pueden ser dichas caractersticas y no el
programa las que explican la diferencia en los resultados entre los dos gru-
pos. Las diferencias no observadas en las caractersticas eran especialmente
preocupantes: por denicin, es imposible incluir las caractersticas no
observables en el anlisis.
El mtodo de diferencias en diferencias contribuye a resolver este pro-
blema en la medida en que se puede razonablemente suponer que muchas
caractersticas de las unidades o personas son constantes a lo largo del
tiempo (o invariables en el tiempo). Pinsese, por ejemplo, en caractersticas
observables, como el ao de nacimiento de una persona, la ubicacin de una
regin con respecto al ocano, la altura de la ciudad o el nivel de educacin
de los padres. Es probable que la mayora de estos tipos de variables, aunque
posiblemente relacionadas con los resultados, no cambien en el transcurso
de una evaluacin. Con el mismo razonamiento, podra llegarse a la conclu-
sin de que muchas caractersticas no observables de los individuos tam-
bin son ms o menos constantes a lo largo del tiempo. Pinsese, por
ejemplo, en los rasgos de la personalidad o el historial de salud de la familia.
Es posible que estas caractersticas intrnsecas de las personas no cambien
con el tiempo.
En lugar de contrastar los resultados entre los grupos de tratamiento y Concepto clave
comparacin despus de la intervencin, los mtodos de diferencias en En lugar de contrastar
diferencias estudian las tendencias entre los grupos de tratamiento y compa- resultados entre los
racin. La tendencia de un individuo es la diferencia en los resultados para grupos de tratamiento
ese individuo antes y despus del programa. Al sustraer la situacin de los y comparacin
despus de la
resultados antes de la situacin despus, se anula el efecto de todas las carac-
intervencin, los
tersticas que son nicas de ese individuo y que no cambian a lo largo del mtodos de
tiempo. En realidad, se est anulando (o controlando) no solo el efecto de diferencias en
caractersticas observables invariables en el tiempo, sino tambin el efecto diferencias comparan
de caractersticas no observables invariables en el tiempo, como las ya men- las tendencias entre
ambos grupos.
cionadas. En el recuadro 7.2 se describe un estudio que utiliz el mtodo de
diferencias en diferencias para estimar el impacto de una mayor presencia
policial en la incidencia de robos de vehculos en Buenos Aires.
Recuadro 7.2: Aplicacin del mtodo de diferencias en diferencias

para estudiar los efectos del despliegue policial en la tasa de
delitos en Argentina
DiTella y Schargrodsky (2005) analizaron si un policial en zonas con tasas de delitos ms
mayor despliegue de las fuerzas policiales redu- altas. En cambio, el incremento en el des-
ca los delitos en Argentina. En 1994 un ataque pliegue de la fuerza policial en Argentina no
terrorista contra un importante centro judo en estaba relacionado en absoluto con la inci-
Buenos Aires llev al gobierno argentino a dencia de los robos de vehculos, de modo
aumentar la proteccin policial de los edicios que el estudio no sufre de este problema de
relacionados con instituciones judas en el pas. causalidad simultnea. DiTella y Schargrodsky
Con el objetivo de entender el impacto de utilizaron el mtodo de diferencias en dife-
la presencia policial en la incidencia del rencias para estimar el impacto de la mayor
delito, los autores recopilaron datos sobre el presencia policial en la incidencia de los
nmero de robos de vehculos por manzana robos de vehculos.
en tres barrios en Buenos Aires antes y des- Los resultados revelaron un efecto disua-
pus del ataque terrorista. Luego combina- sorio positivo de la presencia policial en los
ron esta informacin con datos geogrcos delitos. Sin embargo, este efecto era locali-
sobre la ubicacin de instituciones judas en zado. En las manzanas donde haba edicios
aquellos barrios. Este estudio present un relacionados con instituciones judas que
enfoque diferente de las habituales regresio- tenan proteccin policial, los robos de veh-
nes utilizadas en la lucha contra el crimen. culos disminuyeron signicativamente en
Los trabajos sobre el impacto de la presencia comparacin con otras manzanas, a saber,
policial a menudo se enfrentan a un pro- en un 75%. Los investigadores no encontra-
blema de endogeneidad, puesto que los ron impactos en los robos de vehculos a una
gobiernos tienden a aumentar la presencia o dos manzanas de los edicios protegidos.
Fuente: DiTella y Schargrodsky (2005).

El supuesto de tendencias iguales en el
mtodo de diferencias en diferencias
A pesar de que las diferencias en diferencias permiten tener en cuenta las

diferencias entre los grupos de tratamiento y comparacin que son constan-
tes a lo largo del tiempo, no ayudan a eliminar las diferencias entre los gru-
pos de tratamiento y de comparacin que cambian con el tiempo. En el
ejemplo del programa de reparacin de carreteras, si las zonas de trata-
miento tambin se benecian de la construccin de un nuevo puerto mar-
timo al mismo tiempo que se produce la reparacin de las carreteras, el
efecto de esta ltima no podr separarse de la construccin del puerto mar-
timo utilizando un enfoque de diferencias en diferencias. Para que el mtodo
proporcione una estimacin vlida del contrafactual, se debe suponer que
no existen ese tipo de diferencias que varan en el tiempo entre los grupos de
tratamiento y comparacin.
Otra manera de pensar en esto es que, en ausencia del programa, las dife-
rencias en los resultados entre los grupos de tratamiento y comparacin ten-
dran que evolucionar de forma paralela. Es decir, sin el tratamiento, los
resultados tendran que aumentar o disminuir en la misma medida en ambos
grupos; los resultados tienen que mostrar tendencias iguales en ausencia de
tratamiento.
Desde luego, no hay manera de demostrar que las diferencias entre los
grupos de tratamiento y comparacin habran evolucionado de manera
paralela en ausencia del programa. El motivo es que no se puede observar
qu habra ocurrido con el grupo de tratamiento en ausencia del trata-
miento, es decir, no se puede observar el contrafactual.
Por lo tanto, cuando se emplea el mtodo de diferencias en diferencias, se
debe suponer que, en ausencia del programa, los resultados en el grupo de
tratamiento habran evolucionado de forma paralela con los resultados del
grupo de comparacin. El grco 7.2 ilustra un incumplimiento de este
supuesto fundamental. Si las tendencias de los resultados son diferentes
para los grupos de tratamiento y de comparacin, el efecto estimado de tra-
tamiento obtenido mediante mtodos de diferencias en diferencias sera
invlido o estara sesgado. Esto se debe a que la tendencia del grupo de com-
paracin no es una estimacin vlida de la tendencia contrafactual que
habra prevalecido en el grupo de tratamiento en ausencia del programa.
Como se muestra en el grco 7.2, si en realidad los resultados del grupo de
comparacin aumentan ms lentamente que los resultados del grupo de tra-
tamiento en ausencia del programa, utilizar la tendencia del grupo de com-
paracin como estimacin del contrafactual de la tendencia del grupo de
tratamiento conduce a una estimacin sesgada del impacto del programa.
Ms concretamente, se estara sobreestimando el impacto del programa.
Grco 7.2 Diferencias en diferencias cuando las tendencias de los
resultados son diferentes
Grupo de
Resultado- comparacin
tasa de
D = 0,81
empleo
C = 0,78
Contrafactual
verdadero
B = 0,74
Impacto verdadero < 0,11
A = 0,60 E = 0,63
Tendencia del grupo de

Grupo de
comparacin
tratamiento
Tiempo
Ao 2 Ao 1 Ao 0 Ao 1
Comprobacin del supuesto de igualdad de tendencias en el

mtodo de diferencias en diferencias
A pesar de que no se puede demostrar, la validez del supuesto funda-

mental de igualdad de tendencias se puede evaluar. Una primera veri-
cacin de validez consiste en contrastar los cambios en los resultados en
los grupos de tratamiento y comparacin en repetidas ocasiones antes
de la implementacin del programa. En el programa de reparacin de
carreteras, esto signica que se medira el cambio en la tasa de empleo
entre los grupos de tratamiento y comparacin antes del comienzo del
programa, es decir, entre el segundo y el primer ao, y entre el primer
ao y el ao cero. Si se ve que los resultados evolucionaban de forma
paralela antes del comienzo del programa, es razonable suponer que
habran seguido evolucionando de la misma manera despus de la inter-
vencin. Para vericar la igualdad de las tendencias antes de la inter-
vencin, se requieren al menos dos rondas de observaciones en los
grupos de tratamiento y comparacin antes del comienzo del programa.
Esto signica que la evaluacin requerira tres rondas de observaciones:
dos observaciones previas a la intervencin para valorar las tendencias
anteriores al programa, y al menos una observacin posterior a la inter-
vencin para evaluar el impacto mediante el mtodo de diferencias en
diferencias.
Una segunda manera de comprobar el supuesto de las tendencias iguales
sera llevar a cabo lo que se denomina prueba de placebo. Para esta prueba, se
realiza una segunda estimacin de diferencias en diferencias utilizando un
grupo de tratamiento falso, es decir, un grupo que, segn lo que el evalua-
dor sabe, no ha sido afectado por el programa. Por ejemplo, se quiere esti-
mar cmo las clases de apoyo para los alumnos del sptimo grado inuyen
en su probabilidad de asistir a la escuela, y entonces se eligen estudiantes de
octavo grado como grupo de comparacin. Para comprobar si los estudian-
tes de sptimo y octavo grado tienen las mismas tendencias en trminos de
asistencia escolar, podra vericarse que los estudiantes de octavo y de sexto
grado tengan las mismas tendencias. El evaluador sabe que los alumnos de
sexto grado no se vern afectados por el programa, de modo que si realiza
una estimacin de diferencias en diferencias utilizando a los alumnos de
octavo grado como grupo de comparacin y a los de sexto como el grupo de
tratamiento falso, tiene que obtener un impacto de cero. De lo contrario, el
impacto que encuentre se deber necesariamente a alguna diferencia fun-
damental en las tendencias entre los estudiantes de sexto y octavo grado.
Esto, a su vez, arroja dudas sobre si es vlido el supuesto de que los alumnos
de sptimo y octavo grado tienen tendencias iguales en ausencia del
programa.
Una tercera manera de probar el supuesto de tendencias iguales sera lle-
var a cabo la prueba de placebo no solo con un grupo de tratamiento falso,
sino tambin con un resultado falso. En el ejemplo de las clases de apoyo,
conviene comprobar la validez de utilizar a los alumnos de octavo grado
como grupo de comparacin estimando el impacto de las clases de apoyo en
un resultado que, segn lo que se sabe, no se ve afectado por dichas clases,
como, por ejemplo, el nmero de hermanos que los alumnos tienen. Si la
estimacin de diferencias en diferencias encuentra un impacto de las cla-
ses de apoyo en el nmero de hermanos de los alumnos, entonces ya se sabe
que el grupo de comparacin debe tener alguna falla.
Una cuarta manera de comprobar el supuesto de las tendencias iguales
consistira en aplicar el mtodo de diferencias en diferencias utilizando
diferentes grupos de comparacin. En el ejemplo de las clases de apoyo, pri-
mero se llevara a cabo la estimacin con los alumnos de octavo grado como
grupo de comparacin, y luego se realizara una segunda estimacin
tomando a los alumnos de sexto grado como grupo de comparacin. Si los
dos grupos son vlidos, se observar que el impacto estimado es aproxima-
damente el mismo en ambos clculos. En los recuadros 7.3 y 7.4 se presentan
dos ejemplos de una evaluacin de diferencias en diferencias que utilizan
una combinacin de estos mtodos para probar el supuesto de tendencias
iguales.

Recuadro 7.3: Comprobando el supuesto de tendencias iguales:
privatizacin del agua y mortalidad infantil en Argentina
Galiani, Gertler y Schargrodsky (2005) usaron relacin alguna con las crisis econmicas
el mtodo de diferencias en diferencias para ni con los niveles histricos de mortalidad
resolver una importante pregunta de las pol- infantil. Vericaron la solidez de sus obser-
ticas pblicas: la privatizacin de los servi- vaciones llevando a cabo una prueba pla-
cios de suministro de agua mejora los cebo con un resultado falso: distinguieron
resultados en materia de salud y contribuye al entre aquellas causas de mortalidad infan-
alivio de la pobreza? Durante la dcada de til relacionadas con la calidad del agua,
1990, Argentina inici una de las campaas como enfermedades infecciosas y parasi-
de privatizacin ms grandes de su historia y tarias, y aquellas no relacionadas con la
transri las compaas municipales de aguas calidad del agua, como los accidentes y las
a empresas privadas reguladas. El proceso de enfermedades congnitas. Luego proba-
privatizacin se produjo a lo largo de una ron el impacto de la privatizacin de los
dcada, y el mayor nmero de privatizaciones servicios de suministro de agua por sepa-
tuvo lugar despus de 1995, cubriendo alre- rado para los dos subconjuntos de causas
dedor del 30% de los municipios del pas y a de mortalidad. As, llegaron a la conclusin
un 60% de la poblacin. de que la privatizacin de los servicios de
La evaluacin aprovech el cambio de la suministro de agua estaba correlacionada
propiedad del servicio de aguas a lo largo del con la disminucin de las muertes por
tiempo para determinar el impacto de la pri- enfermedades infecciosas y parasitarias,
vatizacin sobre la tasa de mortalidad de los pero no estaba correlacionada con la dis-
menores de 5 aos. Antes de 1995, el ritmo minucin de las muertes por causas como
de reduccin de las tasas de mortalidad accidentes y enfermedades congnitas.
infantil era el mismo en todo el pas; des- Al nal, la evaluacin determin que la
pus de 1995, las tasas de mortalidad se mortalidad infantil se redujo cerca de un 8%
redujeron ms rpidamente en aquellos en las zonas donde se privatizaron los servi-
municipios donde se haba privatizado el cios, y que el efecto fue ms notable, de
suministro de agua. alrededor de un 26%, en las zonas ms
De acuerdo con los investigadores, en pobres, donde la ampliacin de la red de
este contexto es muy probable que se suministro de agua haba sido mayor. Este
cumpla el supuesto necesario para aplicar estudio arroj luz sobre diversos debates
el mtodo de diferencias en diferencias. fundamentales de polticas pblicas en rela-
Concretamente, los autores demostraron cin con la privatizacin de los servicios
que no se observaban diferencias en las pblicos. Los investigadores llegaron a la
tendencias de mortalidad infantil entre los conclusin de que en Argentina el sector pri-
municipios de comparacin y tratamiento vado regulado demostraba ser ms exitoso
antes de que comenzara la campaa que el sector pblico en la mejora de indica-
de privatizaciones. Tambin demostraron dores de acceso, servicio y, lo que es ms
que la decisin de privatizar no guardaba importante, mortalidad infantil.
Fuente: Galiani, Gertler y Schargrodsky (2005).

Recuadro 7.4: Poniendo a prueba el supuesto de tendencias
iguales: la construccin de escuelas en Indonesia
Duo (2001) analiz los impactos de un mtodo de estimacin vlido, primero
mediano y largo plazo de un programa para tuvo que probar el supuesto de tendencias
construir escuelas en Indonesia en los resul- iguales en diferentes distritos. Para hacerlo,
tados educativos y del mercado laboral. En utiliz una prueba de placebo con un grupo
1973 Indonesia se embarc en un programa de tratamiento falso. Compar la cohorte de
de construccin de escuelas primarias de 18 a 24 aos en 1974 con la cohorte de 12 a
gran escala, y se construyeron ms de 17 aos. Dado que ambas eran demasiado
61.000 establecimientos de este tipo. Para mayores para beneciarse del nuevo pro-
centrarse en los alumnos que no se haban grama, los cambios en sus niveles educati-
matriculado anteriormente en la escuela, el vos no deberan ser sistemticamente
gobierno asign el nmero de colegios que diferentes en los distintos distritos. La esti-
seran construidos en cada distrito en pro- macin de esta regresin de diferencias en
porcin al nmero de alumnos no matricula- diferencias era cercana a cero. Este resul-
dos en ese distrito. Duo deseaba evaluar el tado signicaba que los niveles educativos
impacto del programa en los niveles educa- antes de que el programa comenzara no
tivos y los salarios. La exposicin al trata- aumentaron ms rpidamente en las zonas
miento se midi por el nmero de escuelas que despus se convertiran en distritos de
de la regin, y los grupos de tratamiento y alta exposicin que en los distritos de baja
comparacin fueron identicados a partir de exposicin. La prueba de placebo tambin
la edad que tenan cuando se lanz el pro- mostr que la estrategia de basarse en la
grama. El grupo de tratamiento se compona edad en el momento de la construccin de
de varones nacidos despus de 1962, dado la escuela funcionara.
que habran sido lo bastante jvenes para La evaluacin encontr resultados positi-
beneciarse de las nuevas escuelas prima- vos en los niveles educativos y en los sala-
rias cuando estas se construyeron en 1974. rios de los alumnos con una alta exposicin
El grupo de comparacin estaba formado al programa, es decir, aquellos que tenan
por varones nacidos antes de 1962, que menos de 8 aos cuando se construyeron
habran sido demasiado mayores para bene- las escuelas. Para estos estudiantes, cada
ciarse del programa. nueva escuela construida por cada 1.000
Duo utiliz el mtodo de diferencias en nios se asociaba con una mejora de 0,12 a
diferencias para estimar el impacto del pro- 0,19 aos en los niveles educativos y un
grama en los logros educativos promedio de aumento del 3% al 5,4% en los salarios. El
los salarios, y compar las diferencias en los programa tambin aument en un 12% la
resultados entre distritos de alta y baja expo- probabilidad de que un nio completara la
sicin. A n de demostrar que se trataba de escuela primaria.
Fuente: Duo (2001).

Evaluacin del impacto del HISP: la aplicacin de
diferencias en diferencias
El mtodo de diferencias en diferencias se puede usar para evaluar el

Programa de Subsidios de Seguros de Salud (HISP, por sus siglas en
ingls). En este escenario, hay dos rondas de datos sobre dos grupos de
hogares: un grupo que se inscribi en el programa y otro que no lo hizo.
Si se recuerda el caso de los grupos inscritos y no inscritos, se ver que no
se puede simplemente comparar los gastos promedio en salud de los dos
grupos debido al sesgo de seleccin. Puesto que se cuenta con datos de
los perodos para cada hogar de la muestra, dichos datos se pueden usar
para resolver algunos de estos problemas comparando el cambio en los
gastos en salud de ambos grupos, suponiendo que el cambio en el gasto
en salud del grupo no inscrito reeje lo que habra ocurrido con los gas-
tos del grupo inscrito en ausencia del programa (vase el cuadro 7.2).
Ntese que no importa de qu manera se calcula la doble diferencia.
A continuacin, se estima el efecto utilizando anlisis de regresin
(cuadro 7.3). Recurriendo a una simple regresin lineal para computar la
estimacin simple de diferencias en diferencias, se observa que el programa
redujo los gastos en salud de los hogares en US$ 8,16. Luego se rena el an-
lisis aadiendo otras variables de control. En otras palabras, se emplea una
regresin lineal multivariante que tiene en cuenta mltiples otros factores,
yse observa la misma reduccin en los gastos de los hogares en salud.
Cuadro 7.2 Evaluacin del HISP: diferencias en diferencias (comparacin
de medias)
Despus Antes (lnea de Diferencia

(seguimiento) base)
Inscritos 7,84 14,49 6,65
No inscritos 22,30 20,79 1,51
Diferencia DD = 6,65 1,51 = 8,16
Nota: El cuadro presenta el gasto medio (en dlares) en salud de los hogares inscritos y no inscri-
tos, antes y despus de la introduccin del HISP.
Cuadro 7.3 Evaluacin del HISP: diferencias en diferencias (anlisis de

regresin)

Impacto estimado sobre
el gasto en salud de los 8,16** 8,16**
hogares (0,32) (0,32)
Nota: Los errores estndares estn entre parntesis.


Pregunta HISP 6
A. Qu supuestos bsicos son necesarios para aceptar este resultado de diferencias
en diferencias?
B. De acuerdo con los resultados de las diferencias en diferencias, se debera ampliar
el HISP a nivel nacional?
Limitaciones del mtodo de diferencias en

diferencias
Aun cuando las tendencias sean iguales antes del comienzo de la inter-
vencin, el sesgo en la estimacin de diferencias en diferencias puede
producirse y pasar inadvertido. Esto se debe a que el mtodo DD atri-
buye a la intervencin cualquier diferencia de las tendencias entre los
grupos de tratamiento y de comparacin que se producen desde el
momento en que la intervencin comienza. Si hay otros factores presen-
tes que inuyen en la diferencia en las tendencias entre los dos grupos, y
la regresin multivariante no rinde cuenta de ellos, la estimacin ser
invlida o sesgada.
Supngase que se intenta estimar el impacto en la produccin de arroz
con la subvencin de los fertilizantes y que esto se lleva a cabo midiendo la
produccin de arroz de los agricultores subvencionados (tratamiento) y de
los agricultores no subvencionados (comparacin) antes y despus de la dis-
tribucin de las subvenciones. Si en el ao 1 tiene lugar una sequa que afecta
solamente a los agricultores subvencionados, la estimacin de diferencias
en diferencias producir una estimacin invlida del impacto de subvencio-
nar los fertilizantes. En general, cualquier factor que afecte a uno de los dos
grupos de forma desproporcionada, y lo hace al mismo tiempo en que el
grupo de tratamiento recibe el tratamiento, sin que esto se tome en cuenta
en la regresin, puede potencialmente invalidar o sesgar la estimacin del
impacto del programa. El mtodo DD supone que no hay factores de este
tipo presentes.
Vericacin: diferencias en diferencias
Las diferencias en diferencias suponen que las tendencias de los resultados

son similares en los grupos de comparacin y tratamiento antes de la inter-
vencin y que los nicos factores que explican las diferencias en los
resultados entre ambos grupos, aparte del propio programa, son constantes
a lo largo del tiempo.
Los resultados habran evolucionado de forma paralela en los grupos
de tratamiento y comparacin en ausencia del programa? Esto se puede
evaluar utilizando diversas pruebas de falsicacin, como las siguien-
tes: 1) Los resultados en los grupos de tratamiento y comparacin evo-
lucionaban de modo paralelo antes de la intervencin? Si hay dos
rondas de datos disponibles antes del comienzo del programa, se debe
probar si existen diferencias en las tendencias que aparecen entre
ambos grupos; 2) Qu sucede con los resultados falsos que no deberan
verse afectados por el programa? Evolucionan de forma paralela antes
y despus del inicio de la intervencin en los grupos de tratamiento y
comparacin?
Realizar el anlisis de diferencias en diferencias utilizando varios grupos
plausibles de comparacin. Deberan obtenerse estimaciones similares
del impacto del programa.
Efectuar el anlisis de diferencias en diferencias usando los grupos de
tratamiento y comparacin elegidos, y un resultado falso que no debera
verse afectado por el programa. Debera encontrarse un impacto nulo del
programa en ese resultado.
Llevar adelante el anlisis de diferencias en diferencias utilizando la
variable de resultados elegida con dos grupos que, segn lo que se sabe,
no se vieron afectados por el programa. Debera observarse un impacto
cero del programa.
Otros recursos
Para material de apoyo del libro y para hipervnculos de recursos adicionales,

se recomienda consultar el sitio web de la Evaluacin de Impacto en la Prctica
(http://www.worldbank.org/ieinpractice).
Para ms referencias sobre los supuestos no dichos de las diferencias en dife-
rencias, vase la entrada correspondiente en el blog de Impacto del Desarrollo
del Banco Mundial (http://blogs.worldbank.org/impactevaluations).
De Janvry, A., F. Finan y E. Sadoulet. 2011. Local Electoral Incentives and Dec-
entralized Program Performance. The Review of Economics and Statistics 94
(3):67285.
DiTella, R. y E. Schargrodsky. 2005. Do Police Reduce Crime? Estimates Using the
Allocation of Police Forces after a Terrorist Attack. American Economic Review
94 (1): 11533.
Duo, E. 2001. Schooling and Labor Market Consequences of School Construction
in Indonesia: Evidence from an Unusual Policy Experiment. American
Galiani, S., P. Gertler y E. Schargrodsky. 2005. Water for Life: The Impact of the
Privatization of Water Services on Child Mortality. Journal of Political Economy
113 (1): 83120.

CAPTULO 8
Pareamiento
Construccin de un grupo de comparacin

articial
El mtodo que se describe en este captulo consiste en tcnicas estadsti- Concepto clave
cas a las que se denominarn pareamiento (matching). Los mtodos de El pareamiento utiliza
pareamiento se pueden aplicar en el contexto de casi todas las reglas de grandes bases de datos
asignacin de un programa, siempre que se cuente con un grupo que no y tcnicas estadsticas
haya participado en el mismo. El pareamiento utiliza tcnicas estadsticas para construir el mejor
grupo de comparacin
para construir un grupo de comparacin. Para cada unidad posible, el tra- posible sobre la base
tamiento intenta encontrar una unidad de no tratamiento (oconjunto de de caractersticas
unidades de no tratamiento) que tengan caractersticas lo ms parecidas observables.
posible. Pinsese en un caso en el que se propone evaluar el impacto de
un programa de capacitacin laboral sobre el ingreso y se cuenta con una
base de datos, como los registros de ingreso y las declaraciones tributarias,
que contiene tanto a los individuos que se inscribieron en el programa
como a los individuos que no lo hicieron. El programa que se intenta eva-
luar no tiene reglas de asignacin claras (como asignacin aleatoria o un
ndice de elegibilidad) que explique por qu ciertos individuos se inscri-
bieron en el programa y otros no lo hicieron. En este contexto, los mto-
dos de pareamiento permitirn identicar el conjunto de individuos no
inscritos que ms se parece a los individuos tratados, a partir de las carac-
tersticas que ya se tienen en la base de datos. Estos individuos no
159
inscritos pareados luego se convierten en el grupo de comparacin que se
emplea para estimar el contrafactual.
La bsqueda de una buena pareja para cada participante del programa
requiere aproximarse todo lo posible a las caractersticas que explican la
decisin del individuo de inscribirse en el programa. Desafortunadamente,
en la prctica esto es ms difcil. Si la lista de caractersticas observables rele-
vantes es muy grande, o si cada caracterstica adopta muchos valores, puede
que sea complicado identicar una pareja para cada una de las unidades del
grupo de tratamiento. A medida que aumenta el nmero de caractersticas o
dimensiones con las que se quiere parear las unidades que se inscribieron en
el programa, puede que uno se encuentre con lo que se denomina la maldicin
de la dimensionalidad. Por ejemplo, si solo se consideran tres caractersticas
importantes para identicar el grupo de comparacin del pareamiento, como
la edad, el sexo y si la persona tiene un diploma de estudios secundarios, es
probable que se encuentren parejas para todos los participantes que se inscri-
bieron en el programa entre el conjunto de aquellos que no se inscribieron
(los no inscritos), pero se corre el riesgo de dejar al margen otras caractersti-
cas potencialmente importantes. Sin embargo, sise aumenta la lista de carac-
tersticas por ejemplo, para incluir el nmero de hijos, el nmero de aos de
estudios, el nmero de meses que el individuo lleva desempleado, el nmero
de aos de experiencia, etc. puede que la base de datos no contenga una
buena pareja para la mayora de los participantes del programa que estn
inscritos, a menos que abarque un nmero muy grande de observaciones. El
grco 8.1 ilustra el pareamiento sobre la base de cuatro caractersticas: edad,
sexo, meses de desempleo, y diploma de estudios secundarios.
Grco 8.1 Pareamiento exacto en cuatro caractersticas
Unidades tratadas Unidades no tratadas
Meses Diploma de Meses Diploma de

Edad Gnero Edad Gnero
desempleado secundaria desempleado secundaria
19 1 3 0 24 1 8 1
35 1 12 1 38 0 1 0
41 0 17 1 58 1 7 1
23 1 6 0 21 0 2 1
55 0 21 1 34 1 20 0
27 0 4 1 41 0 17 1
24 1 8 1 46 0 9 0
46 0 3 0 41 0 11 1
33 0 12 1 19 1 3 0
40 1 2 0 27 0 4 0

Pareamiento por puntajes de propensin
Por suerte, la maldicin de la dimensionalidad puede solucionarse fcil-

mente utilizando un mtodo denominado pareamiento por puntajes de
propensin (propensity scrore-matching) (Rosenbaum y Rubin, 1983). Con
este enfoque, ya no se requiere que se intente parear a cada unidad inscrita
con una unidad no inscrita que tenga exactamente el mismo valor para
todas las caractersticas de control observables. En cambio, para cada uni-
dad del grupo de tratamiento y del conjunto de no inscritos, se computa la
probabilidad de que esta unidad se inscriba en el programa (el denominado
puntaje de propensin) sobre la base de los valores observados de sus carac-
tersticas (las variables explicativas). Esta puntuacin es un nmero real
entre 0 y 1 que resume la inuencia de todas las caractersticas observables
en la probabilidad de inscribirse en el programa. Deberan utilizarse solo
las caractersticas observables en la lnea de base para calcular el puntaje de
propensin. Esto se debe a que las caractersticas post tratamiento pueden
haberse visto afectadas por el propio programa, y el uso de dichas caracte-
rsticas para identicar a un grupo de comparacin pareado sesgara los
resultados. Cuando el tratamiento inuye en las caractersticas del indivi-
duo y se usan aquellas caractersticas para parear, se escoge un grupo de
comparacin que se parece al grupo de tratamiento debido al propio trata-
miento. Sin el tratamiento, esas caractersticas tendran un aspecto muy
diferente. Esto incumple el requisito bsico de una buena estimacin del
contrafactual, a saber: que el grupo de comparacin debe ser similar en
todos los aspectos, excepto en el hecho de que el grupo de tratamiento
recibe el tratamiento y el grupo de comparacin no lo recibe.
Una vez que se ha computado el puntaje de propensin de todas las
unidades, aquellas del grupo de tratamiento pueden parearse con unidades
en el conjunto de no inscritos que tienen los puntajes de propensin ms
cercanos.1 Estas unidades prximas se convierten en el grupo de compara-
cin y se utilizan para producir una estimacin del contrafactual. El mtodo
de pareamiento por puntajes de propensin intenta imitar la asignacin
aleatoria a los grupos de tratamiento y comparacin escogiendo para el
grupo de comparacin aquellas unidades que tienen propensiones similares
a las unidades del grupo de tratamiento. Dado que el pareamiento de punta-
jes de propensin no es un mtodo de asignacin aleatoria pero intenta
imitarlo, pertenece a la categora de mtodos cuasi-experimentales.
La diferencia promedio en los resultados entre las unidades de trata-
miento, o inscritas, y sus unidades de comparacin correspondientes genera
la estimacin del impacto del programa. En resumen, el impacto del pro-
grama se estima comparando los resultados promedio de un grupo de
Pareamiento 161
tratamiento, o inscrito, y el resultado promedio del subgrupo de unidades
estadsticamente pareadas, donde el pareamiento se basa en caractersticas
observables en los datos disponibles.
Para que el pareamiento por puntajes de propensin produzca estimacio-
nes del impacto de un programa para todas las observaciones tratadas, cada
unidad de tratamiento o inscrita debe parearse con una unidad no inscrita.2
Sin embargo, en la prctica puede ocurrir que, para algunas unidades inscri-
tas, no haya unidades en el conjunto de no inscritos que tengan puntajes de
propensin similares. En trminos tcnicos, puede que se produzca una
falta de rango comn, o falta de superposicin, entre los puntajes de propen-
sin del grupo de tratamiento o inscrito y los del conjunto de no inscritos.
El grco 8.2 representa un ejemplo de la falta de rango comn. En
primer lugar, se estima la probabilidad de que cada unidad de la muestra se
inscriba en el programa a partir de las caractersticas observables de esa
unidad, es decir, el puntaje de propensin. El grco muestra la distribucin
de los puntajes de propensin por separado para los inscritos y no inscritos.
El problema es que estas distribuciones no se superponen perfectamente.
En el medio de la distribucin, es relativamente fcil encontrar las parejas
porque hay tanto inscritos como no inscritos con estos niveles de puntajes
de propensin. Sin embargo, los inscritos con puntajes de propensin cerca-
nos a 1 no se pueden parear con ningn no inscrito porque no hay no inscri-
tos con puntajes de propensin tan altos. Hay tan poca similitud entre las
unidades que tienen muchas probabilidades de inscribirse en el programa y
Grco 8.2 Pareamiento por puntajes de propensin y rango comn
No inscritos Inscritos
Densidad
Rango comn
0 Puntaje de propensin 1

las unidades no inscritas que no se puede encontrar una buena pareja para
ellas. De la misma manera, los no inscritos con puntajes de propensin cer-
canos a 0 no pueden parearse con ningn inscrito porque no hay inscritos
que tengan puntajes de propensin tan bajos. Por lo tanto, en los extremos,
o colas, de la distribucin del puntaje de propensin aparece una falta de
rango comn. En este caso, el procedimiento de pareamiento estima el
efecto local promedio del tratamiento (LATE, por sus siglas en ingls) para
las observaciones sobre el rango comn.
Los pasos que hay que seguir cuando se aplica un pareamiento por pun-
tajes de propensin se resumen en Jalan y Ravaillon (2003).3 Primero, se
necesitarn encuestas representativas y altamente comparables en las que
se puedan identicar las unidades que se inscribieron en el programa y las
que no lo hicieron. Segundo, se renen las dos muestras y se estima la pro-
babilidad de que cada individuo se inscriba en el programa, a partir de las
caractersticas individuales observables en la encuesta. Este paso produce el
puntaje de propensin. Tercero, se limita la muestra a unidades para las que
aparece un rango comn en la distribucin del puntaje de propensin.
Cuarto, para cada unidad inscrita, se identica un subgrupo de unidades con
puntajes de propensin similares. Quinto, se comparan los resultados de las
unidades de tratamiento, o inscritas, y las parejas de las unidades de compa-
racin, o no inscritas. La diferencia de los resultados promedio de estos dos
subgrupos es la medida del impacto que se puede atribuir al programa para
esa observacin especca tratada. Sexto, la media de estos impactos indivi-
duales arroja una estimacin del efecto local promedio del tratamiento. En
la prctica, los programas estadsticos habitualmente usados incluyen
comandos que realizan los pasos 2 a 6 de manera automtica.
En general, es importante recordar tres cuestiones esenciales acerca del
pareamiento. En primer lugar, los mtodos de pareamiento solo pueden
utilizar caractersticas observables para construir grupos de comparacin,
dado que las caractersticas no observables no se pueden considerar. Si hay
alguna caracterstica no observable que inuye en la inscripcin o no
inscripcin de la unidad en el programa, y que tambin inuye en el resul-
tado, las estimaciones de impacto obtenidas con el grupo de comparacin
pareado estaran sesgadas. Para que el resultado del pareamiento no est
sesgado, requiere un supuesto de mucho peso, a saber: que no hay diferen-
cias no observables en el grupo de tratamiento y de comparacin que tam-
bin estn asociadas con los resultados de inters.
Segundo, el pareamiento debe realizarse utilizando solo caractersticas
que no estn afectadas por el programa. La mayora de las caractersticas
que se miden despus del comienzo del programa no perteneceran a esta
categora. Si los datos de lnea de base (antes de la intervencin) no estn
disponibles y los nicos datos son los existentes despus de que la
Pareamiento 163
intervencin ha comenzado, las nicas caractersticas que se podrn utilizar
para construir una muestra pareada sern aquellas (normalmente pocas)
caractersticas que no se ven afectadas por un programa, como la edad y el
sexo. Aunque se quisiera parear utilizando un conjunto mucho ms rico de
caractersticas, entre ellas los resultados de inters, no se podr hacerlo por-
que aquellas estn potencialmente afectadas por la intervencin. No se reco-
mienda el pareamiento basado nicamente en caractersticas posteriores a
la intervencin. Si hay datos de lnea de base disponibles, se puede realizar
el pareamiento sobre la base de un conjunto ms rico de caractersticas,
entre ellas, los resultados de inters. Dado que los datos se recopilan antes
de la intervencin, el programa no puede haber afectado aquellas variables
anteriores a la misma. Sin embargo, si hay datos de lnea de base sobre los
resultados disponibles, no se debera utilizar el mtodo de pareamiento solo,
sino que habra que combinarlo con diferencias en diferencias para reducir
el riesgo de sesgo. Este procedimiento se detallar en la prxima seccin.
Tercero, los resultados de la estimacin del mtodo de pareamiento
soloson tan buenos como las caractersticas que se utilizan para el parea-
miento. Si bien es importante poder parear utilizando un gran nmero de
caractersticas, lo es an ms poder parear sobre la base de caractersticas
que determinan la inscripcin. Cuanto ms se comprenda acerca de los cri-
terios utilizados para la seleccin de los participantes, en mejores condicio-
nes se estar de construir el grupo de comparacin.
La combinacin del pareamiento con otros

mtodos
Aunque la tcnica de pareamiento requiere un volumen importante de

datosy tiene un riesgo signicativo de sesgo, ha sido utilizada para evaluar
programas de desarrollo en una amplia gama de contextos. Los usos ms
convincentes del pareamiento son aquellos que combinan el pareamiento
con otros mtodos y aquellos que utilizan el mtodo de control sinttico. En
esta seccin, se analizarn las diferencias en diferencias pareadas y el
mtodo de control sinttico.
Diferencias en diferencias pareadas
Cuando dispone de datos de lnea de base sobre los resultados, el pareamiento

se puede combinar con diferencias en diferencias para reducir el riesgo de
sesgo en la estimacin. Como se ha analizado, el simple pareamiento con
puntajes de propensin no puede dar cuenta de caractersticas no observa-
bles que podran explicar por qu un grupo decide inscribirse en un
programa, y eso tambin podra afectar los resultados. El pareamiento
combinado con diferencias en diferencias al menos tiene en cuenta cual-
quier caracterstica no observable que sea constante a lo largo del tiempo
entre ambos grupos. Se implementa de la siguiente manera:
1. El pareamiento debe realizarse a partir de caractersticas observables de
la lnea de base (como se ha sealado).
2. Para cada unidad inscrita, se debe calcular el cambio en los resultados
entre los perodos antes y despus (primera diferencia).
3. Para cada unidad inscrita, calclese el cambio en los resultados entre los
perodos antes y despus para la comparacin pareada de esta unidad
(segunda diferencia).
4. Rstese la segunda diferencia de la primera diferencia, es decir, aplquese
el mtodo de diferencias en diferencias.
5. Por ltimo, calclese un promedio de esas dobles diferencias.
Los recuadros 8.1 y 8.2 proporcionan ejemplos de evaluaciones que utiliza-
ron el mtodo de diferencias en diferencias pareadas en la prctica.
Recuadro 8.1: Diferencias en diferencias pareadas: caminos

rurales y desarrollo del mercado local en Vietnam
En Vietnam, Mu y Van de Walle (2011) usaron de comparacin. Utilizando datos de una
el pareamiento de puntajes de propensin en encuesta de lnea de base, encontraron una
combinacin con el mtodo de diferencias diversidad de factores a nivel de la comuna
en diferencias para estimar el impacto de un que determinaba si un camino en ella era
programa de caminos rurales en el desarrollo seleccionado para el programa, como el
del mercado local a nivel de la comuna. Entre tamao de la poblacin, los porcentajes de
1997 y 2001, el gobierno vietnamita rehabi- las minoras tnicas, la calidad de vida, la
lit 5.000 km de caminos rurales. Los cami- densidad de los caminos existentes y la pre-
nos fueron seleccionados segn criterios de sencia de transporte de pasajeros. Estimaron
costo y de densidad demogrca. los puntajes de propensin basndose en
Dado que las comunas que se benecia- estas caractersticas y limitaron el tamao
ron de la reparacin de caminos no fueron de la muestra a la zona de rango comn.
seleccionadas de forma aleatoria, los investi- Esto dio como resultado 94 comunas de
gadores utilizaron el pareamiento de punta- tratamiento y 95 comunas de comparacin.
jes de propensin para construir un grupo Para limitar an ms el sesgo de seleccin
Pareamiento 165
Recuadro 8.1: Diferencias en diferencias pareadas: caminos rurales y desarrollo del mercado local en
Vietnam (contina)
potencial, los investigadores utilizaron dife- actividades agrcolas a actividades ms

rencias en diferencias para estimar el cam- relacionadas con los servicios, como la
bio en las condiciones del mercado local. confeccin de ropa y las peluqueras. Sin
Dos aos despus de iniciado el pro- embargo, los resultados variaban considera-
grama, los resultados indicaron que la blemente entre las comunas. En las ms
rehabilitacin de caminos produjo impactos pobres, los impactos tendan a ser mayores
positivos signicativos en la presencia y debido a los menores niveles de desarrollo
la frecuencia de los mercados locales y en la inicial del mercado. Los investigadores lle-
disponibilidad de servicios. En las comu- garon a la conclusin de que los proyectos
nas de tratamiento se desarroll un 10% de mejora de caminos pequeos pueden
ms de nuevos mercados que en las comu- tener impactos ms importantes si se foca-
nas de comparacin. En las primeras era lizan en zonas con un desarrollo de mercado
ms habitual que los hogares cambiaran de inicialmente bajo.
Fuente: Mu y Van de Walle (2011).
Recuadro 8.2: Pareamiento de diferencias en diferencias: suelos

de cemento, salud infantil y felicidad de las madres en Mxico
El Programa Piso Firme de Mxico ofrece a programa. Para mejorar la comparabilidad
los hogares con suelos de tierra hasta 50 m2 entre los grupos de tratamiento y compara-
de piso de cemento (vase el recuadro 2.1). cin, los investigadores limitaron su muestra
Piso Firme comenz como un programa a hogares de las ciudades vecinas situadas
local en el estado de Coahuila, pero fue justo a ambos lados de la frontera entre los
adoptado a nivel nacional. Cattaneo et al. dos estados. En esta muestra, utilizaron tc-
(2009) aprovecharon la variacin geogrca nicas de pareamiento para seleccionar los
para evaluar el impacto de esta iniciativa grupos de tratamiento y comparacin que
para la mejora de la vivienda a gran escala en eran ms similares. Las caractersticas pre-
la salud y en los resultados del bienestar. vias al tratamiento que se usaron fueron el
Los investigadores utilizaron el mtodo porcentaje de hogares con suelos de tierra,
de diferencias en diferencias junto con el el nmero de hijos pequeos y el nmero de
pareamiento para comparar a los hogares de hogares en cada bloque.
Coahuila con familias similares en el estado Adems del pareamiento, los auto-
vecino de Durango, que en el momento de la res utilizaron variables instrumentales para
encuesta todava no haba implementado el obtener estimaciones del LATE a partir de

Recuadro 8.2: Pareamiento de diferencias en diferencias: suelos de cemento, salud infantil y felicidad de
las madres en Mxico (contina)
las estimaciones del efecto de la intencin madres, que declararon un aumento del
de tratar. Con la oferta de un piso de 59% en la satisfaccin con la vivienda, un
cemento como variable instrumental para incremento del 69% en la satisfaccin con
determinar si los hogares tenan realmente la calidad de vida, una reduccin del 52%
suelos de cemento encontraron que el en la escala de evaluacin de la depresin
programa produca una reduccin del y una disminucin del 35% en una escala
18,2% de la presencia de parsitos, una de evaluacin del estrs percibido.
disminucin del 12,4% de la prevalencia Cattaneo et al. (2009) concluyeron que
de casos de diarrea y una baja del 19,4% Piso Firme tiene un impacto absoluto mayor
de la prevalencia de anemia. Adems, en el desarrollo cognitivo infantil con un
pudieron utilizar la variabilidad en el total costo menor que el programa de transferen-
del espacio del suelo realmente recubierto cias condicionadas de efectivo a gran escala
de cemento para predecir que una com- de Mxico, Progresa-Oportunidades, y que
pleta sustitucin de los pisos de tierra por otros programas comparables de suplemen-
pisos de cemento en un hogar producira tos nutricionales y estimulacin cognitiva
una reduccin del 78% de las infecciones temprana. Los pisos de cemento tambin
parasitarias, una disminucin del 59% de evitan mejor la proliferacin de infecciones
los casos de diarrea, una reduccin del parasitarias que el tratamiento habitual de
81% de la anemia y una mejora del 36% al eliminacin de parsitos. Los autores ar-
96% en el desarrollo cognitivo de los man que los programas para reemplazar los
nios. Los autores tambin recopilaron suelos de tierra con suelos de cemento tie-
datos sobre el bienestar de los adultos y nen probabilidades de mejorar la salud de
llegaron a la conclusin de que los pisos los nios de manera costo-efectiva en con-
de cemento hacen ms felices a las textos similares.
Fuente: Cattaneo et al. (2009).
El mtodo de control sinttico
El mtodo de control sinttico permite utilizar la estimacin del impacto

en contextos donde una nica unidad (como un pas, una empresa o un
hospital) es objeto de una intervencin o se expone a un evento. En lugar
de comparar esta unidad tratada con un grupo de unidades no tratadas,
el mtodo usa informacin sobre las caractersticas de la unidad tratada
y las unidades no tratadas para construir una unidad de comparacin
sinttica o articial, ponderando cada unidad no tratada de tal manera
que la unidad de comparacin sinttica se asemeje lo ms posible a la
unidad tratada. Esto requiere una extensa serie de observaciones de las
caractersticas de la unidad tratada y de las unidades no tratadas a lo
Pareamiento 167
largo del tiempo. Esta combinacin de unidades de comparacin en una
unidad sinttica proporciona una mejor comparacin para la unidad
tratada que cualquier unidad no tratada individualmente. El recuadro 8.3
presenta un ejemplo de una evaluacin para la cual se emple el mtodo
de control sinttico.
Recuadro 8.3: El mtodo de control sinttico: los efectos

econmicos de un conicto terrorista en Espaa
Abadie y Gardeazbal (2003) utilizaron el crecimiento econmico. Por lo tanto, la
mtodo de control sinttico para investigar comparacin entre el crecimiento del PIB
los efectos econmicos de un conicto de la economa vasca y del resto de Espaa
terrorista en el Pas Vasco. A comienzos de reejara tanto el efecto del terrorismo
los aos setenta el Pas Vasco era una como el efecto de estas diferencias en los
de las regiones ms ricas de Espaa. Sin factores determinantes del crecimiento
embargo, hacia nales de los aos noventa, econmico antes del comienzo del terro-
despus de 30 aos de conicto, haba rismo. En otras palabras, el enfoque de
cado hasta la sexta posicin en el producto diferencias en diferencias producira resul-
interno bruto (PIB) per cpita. En los albo- tados sesgados del impacto del terrorismo
res de los atentados terroristas a comien- en el crecimiento econmico del Pas
zos de los aos setenta, el Pas Vasco Vasco. Para lidiar con esta situacin, los
era diferente de otras regiones de Espaa autores utilizaron una combinacin de otras
en caractersticas que, segn se piensa, regiones espaolas, de modo de construir
estn relacionadas con el potencial de una regin de comparacin sinttica.
Fuente: Abadie y Gardeazbal (2003).
Evaluacin del impacto del HISP: la utilizacin de tcnicas

de pareamiento
Despus de conocer las tcnicas de pareamiento, puede que uno se pre-

gunte si podra usarlas para estimar el impacto del Programa de Subsidios
de Seguros de Salud (HISP, por sus siglas en ingls). Por ejemplo, se
decide utilizar tcnicas de pareamiento para seleccionar un grupo de
hogares no inscritos que parecen similares a los hogares inscritos a partir
de las caractersticas observables de la lnea de base. Para hacer esto, se
utiliza el paquete de pareamiento del software estadstico. Primero, se
debe estimar la probabilidad de que un hogar se inscriba en el programa

sobre la base de los valores observados de las caractersticas (las variables
explicativas), como la edad del jefe de hogar y del cnyuge, su nivel de
estudios, si el jefe del hogar es mujer, si el hogar es indgena, etc.
A continuacin, se llevar a cabo un pareamiento considerando dos
escenarios. En el primero, hay un gran conjunto de variables para pre-
decir la inscripcin, entre ellas las caractersticas socioeconmicas del
hogar. En el segundo, hay escasa informacin para predecir la inscrip-
cin (solo el nivel de estudios y la edad del jefe de hogar). Como se
muestra en el cuadro 8.1, la probabilidad de que un hogar se inscriba en
el programa es menor si el jefe de hogar es mayor, si tiene ms estudios,
si es mujer, o si el hogar cuenta con bao o posee un terreno ms
grande. Por el contrario, ser indgena, tener ms miembros en el hogar,
tener un suelo de tierray vivir ms lejos de un hospital son factores que
Cuadro 8.1 Estimacin del puntaje de propensin a partir de

caractersticas observables de la lnea de base
Todo el Conjunto
conjunto de limitado de
variables variables
Variable dependiente: inscritos = 1 explicativas explicativas
Variables explicativas: caractersticas

observables en la lnea de base Coeciente Coeciente
Edad del jefe del hogar (aos) 0,013** 0,021**
Edad del cnyuge (aos) 0,008** 0,041**
Nivel educativo del jefe del hogar (aos) 0,022**
Nivel educativo del cnyuge (aos) 0,016*
Jefe del hogar es mujer =1 0,020
Indgena = 1 0,161**
Nmero de miembros del hogar 0,119**
Suelo de tierra = 1 0,376**
Bao = 1 0,124**
Hectreas de terreno 0,028**
Distancia del hospital (km) 0,002**
Constante 0,497** 0,554**
Nota: Regresin probit. La variable dependiente equivale a 1 si el hogar est inscrito en el HISP y
0 en caso contrario. Los coecientes representan la contribucin de cada variable explicativa a la
probabilidad de que un hogar se inscriba en el HISP.
Nivel de signicancia: * = 5%; ** = 1%.
Pareamiento 169
aumentan la probabilidad de que un hogar se inscriba en el programa.
Por lo tanto, en general, parecera que los hogares ms pobres y con
menor nivel educativo tienen ms probabilidades de inscribirse, lo cual
es una buena noticia para un programa que se focaliza en las personas
pobres.
Ahora que el software ha estimado la probabilidad de que todos los
hogares se inscriban en el programa (el puntaje de propensin), se veri-
ca la distribucin del puntaje de propensin para los hogares de compa-
racin inscritos y pareados. El grco 8.3 muestra que el rango comn
(cuando se utiliza todo el conjunto de variables explicativas) se extiende
por toda la distribucin del puntaje de propensin. De hecho, ninguno de
los hogares inscritos queda marginado de la zona de rango comn. En
otras palabras, se puede encontrar un hogar de comparacin como pareja
para cada uno de los hogares inscritos.
Grco 8.3 Pareamiento para el HISP: rango comn
3
Densidad
0
0 ,2 ,4 ,6
Puntaje de propensin
No inscritos Inscritos
Se decide utilizar el pareamiento de vecino ms prximo, es decir, se

le pide al software que, para cada hogar inscrito, encuentre el hogar no
inscrito que tiene el puntaje de propensin ms cercano al hogar inscrito.
El software limita la muestra a aquellos hogares en los grupos de inscritos
y no inscritos para los que puede encontrar una pareja en el otro grupo.

Para obtener la estimacin de impacto utilizando el mtodo de parea-
miento, primero se calcula el impacto para cada hogar inscrito indivi-
dualmente (utilizando el hogar de comparacin pareado de cada hogar) y
luego se calcula el promedio de esos impactos individuales. El cuadro 8.2
muestra que el impacto estimado al aplicar este procedimiento es una
reduccin de US$9,95 en los gastos en salud de los hogares.
Por ltimo, el software tambin permite computar el error estndar en
la estimacin de impacto utilizando la regresin lineal (cuadro 8.3).4
Cuadro 8.2 Evaluacin del HISP: pareamiento de las caractersticas de

lnea de base y comparacin de medias
Inscritos Comparacin pareada Diferencia

Gasto en salud de 7,84 17,79 9,95
los hogares (US$) (usando el conjunto de
variables explicativas)
19,9 11,35
(utilizando un conjunto
limitado de variables
explicativas)
Nota: Este cuadro compara los gastos en salud promedio de los hogares en los hogares inscritos
y las parejas de hogares de comparacin.
Cuadro 8.3 Evaluacin del HISP: pareamiento de las caractersticas de

lnea de base y anlisis de regresin
Regresin lineal Regresin lineal

(pareamiento en todo (pareamiento en
el conjunto de conjunto limitado de
variables explicativas) variables explicativas)
Impacto estimado en
los gastos en salud 9,95** 11,35**
de los hogares (US$) (0,24) (0,22)

Nivel de signicancia: ** = 1%.
Se observa tambin que en los datos de las encuestas se cuenta con

informacin de los resultados de lnea de base, de modo que se deciden
utilizar las diferencias en diferencias pareadas adems de usar todo el
conjunto de variables explicativas. Es decir, se calcula la diferencia en los
gastos en salud de los hogares en el seguimiento entre hogares inscritos y
Pareamiento 171
hogares de comparacin pareados; se computa la diferencia en los gastos
en salud de los hogares en la lnea de base entre los hogares inscritos y las
parejas de comparacin; y luego se calcula la diferencia entre estas dos
diferencias. El cuadro 8.4 muestra el resultado de este enfoque de dife-
rencias en diferencias pareadas.
Cuadro 8.4 Evaluacin del HISP: mtodo de diferencias en diferencias

combinado con pareamiento en las caractersticas de lnea de base
Comparaciones
pareadas
utilizando el
conjunto de
variables
Inscritos explicativas Diferencia
Gastos en Seguimiento 7,84 17,79 9,95
salud de los Lnea de base 14,49 15,03 0,54
hogares
(US$) Diferencias
en
diferencias
pareadas
=9,41**
(0,19)
Nota: Los errores estndar estn entre parntesis y el clculo se realiz utilizando una
regresin lineal.
Nivel de signicancia: ** = 1%.
Pregunta HISP 7
A. Cules son los supuestos bsicos necesarios para aceptar estos resul-
tados sobre la base del mtodo de pareamiento?
B. Por qu los resultados del mtodo de pareamiento son diferentes si se
utiliza todo el conjunto vs. el conjunto limitado de variables
explicativas?
C. Qu sucede cuando se compara el resultado del mtodo de parea-
miento con el resultado de la asignacin aleatoria? Por qu los resul-
tados son tan diferentes en el pareamiento con un conjunto limitado
de variables explicativas? Por qu el resultado es ms parecido
cuando se realiza el pareamiento en todo el conjunto de variables
explicativas?
D. A partir del resultado del mtodo de pareamiento, debera ampliarse
el HISP a escala nacional?

Limitaciones del mtodo de pareamiento
Aunque los procedimientos de pareamiento se pueden aplicar en numero-

sos contextos, independientemente de las reglas de asignacin de un pro-
grama, tienen varias limitaciones importantes. En primer lugar, requieren
conjuntos de datos amplios sobre grandes muestras de unidades, e incluso
cuando estos estn disponibles, puede que se produzca una falta de rango
comn entre el grupo de tratamiento, o inscrito, y el conjunto de no parti-
cipantes. En segundo lugar, solo se puede aplicar el pareamiento basn-
dose en caractersticas observables; por denicin, no se pueden
incorporar las caractersticas no observables en el clculo del puntaje de
propensin. Por lo tanto, para que el procedimiento de pareamiento iden-
tique un grupo de comparacin vlido, no deben existir diferencias siste-
mticas en las caractersticas no observables entre las unidades de
tratamiento y las unidades de comparacin pareadas5 que podran inuir
en el resultado (Y). Dado que no se puede demostrar que existen esas
caractersticas no observables que inuyen en la participacin y en los
resultados, se debe suponer que no existen. Normalmente se trata de un
supuesto de mucho peso. A pesar de que el pareamiento contribuye a con-
trolar por caractersticas bsicas observables, nunca se puede descartar el
sesgo que nace de las caractersticas no observables. En resumen, el
supuesto de que no se ha producido un sesgo de seleccin debido a las
caractersticas no observables es de mucho peso y, lo que es ms proble-
mtico, no puede comprobarse.
El pareamiento por s solo suele ser menos robusto que los otros mto-
dos de evaluacin analizados, dado que requiere el fuerte supuesto de
que no hay caractersticas no observables que inuyan simultneamente
en la participacin en el programa y en sus resultados. Por otro lado, la
asignacin aleatoria, la variable instrumental y el diseo de regresin
discontinua no requieren el supuesto indemostrable de que no hay tales
variables no observables. Tampoco requieren muestras tan grandes o
caractersticas bsicas tan amplias como el pareamiento por puntajes de
propensin.
En la prctica, los mtodos de pareamiento suelen usarse cuando no es
posible recurrir a las opciones de asignacin aleatoria, variable instrumental
y diseo de regresin discontinua. El denominado pareamiento ex post es
muy riesgoso cuando no hay datos de lnea de base disponibles sobre el
resultado de inters o de las caractersticas bsicas. Si una evaluacin utiliza
datos de encuestas que fueron recopilados despus del comienzo del pro-
grama (es decir, ex post) para deducir las caractersticas bsicas de las
Pareamiento 173
unidades de la lnea de base y luego emparejar el grupo tratado con un grupo
de comparacin empleando esas caractersticas deducidas, puede empare-
jar involuntariamente basndose en caractersticas que tambin fueron
afectadas por el programa; en ese caso, el resultado de estimacin sera inv-
lido o estara sesgado.
Por el contrario, cuando se dispone de datos de lnea de base, el parea-
miento basado en las caractersticas bsicas puede ser muy til si se
combina con otras tcnicas, como el mtodo de diferencias en diferen-
cias, lo que permite corregir por las diferencias entre los grupos que son
jas a lo largo del tiempo. El pareamiento tambin es ms able cuando
se conocen las reglas de asignacin del programa y las variables funda-
mentales, en cuyo caso el pareamiento se puede llevar a cabo con esas
variables.
A estas alturas, es probable que quede claro que las evaluaciones de
impacto se disean mejor antes de que un programa comience a ser imple-
mentado. Una vez que el programa ha comenzado, si hay que inuir en cmo
se asigna y no se han recopilado datos de lnea de base, habr pocas o ninguna
opcin rigurosa para la evaluacin de impacto.
Vericacin: el pareamiento
El pareamiento se basa en el supuesto de que las unidades inscritas y no

inscritas son similares en trminos de cualquier variable no observable que
podra inuir tanto en la probabilidad de participar en el programa como en
el resultado.
La participacin en el programa est determinada por variables que no
se pueden observar? Esto no se puede comprobar directamente, de modo
que para orientarse habr que arse de la teora, del sentido comn y del
conocimiento adecuado del contexto de la evaluacin de impacto.
Las caractersticas observables estn bien equilibradas entre los subgru-
pos pareados? Comprense las caractersticas observables de cada grupo
de tratamiento y su grupo de unidades de comparacin pareados en la
lnea de base.
Se puede encontrar una unidad de comparacin pareada para cada uni-
dad de tratamiento? Verifquese si hay un rango comn suciente en la
distribucin de los puntajes de propensin. Las pequeas zonas de rango
comn o superposicin sealan que las personas inscritas y no inscritas
son muy diferentes, y aquello arroja dudas sobre si el pareamiento es un
mtodo creble.
Otros recursos
Para material de apoyo relacionado con este libro y para hipervnculos de ms

recursos, se recomienda consultar el sitio web de la Evaluacin de Impacto en
la Prctica (http://www.worldbank.org/ieinpractice).
Para ms informacin, consltese P. Rosenbaum (2002), Observational Studies
(2da. edicin), Springer Series in Statistics. Nueva York: Springer-Verlag.
Para ms informacin sobre la implementacin del pareamiento por puntajes
de propensin, vase C. Heinrich, A. Maffioli y G. Vsquez (2010), A Primer
for Applying Propensity-Score Matching. Impact-Evaluation Guidelines.
Nota tcnica del BID-TN-161. Washington, D.C.: BID.
Notas
1. Nota tcnica: en la prctica, se utilizan muchas deniciones de lo que constituye

la unidad ms prxima o cercana para llevar a cabo un pareamiento. Las
unidades de control ms cercanas se pueden denir sobre la base de una
estraticacin del puntaje de propensin la identicacin de los vecinos ms
prximos de la unidad de tratamiento, considerando la distancia, dentro de un
determinado radio o utilizando tcnicas de ncleo. Se considera una buena
prctica vericar la robustez de los resultados del pareamiento empleando
diversos algoritmos de pareamiento. Para ms detalles, vase Rosenbaum
(2002).
2. En este libro, el anlisis del pareamiento se centra en un pareamiento de uno a
uno. No se analizarn otros tipos de pareamiento, como el de uno a varios o el de
reemplazo/sin reemplazo. Sin embargo, en todos los casos el marco conceptual
descrito aqu seguira vigente.
3. En Rosenbaum (2002) se puede encontrar un anlisis detallado del parea-
miento.
4. Nota tcnica: cuando las puntuaciones de propensin de las unidades inscritas
no estn plenamente cubiertas por el rea de rango comn, los errores estndar
deberan estimarse utilizando un muestreo autodocimante en lugar de una
regresin lineal.
5. Para los lectores que tienen conocimientos de econometra, esto signica que la
participacin es independiente de los resultados, dadas las caractersticas
bsicas utilizadas para realizar el pareamiento.
Abadie, A. y J. Gardeazbal. 2003. The Economic Costs of Conict: A Case Study

of the Basque Country. American Economic Review 93 (1): 11332.
Cattaneo, M. D., S. Galiani, P. J. Gertler, S. Martnez y R. Titiunik. 2009. Housing,
Health, and Happiness. American Economic Journal: Economic Policy 1 (1):
75105.
Pareamiento 175
Heinrich, C., A. Maffioli y G. Vzquez. 2010. A Primer for Applying Propensity-
Score Matching. Impact-Evaluation Guidelines. Nota tcnica del BID-TN-161.
Washington, D.C.: BID.
Jalan, J. y M. Ravallion. 2003. Estimating the Benet Incidence of an Antipoverty
Program by Propensity-Score Matching. Journal of Business & Economic
Statistics 21 (1): 1930.
Mu, R. y D. Van de Walle. 2011. Rural Roads and Local Market Development in
Vietnam. Journal of Development Studies 47 (5): 70934.
Rosenbaum, P. 2002. Observational Studies (2da. edicin), Springer Series in
Statistics. Nueva York: Springer-Verlag.
Rosenbaum, P. y D. Rubin. 1983. The Central Role of the Propensity Score in
Observational Studies of Causal Effects. Biometrika 70 (1): 4155.

CAPTULO 9
Cmo abordar las dicultades

metodolgicas
Efectos heterogneos del tratamiento
Ya se ha visto que la mayora de los mtodos de evaluacin de impacto solo

producen estimaciones vlidas del contrafactual bajo supuestos especcos.
Elprincipal riesgo de cualquier mtodo es que sus supuestos fundamentales
no sean vlidos, lo que genera estimaciones sesgadas del impacto del pro-
grama que se evala. Sin embargo, tambin hay otros riesgos comunes en la
mayora de las metodologas que se han analizado. En este captulo, se exa-
minarn los principales.
Un tipo de riesgo surge cuando se estima el impacto de un programa en
todo un grupo y los resultados ocultan algunas diferencias en las respuestas al
tratamiento de los diferentes receptores, es decir, los efectos heterogneos del
tratamiento. La mayora de los mtodos de evaluacin de impacto supone que
un programa inuye en los resultados de una manera simple y lineal para
todas las unidades de la poblacin.
Sin embargo, si se piensa que diferentes subpoblaciones pueden haber
vivido el impacto de un programa de manera muy diferente, puede que con-
venga tener muestras estraticadas para cada subpoblacin. Supngase,
por ejemplo, que a uno le interesa conocer el impacto de un programa de
comida escolar en las nias, pero solo el 10% del alumnado est confor-
mado por nias. En ese caso, puede que incluso una muestra aleatoria
177
grande de alumnos no contenga un nmero suciente de nias como para
estimar el impacto del programa en ellas. Para el diseo de la muestra de
evaluacin, convendra estraticar la misma basndose en el sexo, e incluir
un nmero sucientemente grande de nias a n de poder detectar un
determinado tamao del efecto.
Efectos no intencionados en la conducta
Cuando se lleva a cabo una evaluacin de impacto, tambin puede suceder

que se induzca a respuestas no intencionadas en la conducta de la poblacin
que se estudia, a saber:
El efecto Hawthorne ocurre cuando debido al mero hecho de saber que
estn siendo observadas, las unidades se comportan de manera diferente
(vase el recuadro 9.1).
Recuadro 9.1: Cuentos tradicionales de la evaluacin de impacto:

el efecto Hawthorne y el efecto John Henry
La expresin efecto Hawthorne se reere a fueron objeto de polmicas y en alguna
los experimentos llevados a cabo entre medida se los desacredit, la expresin
1924 y 1932 en el Hawthorne Works, una efecto Hawthorne permaneci.
fbrica de equipos elctricos en el estado En cuanto al efecto John Henry, la expre-
de Illinois. Los experimentos probaron el sin fue acuada por Gary Saretsky en 1972
impacto del cambio en las condiciones de para referirse al legendario hroe popular
trabajo (como aumentar o disminuir la inten- John Henry, el hombre del taladro de
sidad de la luz) en la productividad de los acero encargado de horadar las rocas con
trabajadores, y llegaron a la conclusin de un taladro de acero para preparar los aguje-
que cualquier cambio en las condiciones de ros de los explosivos durante la construc-
trabajo (ms o menos luz, ms o menos cin de un tnel de ferrocarril. Segn cuenta
perodos de descanso, etc.) produca un la leyenda, cuando Henry supo que se le
aumento de la productividad. Esto se inter- comparaba con un taladro de acero, trabaj
pret como un efecto de observacin, esforzndose mucho ms para superar a la
es decir, los trabajadores que formaban propia mquina. Desafortunadamente, falle-
parte del experimento se vieron a s mis- ci como consecuencia de ello. Sin embargo,
mos como algo especial y su productividad la expresin sigue vigente para describir
aument debido a esto, y no debido al cam- cmo las unidades de comparacin a veces
bio en las condiciones de trabajo. Si bien los se esfuerzan ms para compensar el hecho
experimentos originales posteriormente de no ser objeto de un tratamiento.
Fuentes: Landsberger (1958).

El efecto John Henry se produce cuando las unidades de comparacin se
esfuerzan ms para compensar el hecho de no ser objeto del tratamiento
(vase el recuadro 9.1).
La anticipacin puede generar otro tipo de efecto no intencionado en la
conducta. En una aleatorizacin por fases, puede que las unidades del
grupo de comparacin esperen recibir el programa en el futuro y comien-
cen a cambiar su comportamiento antes de que el programa realmente se
materialice.
El sesgo por sustitucin es otro efecto en la conducta que inuye en el
grupo de comparacin: las unidades que no fueron seleccionadas para ser
objeto del programa pueden encontrar buenos sustitutos gracias a su
propia iniciativa.
Las respuestas en la conducta que afectan de manera desproporcionada al
grupo de comparacin constituyen un problema porque pueden socavar la
validez interna de los resultados de la evaluacin, aunque se use la asigna-
cin aleatoria como mtodo de evaluacin. Un grupo de comparacin que se
esfuerza ms para compensar el hecho de no ser objeto de un tratamiento, o
que cambia su conducta en previsin del programa, no es una buena repre-
sentacin del contrafactual.
Si se tiene algn motivo para creer que se pueden producir estas respuestas
no intencionadas en la conducta, a veces una opcin es constituir otros grupos
de comparacin que no se vean en absoluto afectados por la intervencin, es
decir, un grupo que permita explcitamente comprobar dichas respuestas.
Tambin puede que sea una buena idea recopilar datos cualitativos con el
n de entender mejor las respuestas en la conducta.
Imperfeccin del cumplimiento
La imperfeccin del cumplimiento es la discrepancia entre la condicin asig-

nada del tratamiento y la condicin real del mismo. La imperfeccin del
cumplimiento se produce cuando algunas unidades asignadas al grupo de
tratamiento no reciben tratamiento, y cuando algunas unidades asignadas
al grupo de comparacin reciben tratamiento. En el captulo 5 se estudia la
imperfeccin del cumplimiento en referencia a la asignacin aleatoria, si
bien la imperfeccin del cumplimiento tambin se puede producir con el
diseo de regresin discontinua (como se seala en el captulo 6) y con dife-
rencias en diferencias (captulo 7). Antes de que se puedan interpretar las
estimaciones de impacto que genera cualquier mtodo, es necesario saber si
se ha producido una imperfeccin del cumplimiento en el programa.
Cmo abordar las dicultades metodolgicas 179
La imperfeccin del cumplimiento puede tener lugar de diversas
maneras:
No todos los participantes previstos participan realmente en el programa.

A veces, algunas unidades asignadas a un programa deciden no participar.
Algunos participantes previstos son excluidos del programa debido a

errores administrativos o de ejecucin.
Se ofrece el programa por error a algunas unidades del grupo de compa-

racin, que se inscriben en l.
Algunas unidades del grupo de comparacin consiguen participar en el

programa a pesar de que no se les ofrece.
El programa se asigna a partir del ndice continuo de elegibilidad, pero

no se aplica estrictamente el umbral de elegibilidad.
Se produce una migracin selectiva en funcin de la condicin del trata-
miento. Por ejemplo, puede que la evaluacin compare los resultados en
los municipios tratados y no tratados, pero las personas pueden decidir
trasladarse a otro municipio si no les agrada la condicin de tratamiento
de su municipio.
En general, ante una situacin de imperfeccin del cumplimiento, los

mtodos normales de evaluacin de impacto producen estimaciones de la
intencin de tratar. Sin embargo, se pueden obtener estimaciones del tra-
tamiento en los tratados a partir de las estimaciones de la intencin de
tratar mediante el mtodo de variables instrumentales.
En el captulo 5 se explic la idea bsica para lidiar con la imperfeccin
del cumplimiento en el contexto de la asignacin aleatoria. Mediante un
ajuste del porcentaje de cumplidores en la muestra de la evaluacin, se
pudo recuperar el efecto local promedio del tratamiento en los cumplidores
a partir de la estimacin de la intencin de tratar. Este ajuste puede
ampliarse a otros mtodos mediante la aplicacin del enfoque ms general
de variables instrumentales. La variable instrumental contiene una fuente
externa de variacin que ayuda a eliminar o corregir el sesgo que puede
derivarse de la imperfeccin en el cumplimiento. En el caso de la asignacin
aleatoria con imperfeccin en el cumplimiento, se utiliza una variable 0/1
(denominada dummy) que asume el valor de 1 si la unidad estaba asignada
originalmente al grupo de tratamiento, y de 0 si la unidad estaba original-
mente asignada al grupo de comparacin. Durante la fase de anlisis, la
variable instrumental se usa con frecuencia en el contexto de una regresin
en dos fases que permite identicar el impacto del tratamiento en los
cumplidores.
La lgica del mtodo de variable instrumental puede aplicarse al contexto
de otros mtodos de evaluacin:
En el contexto del diseo de regresin discontinua, debe utilizarse una

variable 0/1 que indique si la unidad se encuentra en el lado no elegible o
elegible de la puntuacin lmite.
En el contexto de la migracin selectiva, una posible variable instrumen-
tal para la ubicacin del individuo despus del comienzo del programa
sera la ubicacin del individuo antes del anuncio del programa.
A pesar de la posibilidad de abordar la imperfeccin en el cumplimiento

utilizando variables instrumentales, es necesario recordar tres puntos:
1. Desde un punto de vista tcnico, no es deseable que una gran parte del
grupo de comparacin se inscriba en el programa. A medida que
aumenta la proporcin del grupo de comparacin que se inscribe en el
programa, la fraccin de cumplidores en la poblacin disminuir, y el
efecto local promedio del tratamiento estimado con el mtodo de varia-
ble instrumental ser vlido solo para una fraccin cada vez ms
pequea de la poblacin de inters. Si esto se extiende demasiado, puede
que los resultados pierdan toda relevancia para las polticas, dado que ya
no seran aplicables a una parte sucientemente grande de la poblacin
de inters.
2. Tampoco es deseable que una parte grande del grupo de tratamiento
siga sin inscribirse. Una vez ms, a medida que la fraccin del grupo
de tratamiento que se inscribe en el programa disminuye, tambin lo
hace la fraccin de cumplidores de la poblacin. El efecto prome-
dio del tratamiento estimado con el mtodo de variable instrumental
ser vlido solo para una fraccin cada vez menor de la poblacin de
inters.
3. Como ya se trat en el captulo 5, el mtodo de variables instrumentales
es vlido solo en ciertas circunstancias; decididamente no es una solu-
cin universal.
El efecto de derrame
Los derrames (o efectos de derrame) son otro problema habitual a los que se
enfrentan las evaluaciones, sea que se aplique el mtodo de asignacin alea-
toria, el de diseo de regresin discontinua o el de diferencias en diferen-
cias. Un derrame se produce cuando una intervencin afecta a un no
participante, y puede ser positivo o negativo. Hay cuatro tipos de efectos de
derrame, segn Angelucci y Di Maro (2015):
Externalidades. Se trata de efectos que van de los sujetos tratados a los

sujetos no tratados. Por ejemplo, vacunar contra la gripe a los nios de un
pueblo reduce la probabilidad de que los habitantes no vacunados del
mismo pueblo contraigan esa enfermedad. Se trata de un ejemplo de
externalidades positivas. Las externalidades tambin pueden ser negati-
vas. Por ejemplo, los cultivos de un agricultor pueden verse parcialmente
destruidos si su vecino aplica un herbicida en su propio terreno y parte
del herbicida cae sobre el otro lado de la lnea divisoria de la propiedad.
Interaccin social. Los efectos de derrame pueden ser el producto de

interacciones sociales y econmicas entre poblaciones tratadas y no
tratadas, que conducen a impactos indirectos en los no tratados. Por
ejemplo, un alumno que recibe una Tablet como parte de un programa
de mejora del aprendizaje puede compartir el dispositivo con otro
alumno que no participa en el programa.
Efectos de equilibrio del contexto. Estos efectos se producen cuando una

intervencin inuye en las normas comportamentales o sociales dentro
de un determinado contexto, como una localidad tratada. Por ejemplo,
aumentar la cantidad de recursos que reciben los centros de salud trata-
dos de manera que puedan ampliar su gama de servicios puede inuir en
las expectativas de la poblacin a propsito de cul debera ser el nivel de
los servicios ofrecidos en todos los centros de salud.
Efectos de equilibrio general. Estos efectos se producen cuando las inter-
venciones inuyen en la oferta y demanda de bienes y servicios y, por
ende, cambian el precio de mercado de esos servicios. Por ejemplo, un
programa que entrega vales a las mujeres pobres para que utilicen los
centros privados para dar a luz puede aumentar la demanda de servicios
en los centros privados, lo que incrementara el precio del servicio para
todos. El recuadro 9.2 presenta un ejemplo de externalidades negativas
debido a efectos de equilibrio general en el contexto de un programa de
capacitacin laboral.
Si el no participante que experimenta el derrame pertenece al grupo de

comparacin, el efecto derrame viola el requisito bsico de que el resultado
de una unidad no debera verse afectado por la asignacin concreta de trata-
mientos a otras comunidades. Este supuesto de estabilidad del valor de la uni-
dad de tratamiento (o SUTVA, por sus siglas en ingls, stable unit treatment
value assumption) es necesario para asegurar que la asignacin aleatoria
produzca estimaciones no sesgadas del impacto. Si el grupo de control se ve
Recuadro 9.2: Externalidades negativas debidas a efectos de
equilibrio general: asistencia para la colocacin laboral y
resultados del mercado de trabajo en Francia
Los programas de asistencia para la coloca- obtenido el empleo que obtuvo el trabajador
cin laboral son populares en numerosos asesorado. Para investigar esta hiptesis,
pases desarrollados. Los gobiernos contra- llevaron a cabo un experimento aleatorio
tan a una entidad externa para que ayude a que inclua 235 mercados laborales (en las
los trabajadores desempleados en su bs- ciudades) de Francia. Estos mercados de
queda de empleo. Numerosos estudios lle- trabajo fueron asignados aleatoriamente a
gan a la conclusin de que estos programas uno de cinco grupos, que variaban en cuanto
de asesora tienen un impacto signicativo y al porcentaje de buscadores de empleo que
positivo en quienes buscan empleo. eran asignados al tratamiento de asesora
Crpon et al. (2013) investigaron si (0%, 25%, 50%, 75% y 100%). En cada
procurar asistencia laboral a trabajadores mercado laboral, los buscadores de empleo
jvenes y con estudios que buscaban elegibles eran asignados de forma aleatoria
empleo en Francia podra tener efectos al tratamiento, siguiendo esta proporcin.
negativos en otros jvenes que buscan Al cabo de ocho meses, los autores
empleo pero que no tienen el apoyo del encontraron que los jvenes desempleados
programa. Segn su hiptesis, podra existir asignados al programa tenan probabilidades
un mecanismo de derrame, es decir, cuando signicativamente mayores de encontrar un
el mercado laboral no est creciendo empleo estable que aquellos que no haban
demasiado, ayudar a una persona que busca sido asignados. No obstante, al parecer esto
empleo a encontrarlo puede producirse en se produjo parcialmente a expensas de los
desmedro de otra persona que busca trabajadores elegibles que no se beneciaron
empleo y que, de otra manera, podra haber del programa.
Fuente: Crpon et al. (2013).
indirectamente afectado por el tratamiento recibido por el grupo de trata-

miento (por ejemplo, los alumnos del grupo de comparacin que usan las
Tablets de los alumnos del grupo de tratamiento), la comparacin no repre-
senta con precisin qu habra ocurrido en el grupo de tratamiento en
ausencia de tratamiento (el contrafactual).
Si el no participante que experimenta el derrame no pertenece al grupo
de comparacin, el supuesto SUTVA sera vlido y el grupo de comparacin
seguira proporcionando una buena estimacin del contrafactual. Sin
embargo, an habra que medir el derrame, porque representa un impacto
real del programa. En otras palabras, la comparacin de los resultados de los
grupos de tratamiento y comparacin generara estimaciones no sesgadas
del impacto del tratamiento en el grupo tratado, pero esto no tendra en
cuenta el impacto del programa en otros grupos.
Un ejemplo clsico de efectos de derrame debido a externalidades se pre-
senta en Kremer y Miguel (2004), que analizaron el impacto de administrar
una medicacin antiparasitaria a nios en escuelas de Kenia (recuadro9.3).
Los parsitos intestinales pueden transmitirse de una persona a otra a travs
del contacto con materia fecal contaminada. Cuando un nio recibe el remedio
antiparasitario, su carga de parsitos disminuye, pero tambin lo har la
carga de parsitos de las personas que viven en su entorno, dado que ya no
entrarn en contacto con los parsitos del nio. Por lo tanto, en el ejemplo de
Kenia, cuando se administr el remedio a los nios de una escuela, se bene-
ciaron no solo esos nios (benecio directo) sino tambin los nios de las
escuelas vecinas (benecios indirectos).
Como se describe en el grco 9.1, la campaa antiparasitaria de las escue-
las del grupo A tambin disminuye el nmero de parsitos que afectan a los
nios que no pertenecen a las escuelas del grupo A. Concretamente, puede
reducir la carga de parsitos que afectan a los nios que van a las escuelas del
grupo de comparacin B, situadas cerca de las escuelas del grupo A. Sin
embargo, las escuelas de comparacin que se hallan ms lejos de las escuelas
del grupo A las llamadas escuelas del grupo C no experimentan dichos
efectos de derrame porque el remedio administrado en el grupo A no eli-
mina los parsitos que afectan a los nios que van a las escuelas del grupo C.
La evaluacin y sus resultados se estudian con ms detalle en el recuadro 9.3.
Recuadro 9.3: Trabajando con los efectos de derrame: remedios

antiparasitarios, externalidades y educacin en Kenia
El Proyecto de Tratamiento Antiparasitario de con las recomendaciones de la Organizacin
las escuelas primarias de Busia, Kenia, fue Mundial de la Salud (OMS) y tambin recibie-
diseado para probar diversos aspectos de ron educacin antiparasitaria preventiva con
los tratamientos antiparasitarios y de la pre- charlas sobre la salud, psteres y capacita-
vencin. La iniciativa fue un programa de la cin de los profesores.
organizacin holandesa sin nes de lucro Debido a limitaciones administrativas y
International Child Support Africa, en coope- nancieras, el programa se llev a cabo
racin con el Ministerio de Salud de Kenia. El segn el orden alfabtico de las escuelas. El
proyecto abarcaba 75 escuelas con una matri- primer grupo de 25 escuelas comenz en
culacin total de ms de 30.000 alumnos de 1998, el segundo grupo en 1999 y el tercer
6 a 18 aos. Los nios fueron tratados con grupo en 2001. Mediante una seleccin alea-
remedios antiparasitarios de conformidad toria de las escuelas, Kremer y Miguel

Recuadro 9.3: Trabajando con los efectos de derrame: remedios antiparasitarios, externalidades y
educacin en Kenia (contina)
(2004) pudieron estimar el impacto del trata- disminuyeron en 12 puntos porcentuales a

miento antiparasitario en un establecimiento travs de un efecto de derrame indirecto.
e identicar los derrames en otras escuelas Tambin se observaron externalidades entre
utilizando una variacin exgena de la cerca- las escuelas.
na entre las escuelas de comparacin y las Dado que el costo del tratamiento antipa-
de tratamiento. Aunque el cumplimiento del rasitario es tan bajo y que los efectos en la
diseo aleatorio fue relativamente alto (el salud y la educacin son relativamente altos,
75% de los alumnos asignados al grupo de los autores llegaron a la conclusin de que el
tratamiento recibi los medicamentos anti- tratamiento antiparasitario es una manera
parasitarios y solo un pequeo porcentaje relativamente costo-efectiva para mejorar
del grupo de comparacin recibi trata- las tasas de participacin en las escuelas.
miento), los investigadores pudieron aprove- El estudio tambin muestra que las enfer-
char el no cumplimiento para determinar las medades tropicales como los parsitos pue-
externalidades de salud, o derrames, en las den desempear un importante rol en los
escuelas. resultados educativos, lo cual fortalece los
El efecto directo de las intervenciones argumentos de que la alta carga de infeccio-
fue una reduccin de las infecciones parasi- nes existente en frica puede ser uno de los
tarias moderadas a graves en 26 puntos factores que explica su bajo ingreso. Por lo
porcentuales para los alumnos que tomaban tanto, Kremer y Miguel sostienen que el estu-
la medicacin. Entretanto, las infecciones dio es un slido argumento a favor de las sub-
moderadas a graves entre los alumnos venciones pblicas a los tratamientos contra
que asistan a las escuelas de trata- las infecciones, con benecios de derrame
miento pero no tomaban la medicacin similares en los pases en desarrollo.
Fuente: Kremer y Miguel (2004).
Diseo de una evaluacin de impacto que tiene en cuenta

los derrames
Supngase que se disea una evaluacin de impacto para un programa

donde es probable que se produzcan derrames. Cmo se enfocara esto?
Lo primero es entender que el objetivo de la evaluacin necesita ser ms
amplio. Mientras que una evaluacin estndar pretende estimar el impacto
(o efecto causal) de un programa en un resultado de inters para las unida-
des que reciben el tratamiento, una evaluacin con efectos de derrame
tendr que responder a dos preguntas:
1. La pregunta estndar sobre la evaluacin del impacto directo. Cul es el
impacto (o efecto causal) de un programa en un resultado de inters para
Grco 9.1 Un ejemplo clsico de efecto de derrame: externalidades positivas
de la administracin de remedios antiparasitarios a los nios de las escuelas
nta
de co gio esc
ona ola
Z r
ontagio es
de c co
ona lar
Z Escuela
Escuela B
Zona de externalidades
del tratamiento
antiparasitario
ntagio e
e co sco
nad la
o
r
Z
Escuela
las unidades que reciben el tratamiento? Se trata del impacto directo que
el programa tiene en los grupos tratados.
2. Una segunda pregunta sobre la evaluacin del impacto indirecto. Cul es
el impacto (o efecto causal) de un programa en un resultado de inters en
las unidades que no reciben el tratamiento? Se trata del impacto indirecto
que el programa tiene en los grupos no tratados.
Para estimar el impacto directo en los grupos tratados, habr que elegir el
grupo de comparacin de tal manera que no se vea afectado por los derra-
mes. Por ejemplo, puede ponerse como condicin que los pueblos, clnicas u
hogares de tratamiento y comparacin estn situados lo sucientemente
lejos unos de otros de manera que los derrames sean poco probables.
Para estimar el impacto indirecto en los grupos no tratados, debera iden-
ticarse para cada grupo no tratado un grupo de comparacin adicional que
pueda verse afectado por los derrames. Por ejemplo, los trabajadores comu-
nitarios de la salud pueden realizar visitas domiciliarias para proporcionar
informacin a los padres acerca de los benecios de una dieta variada mejo-
rada para los nios. Supngase que los trabajadores comunitarios de la salud
solo visitan algunos hogares de un pueblo determinado. Uno puede estar
interesado en los efectos de derrame sobre los nios de los hogares no visita-
dos, en cuyo caso necesitara hallar un grupo de comparacin para estos
nios. Al mismo tiempo, puede ser que la intervencin tambin afecte la
variedad de la dieta de los adultos. Si tal efecto indirecto es de inters para la
evaluacin, se necesitara tambin un grupo de comparacin para los adul-
tos. A medida que aumente el nmero de canales potenciales de derrame, el
diseo puede complicarse con relativa rapidez.
Las evaluaciones con efectos de derrame plantean ciertos problemas
especcos. Por ejemplo, cuando los efectos de derrame son probables, es
importante entender el mecanismo de derrame, ya sea biolgico, social,
ambiental o de otro tipo. Si no se sabe cul es el mecanismo de derrame, no
ser posible elegir con precisin los grupos de comparacin que son y no son
afectados por los derrames. En segundo lugar, una evaluacin con efectos de
derrame requiere una recopilacin de datos ms amplia que una evaluacin
en la cual esa preocupacin no existe: hay un grupo de comparacin adicio-
nal (en el ejemplo anterior, los pueblos vecinos). Puede que tambin tengan
que recopilarse datos sobre las otras unidades (en el ejemplo anterior, los
adultos de los hogares objetivo para visitas relacionadas con la nutricin de
los nios). En el recuadro 9.4 se analiza cmo los investigadores manejaron
los efectos de derrame en una evaluacin de un programa de transferencias
condicionadas en Mxico.
Recuadro 9.4: Evaluacin de los efectos de derrame:

transferencias condicionadas y derrames en Mxico
Angelucci y De Giorgi (2009) analizaron los elegibles a travs de prstamos o regalos.
derrames en el programa Progresa, en El programa Progresa se implant por
Mxico, que proporcionaba transferencias fases a lo largo de dos aos, y se seleccionaron
condicionadas a los hogares (vanse los aleatoriamente 320 pueblos para recibir las
recuadros 1.1 y 4.2). Los investigadores transferencias de efectivo en 1998, y 186 en
buscaban analizar si haba riesgo compartido 1999. Por lo tanto, entre 1998 y 1999 haba 320
en los pueblos. Si los hogares compartan pueblos de tratamiento y 186 pueblos de
riesgo, los hogares elegibles podan comparacin. En los pueblos de tratamiento,
transferir parte del efectivo a hogares no la elegibilidad de un hogar para las

Recuadro 9.4: Evaluacin de los efectos de derrame: transferencias condicionadas y derrames en
Mxico (contina)
transferencias de Progresa estaba determinada tratamiento. Esto equivala a alrededor de la

por el nivel de pobreza y se contaba con los mitad del incremento promedio del consumo
datos del censo de ambos grupos. Esto cre de alimentos de los hogares elegibles. Los
cuatro subgrupos dentro de la muestra: resultados tambin apoyaron la hiptesis de
poblaciones elegibles y no elegibles en los riesgo compartido en los pueblos. Los
pueblos de tratamiento y comparacin. hogares no elegibles en los pueblos de
Suponiendo que el programa no afectaba tratamiento recibieron ms prstamos y
indirectamente a los pueblos de comparacin, transferencias de los amigos y la familia que
los hogares no elegibles en dichos pueblos los hogares no elegibles en los pueblos de
constituan un contrafactual vlido para los comparacin. Esto implica que el efecto de
hogares no elegibles en los pueblos de derrame funcion a travs de los mercados
tratamiento, con el objetivo de estimar el de seguro y de crdito locales.
efecto de derrame en los hogares no elegibles A partir de estos resultados, Angelucci y
dentro de los pueblos de comparacin. De Giorgi llegaron a la conclusin de que
Los autores encontraron evidencia de las anteriores evaluaciones de Progresa
derrames positivos en el consumo. El subestimaban el impacto del programa en
consumo de alimentos de los adultos un 12% porque no tenan en cuenta los
aument cerca de un 10% al mes en los efectos indirectos en los hogares no
hogares no elegibles de los pueblos de elegibles en los pueblos de tratamiento.
Fuente: Angelucci y De Giorgi (2009).
El desgaste
El sesgo del desgaste es otro problema habitual que afecta a las evaluaciones,
ya sea con el mtodo de asignacin aleatoria, de regresin discontinua o de
diferencias en diferencias. El desgaste se produce cuando partes de la mues-
tra desaparecen a lo largo del tiempo y los investigadores no pueden
encontrar a todos los miembros iniciales de los grupos de tratamiento y
comparacin en las encuestas o en los datos de seguimiento. Por ejemplo, de
los 2.500 hogares encuestados en la lnea de base, los investigadores pueden
encontrar solo 2.300 en una encuesta de seguimiento dos aos despus. Si
intentan volver a realizar la encuesta al mismo grupo, por ejemplo, 10 aos
despus, puede que encuentren incluso menos hogares originales.
El desgaste se puede producir por diferentes motivos. Por ejemplo, puede
que los miembros de los hogares o incluso familias enteras se muden a otro
pueblo, ciudad, regin, o incluso pas. En un ejemplo reciente, una encuesta de
seguimiento realizada 22 aos despus en Jamaica indic que el 18% de la
muestra haba emigrado (vase el recuadro 9.5). En otros casos, los encues-
tados ya no estaban dispuestos a responder a una segunda encuesta. Tambin
ocurri que los conictos y la falta de seguridad en la zona impidieron que
el equipo de investigacin llevara a cabo una encuesta en algunas localida-
des incluidas en la lnea de base.
Recuadro 9.5: El desgaste en estudios con seguimiento a largo

plazo: desarrollo infantil temprano y migracin en Jamaica
El desgaste puede ser especialmente Sin embargo, al considerarse el subgrupo de
problemtico cuando han pasado muchos nios que se haban convertido en
aos entre las encuestas de lnea de base y trabajadores migrantes, se observaron
seguimiento. En 1986 un equipo de la seales de desgaste selectivo. De los 23
University of West Indies inici un estudio trabajadores migrantes, nueve haban
para medir los resultados a largo plazo de abandonado la muestra y una parte
una intervencin en la primera infancia en signicativamente mayor de aquellos
Jamaica. En 2008, cuando los participantes perteneca al grupo de tratamiento. Esto
originales tenan 22 aos, se llev a cabo un implicaba que el tratamiento estaba asociado
seguimiento. Fue difcil encontrar la pista con la migracin. Dado que los trabajadores
de todos los participantes del estudio migrantes suelen ganar ms que aquellos
original. que permanecen en Jamaica, esto hizo difcil
La intervencin consisti en un programa la formulacin de estimaciones de impacto.
de dos aos que ofreci estimulacin Para tratar los sesgos potenciales del
psicosocial y suplementos nutricionales a desgaste entre los trabajadores migrantes, los
nios pequeos con problemas de investigadores utilizaron tcnicas
crecimiento en Kingston, Jamaica. Un total economtricas. Predijeron los ingresos de los
de 129 nios fueron asignados aleatoriamente trabajadores migrantes que haban
a una de tres ramas de tratamiento o a un abandonado la muestra mediante una
grupo de comparacin. Los investigadores regresin de mnimos cuadrados ordinarios
tambin encuestaron a 84 nios sin utilizando como factores determinantes la
problemas de crecimiento para un segundo condicin de tratamiento, el sexo y
grupo de comparacin. En el seguimiento, la migracin. Con estas predicciones en la
los investigadores pudieron realizar una estimacin de impacto, llegaron a la conclusin
segunda encuesta con casi el 80% de los de que los resultados del programa eran
participantes. No se recogi evidencia de impresionantes. La intervencin en la primera
desgaste selectivo en el conjunto de la infancia haba aumentado los ingresos del
muestra, lo que signica que no haba grupo de tratamiento en un 25%. Este efecto
diferencias signicativas en las caractersticas era lo bastante grande para que el grupo de
de lnea de base de aquellos que podan ser tratamiento con problemas de crecimiento
encuestados a los 22 aos, comparados con alcanzara al grupo de comparacin sin
aquellos que no podan ser encuestados. problemas de crecimiento 20 aos ms tarde.
Fuentes: Gertler et al. (2014); Grantham-McGregor et al. (1991).

El desgaste puede ser problemtico por dos motivos. En primer lugar, la
muestra de seguimiento quiz ya no represente adecuadamente a la pobla-
cin de inters. Recurdese que cuando se elige la muestra, en el momento de
la asignacin aleatoria, se hace de manera que represente de forma apropiada
a la poblacin de inters. En otras palabras, se escoge una muestra que tiene
validez externa para la poblacin de inters. Si la encuesta o la recopilacin
de datos de seguimiento se ve limitada por un desgaste considerable, debera
ser preocupante que la muestra de seguimiento represente solo a un sub-
conjunto especco de la poblacin de inters. Por ejemplo, si las personas
de mayor nivel educativo de la muestra original tambin son las que emi-
gran, la encuesta de seguimiento ignorara a aquellas personas con estudios
y ya no representara adecuadamente a la poblacin de inters, que inclua a
esas personas.
En segundo lugar, puede que la muestra de seguimiento ya no est equili-
brada entre el grupo de tratamiento y de comparacin. Supngase que se
intenta evaluar un programa que quiere mejorar la educacin de las nias y
que es ms probable que las nias con estudios se muden a la ciudad a bus-
car un empleo. Entonces, la encuesta de seguimiento podra mostrar un alto
desgaste desproporcionado en el grupo de tratamiento, en relacin con el
grupo de comparacin. Esto podra afectar la validez interna del programa,
es decir, al contrastar las unidades de tratamiento y comparacin que se
encuentran en el seguimiento, ya no se podr dar una estimacin precisa del
impacto del programa.
Si durante las encuestas de seguimiento se halla desgaste, los siguientes
dos pasos pueden ayudar a evaluar el alcance del problema. Primero, verif-
quese si las caractersticas de lnea de base de las unidades que abandonaron
la muestra son estadsticamente iguales a las caractersticas de lnea de base
de las unidades que fueron encuestadas con xito la segunda vez. Siempre
que las caractersticas de lnea de base de ambos grupos no sean estadstica-
mente diferentes, la nueva muestra debera seguir representando a la pobla-
cin de inters.
Segundo, verifquese si la tasa de desgaste del grupo de tratamiento es
similar a la tasa de desgaste del grupo de comparacin. Si ambas son signi-
cativamente diferentes, surge la preocupacin de que la muestra ya no sea
vlida, y quiz deban utilizarse diversas tcnicas estadsticas para intentar
corregir esto. Un mtodo habitual es la ponderacin por probabilidad inversa,
un mtodo que repondera estadsticamente los datos (en este caso, los datos
de seguimiento) para corregir el hecho de que una parte de los encuestados
originales est ausente. El mtodo formula una reponderacin de la muestra
de seguimiento de modo que tenga un aspecto similar a la muestra de lnea
de base.1

Programacin en el tiempo y persistencia de
los efectos
Los canales de transmisin entre insumos, actividades, productos y resultados

pueden tener lugar de inmediato, pronto o despus de un perodo de tiempo,
y suelen estar estrechamente relacionados con los cambios en el comporta-
miento humano. En el captulo 2 se pona de relieve la importancia de pensar
en estos canales y planicar correspondientemente antes de que comenzara
la intervencin, as como de desarrollar una cadena causal clara para el pro-
grama que se est evaluando. En aras de la sencillez, nos hemos abstrado de
los problemas relacionados con la programacin en el tiempo. Sin embargo, es
fundamental considerar estos aspectos cuando se disea una evaluacin.
En primer lugar, los programas no necesariamente se vuelven plenamente
efectivos justo despus de su inicio (King y Behrman, 2009). Los administra-
dores de un programa necesitan tiempo para que ste comience a funcionar,
y puede ser que los beneciarios no vean los frutos de inmediato porque los
cambios de conducta requieren tiempo, y puede ser que las instituciones tam-
poco modiquen su comportamiento con rapidez. Por otro lado, una vez que
las instituciones y los beneciarios cambian ciertas conductas, puede ocurrir
que estas se mantengan aun cuando se suspenda el programa. Por ejemplo,
un programa que incentiva a los hogares a separar y reciclar la basura y aho-
rrar energa puede seguir siendo efectivo despus de que se eliminen los
incentivos, si consigue cambiar las normas de los hogares en el manejo de la
basura y la energa. Cuando se disea una evaluacin, hay que tener mucho
cuidado (y ser realistas) para denir cunto podra tardar el programa en
alcanzar su plena efectividad. Puede que sea necesario llevar a cabo diversas
encuestas de seguimiento para medir el impacto del programa a lo largo del
tiempo, o incluso despus de que el programa se interrumpa. El recuadro 9.6
presenta el caso de una evaluacin donde algunos efectos solo se hicieron
visibles despus de suspendida la intervencin inicial.
Recuadro 9.6: Evaluacin de los efectos a largo plazo: subsidios y

adopcin de redes antimosquitos tratadas con insecticidas en Kenia
Dupas (2014) dise una evaluacin de impacto ingls, insecticide treated bed nets) en Busia,
para medir los impactos tanto de corto como Kenia. Utilizando un experimento de dos fases
de largo plazo de diferentes esquemas de sub- donde intervena la jacin de precios, Dupas
sidios en la demanda de redes antimosquitos asign aleatoriamente hogares a diversos nive-
tratadas con insecticidas (ITN, por sus siglas en les de subsidios para un nuevo tipo de ITN.

Recuadro 9.6: Evaluacin de los efectos a largo plazo: subsidios y adopcin de redes antimosquitos
tratadas con insecticidas en Kenia (contina)
Un ao despus, todos los hogares en un sub- ITN se ofreci gratis, la tasa de adopcin
conjunto de pueblos tuvieron la oportunidad de aument al 98%. A largo plazo, las tasas de
comprar la misma red. Esto permiti a los adopcin ms altas se tradujeron en una
investigadores medir la disponibilidad de los mayor disponibilidad a pagar, dado que los
hogares a pagar por las ITN y cmo esta dispo- hogares vieron los benecios de tener una
nibilidad cambiaba en funcin del subsidio reci- ITN. Aquellos que recibieron uno de los
bido en la primera fase del programa. subsidios ms grandes en la primera fase
En general, los resultados indicaron tenan tres veces ms probabilidades de
que un subsidio nico tena impactos comprar otra ITN en la segunda fase a ms
signicativamente positivos en la adopcin del doble del precio.
de ITN y la disponibilidad para pagar a largo Los resultados de este estudio implican
plazo. En la primera fase del experimento, que se produce un efecto de aprendizaje en
Dupas observ que los hogares que reciban las intervenciones en ITN. Esto seala que
un subsidio que reduca el precio de la ITN es importante considerar los impactos de
de US$3,80 a US$0,75 tenan un 60% ms las intervenciones a largo plazo, as como
de probabilidades de comprarla. Cuando la dar a conocer la persistencia de los efectos.
Fuente: Dupas (2014).
Otros recursos
Para material de apoyo relacionado con el libro y para hipervnculos a ms

Nota
1. Un mtodo estadstico ms avanzado sera estimar lmites ntidos en los

efectos del tratamiento (vase Lee, 2009).
Angelucci, M. y G. De Giorgi. 2009. Indirect Effects of an Aid Program: How Do

Cash Transfers Affect Ineligibles Consumption. American Economic Review
99 (1): 486508.
Angelucci, M. y V. Di Maro. 2015. Programme Evaluation and Spillover Effects.
Journal of Development Effectiveness (doi: 10.1080/19439342.2015.1033441).

Crpon, B., E. Duo, M. Gurgand, R. Rathelot y P. Zamora. 2013. Do Labor Market
Policies Have Displacement Effects? Evidence from a Clustered Randomized
Experiment. Quarterly Journal of Economics 128 (2): 53180.
Dupas, P. 2014. Short-Run Subsidies and Long-Run Adoption of New Health
Products: Evidence from a Field Experiment. Econometrica 82 (1): 197228.
Gertler, P., J. Heckman, R. Pinto, A. Zanolini, C. Vermeersch, S. Walker, S. M. Chang
y S. Grantham-McGregor. 2014. Labor Market Returns to an Early Childhood
Stimulation Intervention in Jamaica. Science 344 (6187): 9981001.
Grantham-McGregor, S., C. Powell, S. Walker y J. Himes. 1991. Nutritional
Supplementation, Psychosocial Stimulation and Development of Stunted
Children: The Jamaican Study. Lancet 338: 15.
King, E. M. y J. R. Behrman. 2009. Timing and Duration of Exposure in
Evaluations of Social Programs. World Bank Research Observer 24 (1): 5582.
Kremer, M. y E. Miguel. 2004. Worms: Identifying Impacts on Education and
Health in the Presence of Treatment Externalities. Econometrica 72 (1): 159217.
Landsberger, H. A. 1958. Hawthorne Revisited. Ithaca, NY: Cornell University Press.
Lee, D. 2009. Training, Wages, and Sample Selection: Estimating Sharp Bounds on
Treatment Effects. Review of Economic Studies 76 (3):10711102.
Levitt, S. D. y J. A. List. 2009. Was There Really a Hawthorne Effect at the Hawthorne
Plant? An Analysis of the Original Illumination Experiments. Documento de
trabajo NBER 15016. Cambridge, MA: National Bureau of Economic Research.
Saretsky, G. 1972. The OEO P.C. Experiment and the John Henry Effect. Phi Delta
Kappan 53: 57981.

CAPTULO 10
Evaluacin de programas
multifacticos
Evaluacin de programas que combinan diversas

opciones de tratamiento
Hasta ahora, se han analizado programas con un solo tipo de tratamiento. Sin
embargo, muchas cuestiones relevantes relacionadas con las polticas se plan-
tean en programas multifacticos, es decir, que combinan varias opciones de
tratamiento.1 Los responsables de formular polticas pueden estar interesa-
dos en saber no solo si el programa funciona o no, sino tambin si funciona
mejor o tiene un costo menor que otro programa. Por ejemplo, si se quiere
aumentar la asistencia a la escuela, es ms ecaz orientar las intervenciones
a la demanda (como las transferencias condicionadas a las familias) o a la
oferta (como mayores incentivos para los profesores)? Y si se introducen las
dos intervenciones conjuntamente, funcionan mejor que cada una por su
cuenta?, son complementarias? Si la costo-efectividad es una prioridad,
puede preguntarse perfectamente cul es el nivel ptimo de los servicios que
debe prestar el programa. Por ejemplo, cul es la duracin ptima de un pro-
grama de capacitacin para el empleo? Un programa de seis meses contri-
buye ms que un programa de tres meses a que los participantes encuentren
empleo? De ser as, la diferencia es lo sucientemente grande para justicar
los recursos adicionales necesarios para un programa de seis meses? Por
ltimo, a los responsables de polticas les puede interesar cmo alterar un
195
programa existente para hacerlo ms efectivo, y quiz quieran probar diversos
mecanismos con el n de encontrar cul(es) funciona(n) mejor.
Adems de estimar el impacto de una intervencin sobre un resultado de
inters, las evaluaciones de impacto pueden ayudar a responder preguntas
ms generales, como las siguientes:
Cul es el impacto de un tratamiento en comparacin con otro? Por
ejemplo, cul es el impacto en el desarrollo cognitivo de los nios de un
programa que ofrece capacitacin a los padres, en comparacin con una
intervencin sobre nutricin?
El impacto conjunto de un primer y un segundo tratamiento es mayor que
la suma de los dos impactos? Por ejemplo, el impacto de la intervencin de
capacitacin de padres y la intervencin sobre nutricin es mayor, menor o
igual que la suma de los efectos de cada una de las intervenciones?
Cul es el impacto de un tratamiento de alta intensidad en comparacin
con un tratamiento de menor intensidad? Por ejemplo, cul es el efecto
en el desarrollo cognitivo de nios con retraso en el crecimiento si un
trabajador social los visita en su casa cada dos semanas, en lugar de visi-
tarlos una vez al mes?
Este captulo ofrece ejemplos de diseos de evaluaciones de impacto para dos
tipos de programas multifacticos: los que tienen mltiples niveles del mismo
tratamiento y los que tienen mltiples tratamientos. Primero se analiza cmo
disear una evaluacin de impacto de un programa con varios niveles de tra-
tamiento. Despus, se examinan los diferentes tipos de impactos de un pro-
grama con mltiples tratamientos. Para este anlisis se supone que se usar un
mtodo de asignacin aleatoria, aunque puede generalizarse a otros mtodos.
Evaluacin de programas con diferentes niveles

de tratamiento
Disear una evaluacin de impacto para un programa con niveles variables de

tratamiento es relativamente fcil. Imagnese que se intenta evaluar el impacto
de un programa con dos niveles de tratamiento: alto (por ejemplo, visitas cada
dos semanas) y bajo (visitas mensuales). Se quiere evaluar el impacto de
ambas opciones, y saber cunto afectan a los resultados esas visitas adiciona-
les. Para ello, se puede organizar un sorteo de modo de decidir quin recibe el
nivel alto de tratamiento, quin recibe el nivel bajo de tratamiento y a quin se
asigna al grupo de comparacin (el grco 10.1 ilustra este proceso).
Como es habitual en la asignacin aleatoria, el primer paso consiste en
denir la poblacin de unidades elegibles para el programa. El segundo, en
seleccionar una muestra aleatoria de unidades que se incluir en la evaluacin,
Grco 10.1 Pasos para la asignacin aleatoria de dos niveles de tratamiento
1. Definir unidades 2. Seleccionar la muestra 3. Asignacin aleatoria a los

elegibles de evaluacin niveles alto y bajo del tratamiento
la denominada muestra de evaluacin. Una vez que se cuente con la muestra de

evaluacin, en el tercer paso se asignarn aleatoriamente unidades al grupo
que recibe un nivel alto de tratamiento, al grupo que recibe el nivel bajo de tra-
tamiento o al grupo de comparacin. Como resultado de la asignacin aleatoria
a mltiples niveles de tratamiento, se habrn creado tres grupos distintos:
El grupo A es el grupo de comparacin.
El grupo B recibe el nivel bajo de tratamiento.
El grupo C recibe el nivel alto de tratamiento.
Cuando se implementa correctamente, la asignacin aleatoria garantiza que
los tres grupos sean similares. Por lo tanto, se puede estimar el impacto del
nivel alto de tratamiento mediante la comparacin del resultado promedio
del grupo C con el resultado promedio del grupo A. Tambin se puede esti-
mar el nivel bajo de tratamiento comparando el resultado promedio del
grupo B con el del grupo A. Finalmente, se puede evaluar si el nivel alto de
tratamiento tiene un mayor impacto que el nivel bajo de tratamiento com-
parando los resultados promedio de los grupos B y C.
La estimacin del impacto de un programa con ms de dos niveles de Concepto clave
tratamiento seguir la misma lgica. Si existen tres niveles de tratamiento, el Al evaluar programas
proceso de asignacin aleatoria crear tres grupos de tratamiento diferen- con n diferentes
tes, adems de un grupo de comparacin. En general, con n niveles de trata- niveles de tratamiento,
miento, habr n grupos de tratamiento, ms un grupo de comparacin. En debe haber n grupos
de tratamiento ms un
los recuadros10.1 y 10.2 se presentan ejemplos de evaluaciones de impacto
que prueban modalidades de diferentes intensidades u opciones de trata-
mientos mltiples.
Evaluacin de programas multifacticos 197
Recuadro 10.1: Prueba de la intensidad de un programa para
mejorar la adhesin a un tratamiento antirretroviral
Pop-Eleches et al. (2011) utilizaron un diseo los cuatro grupos de intervencin, mientras
multinivel transversal para evaluar el impacto que el intervalo de valor de 2/3 a 1 correspon-
del uso de mensajes SMS como recordato- da al grupo de control.
rios para la adhesin de los pacientes con Los investigadores concluyeron que los
VIH/SIDA a la terapia antirretroviral en una mensajes semanales aumentaban el porcen-
clnica rural de Kenia. El estudio vari la inten- taje de pacientes con un 90% de adhesin a
sidad del tratamiento en dos dimensiones: la la terapia antirretroviral en alrededor de un
frecuencia con que se enviaban los mensa- 13%-16%, en comparacin con la ausencia de
jes a los pacientes (a diario o semanalmente) mensajes. Estos mensajes semanales tam-
y la extensin de los mensajes (breves o lar- bin eran efectivos para reducir la frecuencia
gos). Los mensajes breves tenan solo un de las interrupciones del tratamiento, que
recordatorio (Este es un recordatorio para segn se ha demostrado constituyen una
usted), mientras que los mensajes largos causa importante del fracaso por resistencia
incluan un recordatorio y una frase de aliento al tratamiento en contextos de recursos limi-
(Este es un recordatorio. Sea fuerte y tados. Contrariamente a las expectativas, aa-
valiente, nos preocupamos por usted). Se dir palabras de aliento en los mensajes ms
asign un total de 531 pacientes a uno de los largos no era ms efectivo que un mensaje
cuatro grupos de tratamiento o al grupo de breve o ningn mensaje.
comparacin. Los grupos de tratamiento Los investigadores tambin descubrieron
consistan en: mensajes semanales breves, que si bien los mensajes semanales mejora-
mensajes semanales largos, mensajes dia- ban la adhesin, los mensajes diarios no lo
rios breves o mensajes diarios largos. hacan, pero no fueron capaces de distinguir
Una tercera parte de la muestra se asign al por qu los primeros eran los ms efectivos.
grupo de control y las otras dos terceras partes Es posible que esta conclusin se explique
se asignaron por igual a cada uno de los cuatro gracias a la habituacin, o la menor respuesta
grupos de intervencin. Se gener una secuen- ante un estmulo repetido con frecuencia, o
cia de nmeros aleatorios entre 0 y 1. Cuatro puede que los pacientes sencillamente opina-
intervalos iguales entre 0 y 2/3 correspondan a ran que los mensajes diarios eran intrusivos.
Cuadro B10.1.1 Resumen del diseo del programa
Frecuencia del
Grupo Tipo de mensaje mensaje N de pacientes
1 Solo recordatorio Semanal 73
2 Recordatorio + aliento Semanal 74
3 Solo recordatorio Diario 70
4 Recordatorio + aliento Diario 72
5 Ninguno (grupo de comparacin) Ninguna 139
Fuente: Pop-Eleches et al. (2011).

Recuadro 10.2: Pruebas de alternativas de los programas para
monitorear la corrupcin en Indonesia
En Indonesia, Olken (2007) utiliz un diseo annima. Para medir los niveles de corrup-
transversal para probar diferentes mtodos cin, un equipo independiente de ingenieros
con el n de controlar la corrupcin, desde y topgrafos tom muestras bsicas de las
una estrategia de vigilancia de arriba hacia nuevas carreteras, estim el costo de los
abajo hasta una supervisin comunitaria materiales usados y compar sus clculos
ms de base. El autor recurri a una metodo- con los presupuestos presentados.
loga de asignacin aleatoria en ms de 600 Olken observ que el incremento de las
comunidades que estaban construyendo auditoras pblicas (desde una probabilidad
carreteras como parte de un proyecto nacio- de resultar auditado de alrededor del 4%
nal de mejora de infraestructura. hasta una probabilidad del 100%) redujo la
Uno de los tratamientos mltiples con- prdida de gastos en unos 8 puntos por-
sisti en seleccionar de manera aleatoria centuales (a partir de un 24%). El aumento
algunas comunidades para informarles que de la participacin de la comunidad en la
su proyecto de construccin sera auditado supervisin tuvo un impacto sobre la pr-
por un funcionario pblico. Luego, para dida de mano de obra pero no sobre la pr-
poner a prueba la participacin comunitaria dida de gastos. Los formularios para
en la supervisin, los investigadores imple- comentarios solo resultaron ecaces
mentaron dos intervenciones. Distribuyeron cuando se distribuyeron entre los nios en
invitaciones a reuniones comunitarias para la escuela para que se los entregaran a sus
la rendicin de cuentas y repartieron formu- familias, y no cuando fueron entregados a
larios para presentar comentarios de manera los lderes comunitarios.
Fuente: Olken (2007).
Evaluacin de mltiples intervenciones
Adems de comparar varios niveles de tratamiento, tambin se pueden com-

parar opciones de tratamiento totalmente diferentes. De hecho, los respon-
sables de las polticas preeren comparar los mritos relativos de diferentes
intervenciones, ms que conocer solo el impacto de una intervencin.
Imagnese que se propone evaluar el impacto en la matriculacin escolar
de un programa con dos intervenciones, transferencias condicionadas a las
familias de los estudiantes y transporte gratuito en autobs a la escuela.
Primero, es necesario conocer el impacto de cada intervencin por separado.
Este caso es prcticamente idntico a aquel en que se prueban diferentes
niveles de tratamiento de una intervencin, a saber, en lugar de asignar alea-
toriamente las unidades a niveles altos y bajos de tratamiento y al grupo de
comparacin, se les puede asignar de forma aleatoria a un grupo de
transferencias condicionadas, a un grupo de transporte gratuito en autobs
y al grupo de comparacin. En general, con n niveles de tratamiento, habr
n grupos de tratamiento, ms un grupo de comparacin.
Aparte de querer conocer el impacto de cada intervencin por separado,
puede que tambin se desee conocer si la combinacin de los dos es mejor
que la simple suma de los efectos individuales. Desde el punto de vista de los
participantes, el programa est disponible en tres formas diferentes: solo
transferencias condicionadas, nicamente transporte gratuito en autobs o
una combinacin de transferencias y transporte gratuito.
La asignacin aleatoria para un programa con dos intervenciones es muy
similar al proceso de un programa con una sola intervencin. La principal
diferencia es la necesidad de organizar varios sorteos independientes, en
lugar de uno. Esto produce un diseo cruzado, a veces llamado diseo trans-
versal. En el grco 10.2 se ilustra este proceso. Como en el caso anterior, en
el primer paso se dene la poblacin de unidades elegibles para el programa.
El segundo paso consiste en seleccionar una muestra aleatoria de unidades
elegibles para formar la muestra de evaluacin. Una vez obtenida la muestra
de evaluacin, en el tercer paso se asignan aleatoriamente sus unidades a un
grupo de tratamiento y a un grupo de control. En el cuarto paso, se lleva a
cabo un segundo sorteo para asignar de forma aleatoria una subserie del
grupo de tratamiento a n de que reciba la segunda intervencin. Por ltimo,
en el quinto paso se realiza otro sorteo para asignar una subserie del grupo
de comparacin inicial a n de que reciba la segunda intervencin, mientras
que la otra subserie se mantiene como un conjunto puro de comparacin.2
Grco 10.2 Pasos para la asignacin aleatoria de dos intervenciones
1. Definir unidades 2. Seleccionar la 3. Asignacin 4. y 5. Asignacin

elegibles muestra de aleatoria al aleatoria al segundo
evaluacin primer tratamiento
tratamiento

Como consecuencia de la asignacin aleatoria a los dos tratamientos, se
habrn creado cuatro grupos, como se muestra en el grco 10.3.
El grupo A recibe ambas intervenciones (transferencias condicionadas y
transporte en autobs).
El grupo B recibe la primera intervencin pero no la segunda (solo trans-
ferencias condicionadas).
El grupo C no recibe la primera intervencin pero s la segunda (solo el
transporte en autobs).
El grupo D no recibe ni la primera ni la segunda intervencin, y consti-
tuye el grupo de comparacin puro.
Cuando se implementa correctamente, la asignacin aleatoria garantiza que
los cuatro grupos sean similares. Por lo tanto, se puede estimar el impacto de
la primera intervencin comparando el resultado del grupo B (por ejemplo,
la tasa de asistencia escolar) con el resultado del grupo puro de compara-
cin, el grupo D. Tambin se puede estimar el impacto de la segunda inter-
vencin comparando el resultado del grupo C con el resultado del grupo de
comparacin puro, el grupo D. Adems, este diseo tambin permite com-
parar el impacto progresivo de recibir la segunda intervencin cuando una
unidad ya ha recibido la primera. La comparacin de los resultados del
Grco 10.3 Diseo hbrido para un programa con dos intervenciones
Intervencin 1
Tratamiento Comparacin
Grupo A Grupo C
Tratamiento
Intervencin 2
Grupo B Grupo D
Comparacin

grupo A y del grupo B determinar el impacto de la segunda intervencin
para aquellas unidades que ya han recibido la primera intervencin. La
comparacin de los resultados de los grupos A y C determinar el impacto
de la primera intervencin en las unidades que ya han recibido la segunda
intervencin.
En la descripcin anterior se ha usado el ejemplo de la asignacin aleato-
ria para explicar la manera de disear una evaluacin de impacto para un
programa con dos intervenciones diferentes. Cuando un programa cuenta
con ms de dos intervenciones, se puede aumentar el nmero de sorteos y
continuar subdividiendo la evaluacin para formar grupos que reciben las
diversas combinaciones de intervenciones. Tambin se pueden implemen-
tar mltiples tratamientos y mltiples niveles de tratamiento. Aunque se
ample el nmero de grupos, la teora fundamental del diseo sigue siendo
la misma que la descripta anteriormente.
Sin embargo, la evaluacin de ms de una o dos intervenciones generar
dicultades prcticas tanto en la evaluacin como en el funcionamiento del
programa, ya que la complejidad del diseo incrementar exponencial-
mente el nmero de ramas de tratamiento. Para evaluar el impacto de una
sola intervencin se necesitan nicamente dos grupos, uno de tratamiento y
otro de comparacin. Para evaluar el impacto de dos intervenciones se nece-
sitan cuatro grupos, tres de tratamiento y uno de comparacin. Si se quisiera
evaluar el impacto de tres intervenciones, incluidas todas las combinaciones
posibles entre ellas, se necesitara 2 2 2 = 8 grupos en la evaluacin. En
general, en el caso de una evaluacin que vaya a incluir todas las combina-
ciones posibles entre n intervenciones, se necesitarn 2n grupos. Adems,
para poder distinguir los resultados de los grupos, cada grupo requiere un
nmero suciente de unidades de observacin de modo de garantizar una
potencia estadstica suciente. En la prctica, la deteccin de diferencias
Concepto clave
entre las ramas de la intervencin puede exigir muestras ms grandes que la
Para que una
comparacin entre un grupo de tratamiento y un grupo de comparacin
evaluacin estime el
impacto de todas las puro. Si las dos ramas de tratamiento logran provocar cambios en los resul-
posibles combinacio- tados deseados, se requerirn muestras ms grandes para detectar las posi-
nes entre n interven- bles diferencias menores entre los dos grupos.3
ciones diferentes, se Por ltimo, los diseos cruzados tambin se pueden utilizar en diseos
requerir un total de 2n de evaluacin que combinan diversos mtodos de evaluacin. Las reglas
grupos de tratamiento
y de comparacin.
operativas que rigen la asignacin de cada tratamiento determinarn qu
combinacin de mtodos debe usarse. Por ejemplo, puede ocurrir que el
primer tratamiento se asigne sobre la base de una puntuacin de elegibili-
dad, pero el segundo se asignar de manera aleatoria. En este caso, el
diseo puede recurrir a un diseo de regresin discontinua para la pri-
mera intervencin y a un mtodo de asignacin aleatoria para la segunda
intervencin.
Otros recursos
Para material de apoyo relacionado con este libro y para hipervnculos de ms

Para ms informacin sobre el diseo de evaluaciones de impacto con mlti-
ples opciones de tratamiento, vase A. Banerjee y E. Duo (2009), The Expe-
rimental Approach to Development Economics. Annual Review of Economics
1: 15178.
Notas
1. Vase Banerjee y Duo (2009), para un anlisis ms detallado.

2. Ntese que, en la prctica, es posible combinar los tres sorteos separados en uno
solo y alcanzar el mismo resultado.
3. Probar el impacto de mltiples intervenciones tambin tiene una implicacin
ms sutil: a medida que se incrementa el nmero de intervenciones o niveles de
tratamiento que se contrastan unos con otros, se aumenta la probabilidad de
encontrar un impacto en al menos una de las pruebas, aunque no haya impacto.
En otras palabras, hay ms probabilidades de encontrar un falso positivo. Para
evitar esto, se deben ajustar las pruebas estadsticas de modo de dar cuenta de
las pruebas de hiptesis mltiples. Los falsos positivos tambin se denominan
errores de tipo II. Vase el captulo 15 para ms informacin sobre los errores de
tipo II y referencias sobre las pruebas de hiptesis mltiples.
Banerjee, A. y E. Duo. 2009. The Experimental Approach to Development
Economics. Annual Review of Economics 1: 15178.
Olken, B. 2007. Monitoring Corruption: Evidence from a Field Experiment in
Indonesia. Journal of Political Economy 115 (2): 200249.
Pop-Eleches, C., H. Thirumurthy, J. Habyarimana, J. Zivin, M. Goldstein, D. de
Walque, L. MacKeen, J. Haberer, S. Kimaiyo, J. Sidle, D. Ngare y D. Bangsberg.
2011. Mobile Phone Technologies Improve Adherence to Antiretroviral
Treatment in a Resource-Limited Setting: A Randomized Controlled Trial of
Text Message Reminders. AIDS 25 (6): 82534.

Tercera parte
CMO IMPLEMENTAR
UNA EVALUACIN DE
IMPACTO
La tercera parte de este libro se centra en cmo implementar una evaluacin

de impacto: cmo seleccionar un mtodo de evaluacin de impacto compati-
ble con las reglas operativas de un programa; cmo manejar una evaluacin
de impacto, lo cual incluye asegurar una slida asociacin entre los equipos
de investigacin y los responsables de las polticas, y gestionar el tiempo y el
presupuesto de una evaluacin; cmo garantizar que una evaluacin sea a la
vez tica y creble, siguiendo los principios para trabajar con sujetos humanos
y ciencia abierta; y cmo utilizar la evaluacin de impacto para fundamentar las
polticas pblicas.
En el captulo 11 se describe cmo usar las reglas operativas del programa como
base para elegir un mtodo de evaluacin de impacto, a saber: los recursos
de que dispone un programa, el criterio para seleccionar a los beneciarios y
el calendario de la implementacin. Se establece un marco de trabajo sencillo
para determinar cul de las metodologas de evaluacin de impacto presenta-
das en la segunda parte es la ms adecuada para un determinado programa, de
acuerdo con sus reglas operativas. El captulo tambin trata de cmo el mejor
mtodo es el que requiere los supuestos ms dbiles y tiene la menor cantidad
de requisitos de datos en el contexto de las reglas operativas.
En el captulo 12 se analiza la relacin entre los equipos de investigacin y

de polticas pblicas y sus respectivos roles. Tambin se aborda la diferencia
entre independencia y ausencia de sesgo, y se destacan mbitos que pueden
revelarse como sensibles en la realizacin de una evaluacin de impacto. El
captulo ofrece orientacin sobre cmo gestionar las expectativas de las par-
tes interesadas y destaca algunos de los riesgos habituales presentes en las
evaluaciones de impacto, as como sugerencias sobre cmo gestionar esos
riesgos. Concluye con una visin general de cmo gestionar las actividades
de evaluacin de impacto, entre ellas la creacin del equipo de evaluacin, el
calendario de la evaluacin, el presupuesto y la recaudacin de fondos.
El captulo 13 proporciona una visin general de la tica y la ciencia de la eva-

luacin de impacto, lo que incluye la importancia de no negar los benecios
a los beneciarios elegibles en aras de la evaluacin; cmo aplicar principios
bsicos de investigacin tica con sujetos humanos; el rol de las juntas de
revisin institucional que aprueban y monitorean la investigacin con dichos
sujetos; y la importancia de practicar la ciencia abierta, lo cual implica registrar
las evaluaciones y divulgar pblicamente los datos para otras investigaciones
y para replicar los resultados.
El captulo 14 presenta visiones novedosas sobre cmo utilizar las evaluacio-

nes de impacto para fundamentar las polticas pblicas, lo que abarca consejos
sobre cmo destacar la relevancia de los resultados, un debate sobre el tipo
de productos que las evaluaciones de impacto pueden y deben elaborar, y
orientacin sobre cmo producir y divulgar los hallazgos para maximizar el
impacto de las polticas.
CAPTULO 11
Eleccin de un mtodo de
Qu mtodo usar en un determinado programa?
La clave para identicar el impacto causal de un programa consiste en

encontrar un grupo de comparacin vlido para estimar el contrafactual y
responder a la pregunta de inters de la poltica pblica. En la segunda
parte de este volumen se abordaron diversos mtodos, entre ellos la asigna-
cin aleatoria, las variables instrumentales, la regresin discontinua, las
diferencias en diferencias y el pareamiento. En este captulo, se analizar la
pregunta relacionada con qu mtodo elegir para un determinado pro-
grama que se quiera evaluar.
En primer lugar, se muestra que las reglas operativas del programa cons-
tituyen una clara orientacin para encontrar grupos de comparacin y, por
lo tanto, para hallar el mtodo ms adecuado para su contexto de polticas.
Un principio general es que si las reglas operativas de un programa estn
bien denidas, pueden ayudar a determinar cul es el mtodo ms ade-
cuado para evaluar ese programa concreto.
En segundo lugar, los mtodos introducidos en la segunda parte tie-
nen diferentes requisitos de datos y se basan en diferentes supuestos
fundamentales. Algunos mtodos requieren supuestos ms fuertes que
otros para estimar con precisin los cambios en los resultados
207
causados por la intervencin. En general, se preere el mtodo que
requiere los supuestos ms dbiles y tiene la menor cantidad de requisi-
tos de datos en el contexto de las reglas operativas.
Por ltimo, se examina cmo elegir la unidad de intervencin. Por
ejemplo, el programa se asignar a nivel individual, o a un nivel superior,
como las comunidades o los distritos? En general, conviene elegir la uni-
dad de intervencin factible ms pequea dentro de las limitaciones
operativas.
Cmo las reglas operativas de un programa

pueden contribuir a elegir un mtodo de
Concepto clave Uno de los principales mensajes de este libro es que se pueden usar las
Las reglas operativas reglas operativas de un programa para encontrar grupos de comparacin
de un programa vlidos, en la medida en que las reglas operativas del programa estn bien
determinan qu denidas. De hecho, dichas reglas brindan orientacin en cuanto al mtodo
mtodo de evaluacin
ms adecuado para evaluar ese programa concreto. Las reglas operativas del
de impacto es el ms
adecuado para evaluar programa son las que pueden y deben regir en el mtodo de evaluacin, no a
el programa, no a la la inversa. La evaluacin no debera cambiar drsticamente elementos clave
inversa. de las reglas de asignacin del programa bien denidas en aras de un diseo
de evaluacin ms claro.
Las reglas operativas ms pertinentes para el diseo de la evaluacin son
aquellas que identican quines son elegibles para el programa y cmo se
seleccionan para que participen. Los grupos de comparacin provienen de
aquellos sujetos elegibles pero que no pueden incorporarse al programa en
un determinado momento (por ejemplo, cuando los recursos son limitados
y hay exceso de demanda), o de aquellos que se encuentran cerca de un
umbral de elegibilidad para participar en el programa.
Concepto clave
Cuando se disean
Principios de las reglas de asignacin al programa bien denidas
evaluaciones de
impacto, casi siempre Al disear las evaluaciones de impacto, siempre se pueden encontrar grupos
se pueden encontrar
de comparacin vlidos si las reglas operativas para seleccionar a los
grupos de comparacin
vlidos si las reglas beneciarios son equitativas, transparentes y estn sujetas a rendicin de
operativas para cuentas:
seleccionar a los
beneciarios son Las reglas equitativas de asignacin al programa clasican o priorizan la
equitativas, elegibilidad en funcin de un indicador de las necesidades acordado
transparentes y estn comnmente, o estipulan que a todos se les ofrezcan los benecios del
sujetas a rendicin de programa, o que al menos tengan iguales posibilidades de que les ofrez-
cuentas. can los benecios.
Las reglas de asignacin al programa se divulgan y son transparentes, de
modo que las partes externas las acepten implcitamente y puedan com-
probar que en efecto hay un seguimiento. Las reglas transparentes debe-
ran ser cuanticables y fcilmente observables.
Las reglas sujetas a rendicin de cuentas son responsabilidad de los fun-
cionarios del programa y su implementacin es la base del desempeo en
el trabajo o de las recompensas de esos funcionarios.
Las reglas operativas de elegibilidad son transparentes y estn sujetas
arendicin de cuentas cuando los programas utilizan criterios cuanti-
cables que pueden ser vericados por organizaciones externas y cuando
hacen pblicos dichos criterios. La equidad, la transparencia y la rendi-
cin de cuentas aseguran que los criterios de elegibilidad sean verica-
bles cuantitativamente y estn realmente implementados segn su
diseo. Como tales, estos principios de buena gobernanza mejoran la
probabilidad de que el programa realmente benecie a la poblacin foca-
lizada y tambin constituyen la clave de una evaluacin exitosa. Si las
reglas no son cuanticables y vericables, el equipo de evaluacin tendr
dicultades para asegurar que la asignacin a los grupos de tratamiento
y comparacin se produzca siguiendo el diseo o, como mnimo, docu-
mentando cmo sucedi en la prctica. Si los miembros del equipo de
evaluacin no pueden vericar la asignacin en la prctica, no pueden
analizar correctamente los datos para calcular los impactos. Entender
las reglas de asignacin del programa es fundamental para seleccionar
un mtodo de evaluacin adecuado.
Cuando las reglas operativas incumplen cualquiera de estos tres prin-
cipios de buena gobernanza, surgen dicultades tanto para crear un pro-
grama bien diseado como para llevar a cabo la evaluacin. Es difcil
encontrar grupos de comparacin vlidos si las reglas que determinan la
elegibilidad y la seleccin de los beneciarios no son equitativas ni trans-
parentes, ni estn sujetas a rendicin de cuentas. En este caso, el diseo
de una evaluacin de impacto puede requerir aclaraciones y ajustes en el
funcionamiento del programa. Sin embargo, si las reglas estn bien de-
nidas, el mtodo de evaluacin de impacto se puede elegir sobre la base
de las reglas existentes de asignacin del programa, como se explica a
continuacin con ms detalle.
Reglas operativas clave
Las reglas operativas suelen denir cules son los benecios del programa,
cmo se nancian y se distribuyen estos benecios y de qu modo el
programa selecciona a los beneciarios. Las reglas que gobiernan
Eleccin de un mtodo de evaluacin de impacto 209
los programas y la seleccin de los beneciarios son clave para encontrar
grupos de comparacin vlidos. Las reglas que gobiernan la seleccin de los
beneciarios comprenden la elegibilidad, las reglas de asignacin en el caso
de recursos limitados y el orden de incorporacin de los beneciarios a lo
largo del tiempo. Ms especcamente, las reglas clave que generan una hoja
de ruta para encontrar grupos de comparacin corresponden a tres pregun-
tas operativas fundamentales en relacin con los recursos de los que dis-
pone un programa, los criterios de elegibilidad y el calendario de la
implementacin:
1. Recursos disponibles: El programa tiene sucientes recursos para imple-

mentarse a escala y atender a todos los beneciarios elegibles? Los
gobiernos y las organizaciones no gubernamentales (ONG) no siempre
tienen sucientes recursos para proporcionar los servicios del programa
a todos los que son elegibles y se postulan a los programas. En ese caso, el
gobierno u ONG debe decidir cules son los postulantes elegibles que
recibirn los benecios del programa y cules quedarn excluidos. En
muchas ocasiones, los programas se limitan a regiones geogrcas espe-
ccas o a un nmero restringido de comunidades, aun cuando pueda
haber beneciarios elegibles en otras regiones o comunidades.
2. Criterios de elegibilidad: Quin es elegible para recibir los benecios del

programa? La asignacin del programa se basa en un umbral de elegibi-
lidad, o est disponible para todos? Las escuelas pblicas y la atencin
primaria de salud suelen ser de carcter universal. Muchos programas
utilizan reglas operativas de elegibilidad que dependen de una clasica-
cin continua y un umbral denido. Por ejemplo, los sistemas de jubila-
cin establecen una edad lmite por encima de la cual las personas de
edad avanzada son elegibles. Los programas de transferencias condicio-
nadas suelen clasicar a los hogares a partir de su nivel estimado de
pobreza y los hogares por debajo de un umbral de pobreza predetermi-
nado se consideran elegibles.
3. Calendario de implementacin: Los beneciarios potenciales se inscri-

ben en el programa todos al mismo tiempo o por fases? A menudo, las
limitaciones administrativas y de recursos impiden que los gobiernos y
las ONG proporcionen benecios de forma inmediata a toda la poblacin
elegible. Deben implementar sus programas a lo largo del tiempo y, por lo
tanto, decidir quin es objeto de los benecios primero y quin se incor-
pora ms tarde. Un enfoque comn consiste en ampliar un programa en
fases geogrcamente, a lo largo del tiempo, incorporando a todos los
beneciarios elegibles en una comunidad o regin antes de pasar a la
siguiente.
Creacin de grupos de comparacin a partir de las
reglas operativas
Al disear evaluaciones de impacto prospectivas, la respuesta a las tres pre-

guntas operativas determina en gran parte el mtodo de evaluacin de
impacto ms adecuado para un cierto programa. El cuadro 11.1 recoge los
Cuadro 11.1 Relacin entre las reglas operativas de un programa y los mtodos de
Exceso de demanda del programa No exceso de demanda del programa

(recursos limitados) (recursos sucientes)
(1) (2) (3) (4)
Criterios de ndice continuo y Sin ndice continuo ndice continuo Sin ndice continuo y
elegibilidad umbral de y umbral de y umbral de umbral de
elegibilidad elegibilidad elegibilidad elegibilidad
(A) Celda A1 Celda A2 Celda A3 Celda A4

Implemen- Asignacin Asignacin Asignacin Asignacin aleatoria
tacin en aleatoria (captulo 4) aleatoria (captulo 4) aleatoria en en fases (captulo 4)
Calendario de implementacin
fases DRD (captulo 6) Variables instru- fases (captulo 4) Variables instrumen-

mentales (promo- DRD (captulo 6) tales (promocin
cin aleatoria) aleatoria para
(captulo 5) participacin
DD (captulo 7) temprana)
(captulo 5)
DD con parea-
miento (captulo 8) DD (captulo 7)
DD con pareamiento
(captulo 8)
(B) Celda B1 Celda B2 Celda B3 Celda B4
Implemen- Asignacin Asignacin DRD (captulo 6) Si participacin no es
tacin aleatoria (captulo 4) aleatoria plena:
inmediata DRD (captulo 6) (captulo 4) Variables instrumen-
Variables instru- tales (promocin
mentales (promo- aleatoria) (captulo 5)
cin aleatoria) DD (captulo 7)
(captulo 5)
DD con pareamiento
DD (captulo 7)
(captulo8)
DD con parea-
miento (captulo 8)
Nota: DD = diferencias en diferencias; DRD = diseo de regresin discontinua.

posibles grupos de comparacin en relacin con las reglas operativas espe-
ccas del programa y las tres preguntas operativas fundamentales relacio-
nadas con los recursos disponibles, las reglas de elegibilidad y el calendario
de implementacin. Las columnas se dividen en funcin de si el programa
tiene o no recursos sucientes para eventualmente cubrir a todos los bene-
ciarios elegibles potenciales (recursos disponibles) y, adems, se subdividen
en programas que tienen un ranking y un lmite de elegibilidad continuos y
aquellos que no los tienen (criterios de elegibilidad). Las las se dividen en
implementacin en fases o implementacin inmediata del programa (calen-
dario de implementacin). En cada celda se recogen las fuentes potenciales
de grupos de comparacin vlidos, junto con el captulo relacionado en que
se trata en la segunda parte. Cada celda tiene un rtulo con un ndice: la letra
inicial seala la columna en el cuadro (A, B) y el nmero que sigue indica la
columna (1-4). Por ejemplo, la celda A1 se reere a la celda de la primera la
y la primera columna del cuadro. As, la celda A1 identica los mtodos de
evaluacin ms adecuados para los programas que tienen recursos limita-
dos, que tienen criterios de elegibilidad y se desarrollan en fases.
La mayora de los programas debe implementarse en fases a lo largo del
tiempo debido ya sea a limitaciones nancieras o a problemas logsticos y
administrativos. Este grupo o categora cubre la primera la del cuadro (cel-
das A1, A2, A3 y A4). En este caso, la regla operativa equitativa, transparente
y sujeta a rendicin de cuentas consiste en dar a todas las unidades elegibles
la misma oportunidad de ser la primera, segunda, tercera, etc. en acceder al
programa, lo que implica una implementacin aleatoria del programa a lo
largo del tiempo.
En los casos en que los recursos son limitados, es decir, en los que nunca
habr sucientes recursos para alcanzar la plena implementacin (celdas A1
y A2, y B1 y B2), puede producirse muy rpidamente un exceso de demanda
de aquellos recursos. Un sorteo para decidir quin entra en el programa
puede ser un enfoque viable para decidir a quin asignar benecios entre
unidades igualmente elegibles. En este caso, cada unidad elegible tiene la
misma oportunidad de beneciarse del programa. Un sorteo es un ejemplo
de regla operativa equitativa, transparente y sujeta a rendicin de cuentas
para asignar los benecios del programa entre las unidades elegibles.
Otro tipo de programas comprende a los que se implementan a lo largo
del tiempo y para los que los administradores pueden clasicar los bene-
ciarios potenciales en funcin de la necesidad (celdas A1 y A3). Si los crite-
rios utilizados para priorizar a los beneciarios son cuantitativos, estn
disponibles y tienen un umbral de elegibilidad, el programa puede usar un
diseo de regresin discontinua.
La otra categora amplia consiste en programas que tienen la capacidad
administrativa para implementarse inmediatamente: es decir, las celdas en
la la inferior del cuadro. Cuando el programa tiene recursos limitados y no
es capaz de clasicar a los beneciarios (celda B2), podra utilizarse la asig-
nacin aleatoria basada en el exceso de demanda. Si el programa tiene su-
cientes recursos para ampliarse y ningn criterio de elegibilidad (celda B4),
la nica solucin es utilizar variables instrumentales (promocin aleatoria)
bajo el supuesto de participacin no plena en el programa. Si el programa
puede clasicar a los beneciarios y depende de criterios de elegibilidad, se
puede recurrir a la regresin discontinua.
Priorizacin de los beneciarios
Las tres preguntas operativas clave guardan relacin con el tema fundamen-
tal de cmo se seleccionan los beneciarios, lo cual es crucial para encontrar
grupos de comparacin vlidos. En ocasiones, los grupos de comparacin se
hallan entre las poblaciones no elegibles, y con mayor frecuencia entre las
poblaciones que son elegibles pero que se incorporan al programa ms
tarde. La manera de priorizar entre los beneciarios depende en parte de los
objetivos del programa Se trata de un programa de jubilaciones para las
personas de edad avanzada, un programa de alivio de la pobreza focalizado
en los pobres o un programa de inmunizacin disponible para todos?
Para priorizar entre los beneciarios sobre la base de la necesidad, el pro-
grama debe encontrar un indicador que sea a la vez cuanticable y verica-
ble. En la prctica, la viabilidad de la priorizacin depende en gran parte de
la capacidad del gobierno para medir y clasicar las necesidades. Si el
gobierno puede clasicar adecuadamente a los beneciarios en funcin de
sus necesidades relativas, puede que est ticamente obligado a implemen-
tar el programa de acuerdo con las necesidades. Sin embargo, clasicar en
funcin de la necesidad requiere no solo una medida cuanticable sino tam-
bin la capacidad y los recursos para medir ese indicador para cada unidad
que participa en el programa.
Algunos programas utilizan criterios de seleccin que, en principio,
podran usarse para clasicar necesidades relativas y determinar la elegibili-
dad. Por ejemplo, numerosos programas quieren llegar a las personas pobres.
Sin embargo, los indicadores de pobreza adecuados que clasican a los hoga-
res de manera able a menudo son difciles de medir y costosos de recopilar.
La recopilacin de datos de los ingresos o del consumo de todos los bene-
ciarios potenciales para clasicarlos segn el nivel de pobreza es un proceso
complejo y oneroso que, adems, sera difcil de vericar. Al contrario,
muchos programas utilizan algn tipo de proxy mean test para estimar los
niveles de pobreza. Se trata de ndices de medidas observables sencillas
como los activos y las caractersticas sociodemogrcas (Grosh et al., 2008).
Los proxy mean tests pueden ayudar a determinar razonablemente bien si un
hogar se sita por encima o por debajo de un umbral, pero pueden ser menos
precisos en una clasicacin detallada de la situacin socioeconmica o de
las necesidades.
En lugar de enfrentarse al costo y a la complejidad de clasicar a los
potenciales beneciarios individuales, numerosos programas han decidido
clasicar en un nivel superior de agregacin, como el nivel de la comunidad.
Determinar la asignacin del programa a un nivel agregado tiene benecios
operativos evidentes, pero a menudo es difcil encontrar indicadores para
producir una clasicacin de las necesidades en un nivel ms agregado.
En los casos en que un programa no puede asignar benecios de manera
able sobre la base de la necesidad, ya sea porque no hay indicadores de
clasicacin cuanticables y vericables, o porque es demasiado caro y pro-
penso a errores, se tienen que usar otros criterios para decidir cmo secuen-
ciar la implementacin del programa. Un criterio coherente con la buena
gobernanza es la equidad. Una regla equitativa sera dar a todos aquellos que
son elegibles la misma oportunidad de ser el primero en tener acceso, y asig-
nar de forma aleatoria un lugar en la secuencia a los beneciarios potencia-
les. En la prctica, dadas las dicultades para clasicar las necesidades, una
regla de asignacin al programa que suele usarse es la asignacin aleatoria
de los benecios del programa. Tambin produce un diseo de evaluacin
aleatoria que puede proveer buena validez interna si se implementa bien, y
puede depender de supuestos ms dbiles en comparacin con los otros
mtodos, como se trata en la seccin siguiente.
Una comparacin de mtodos de evaluacin de

impacto
Despus de estimar qu mtodo de evaluacin de impacto es adecuado para

las reglas operativas especcas del programa, el equipo de evaluacin
puede elegir el mtodo que tiene el supuesto ms dbil y los menores requi-
sitos de datos. El cuadro 11.2 presenta una comparacin de los mtodos de
evaluacin de impacto alternativos en trminos de los requisitos de datos
para implementarlos y los supuestos fundamentales necesarios para inter-
pretar sus resultados como impactos causales de la intervencin. Cada la
representa un mtodo diferente. Las primeras dos columnas describen los
mtodos y las unidades en el grupo de comparacin. Las dos ltimas colum-
nas recogen los supuestos necesarios para interpretar los resultados como
causales, y los datos necesarios para implementar los mtodos.
Todos los mtodos requieren supuestos, es decir, para ser capaces de
interpretar resultados como causales se debe creer que son verdad ciertos
hechos que no siempre se pueden vericar empricamente. En particular,
Cuadro 11.2 Comparacin de mtodos de evaluacin de impacto
Quin est en el
grupo de
Metodologa Descripcin comparacin? Supuesto clave Datos requeridos
Asignacin aleatoria Las unidades elegibles se Las unidades elegibles se La aleatorizacin produce Datos de seguimiento de
asignan de forma aleatoria asignan aleatoriamente al dos grupos estadsticamente los resultados en los
a un grupo de tratamiento grupo de comparacin. idnticos con respecto a las grupos de tratamiento y
o de comparacin. Cada caractersticas observables y comparacin; datos de
unidad elegible tiene una no observables a lo largo del lnea de base y otras
probabilidad conocida de tiempo en ausencia de la caractersticas para los
ser seleccionada. Tiende a intervencin (en la lnea de grupos de tratamiento y
generar estimaciones de base y a lo largo del comparacin con el n
impacto internamente seguimiento). de vericar el equilibrio.
vlidas con los supuestos
ms dbiles.
Variables instrumentales Un instrumento aleatoriza- Las unidades que El instrumento afecta la Datos de seguimiento de
(concretamente la do (como una campaa de cumplen con los participacin en el programa, los resultados de todas
promocin aleatoria) promocin) induce requisitos para participar pero no afecta directamente las unidades; datos sobre
cambios en la participacin pero cuya participacin los resultados (es decir, el la participacin efectiva
en el programa que se se ve afectada por el instrumento inuye en los en el programa; datos de
evala. El mtodo utiliza el instrumento (participa- resultados solo cambiando la los resultados de lnea de
cambio en los resultados ran si se exponen al probabilidad de participar en base y otras caractersti-
inducido por el cambio en instrumento pero no lo el programa). cas.
las tasas de participacin haran en caso contrario).
para estimar los impactos
del programa.
215
Cuadro 11.2 Comparacin de mtodos de evaluacin de impacto (contina)
216
Quin est en el
grupo de
Metodologa Descripcin comparacin? Supuesto clave Datos requeridos
Diseo de regresin Las unidades se clasican Las unidades situadas Para identicar impactos no Datos de seguimiento de
discontinua a partir de criterios cerca del umbral, pero sesgados en el programa los resultados; ndice de
cuantitativos especcos que no son elegibles para la poblacin cercana al clasicacin y umbral de
y continuos, como un para recibir el programa. umbral, las unidades que se elegibilidad; datos sobre
ndice de pobreza. Un encuentran inmediatamente los resultados de lnea de
umbral determina si una por debajo e inmediatamente base y otras caractersti-
unidad es elegible para por encima del umbral son cas.
participar en un programa. estadsticamente idnticas.
Los resultados de los Para identicar los impactos
participantes en una parte no sesgados en el programa
del umbral se comparan para toda la poblacin, la
con los resultados de los poblacin cercana al umbral
no participantes al otro debe ser representativa de
lado del umbral. toda la poblacin.
Diferencias en diferencias El cambio en el resultado Las unidades que no Si el programa no exista, los Datos de lnea de base y
a lo largo del tiempo en participaron en el resultados de los grupos de de seguimiento de los
un grupo de no participan- programa (por cualquier participantes y no participan- resultados y otras
tes se utiliza para estimar motivo) y para las cuales tes habran evolucionado caractersticas tanto para
cul habra sido el cambio se recopilaron datos paralelamente a lo largo del los participantes como
en los resultados de un antes y despus del tiempo. para los no participantes.
grupo de participantes en programa.
ausencia de un programa.
Paramiento (en particular, Para cada participante del Para cada participante, la No hay ninguna caractersti- Seguimiento de los datos
pareamiento por puntajes programa, el mtodo unidad no participante ca que inuya en la participa- de los resultados de los
de propensin) busca la unidad ms que, segn las prediccio- cin en el programa ms all participantes y no
similar en el grupo de no nes sobre la base de de las caractersticas participantes; datos
participantes (el parea- caractersticas observa- observables utilizadas para sobre la participacin
miento ms estrecho se bles, tiene la misma el pareamiento. efectiva en el programa;
basa en caractersticas probabilidad de haber caractersticas de lnea
observables). participado en el de base para llevar a
programa. cabo el pareamiento.
Fuente: Adaptado del sitio web de Abdul Latif Jameel Poverty Action Lab (J-PAL).
para cada mtodo, un supuesto clave es que la media del grupo de compara-
cin de la que depende el mtodo sea una estimacin vlida del contrafac-
tual. En cada uno de los captulos sobre los mtodos, que se presentan en la
segunda parte de este volumen, se han expuesto algunas consideraciones
sobre cmo probar si un mtodo es vlido en un contexto particular. Algunos
mtodos dependen de supuestos ms fuertes que otros.
Ceteris paribus, el mtodo preferido es el que mejor se adecua al contexto Concepto clave
operativo y el que requiere los supuestos ms dbiles y la menor cantidad de El mtodo de
datos. Estos criterios explican por qu los investigadores consideran la asig- evaluacin de impacto
nacin aleatoria la regla de oro, y por qu a menudo es el mtodo preferido. preferido es aquel que
La asignacin aleatoria se adecua a numerosos contextos operativos y tiende se adecua mejor al
contexto operativo,
a generar estimaciones de impacto internamente vlidas con los supuestos
requiere los supuestos
ms dbiles. Cuando se implementa de manera adecuada, genera compara- ms dbiles y la menor
bilidad entre los grupos de tratamiento y comparacin en caractersticas cantidad de datos.
observables y no observables. Adems, la asignacin aleatoria tiende a
requerir muestras ms pequeas que las necesarias para implementar mto-
dos cuasi-experimentales (vase el debate en el captulo 15). Dado que la
asignacin aleatoria es relativamente intuitiva, el mtodo tambin facilita la
comunicacin de resultados a los responsables de las polticas.
Puede que los mtodos cuasi-experimentales sean ms adecuados en
algunos contextos operativos, pero requieren ms supuestos con el n de
que el grupo de comparacin provea una estimacin vlida del contrafac-
tual. Por ejemplo, el mtodo de diferencias en diferencias depende del
supuesto de que los cambios en los resultados en el grupo de comparacin
proporcionen una estimacin vlida del cambio del contrafactual en los
resultados del grupo de tratamiento. Este supuesto de que los resultados en
los grupos de tratamiento y comparacin evolucionan paralelamente a lo
largo del tiempo no es siempre posible de probar sin mltiples rondas de
datos antes de la intervencin. La regresin discontinua depende de la com-
parabilidad de las unidades justo por encima y justo por debajo del umbral
de elegibilidad. El pareamiento tiene los supuestos ms fuertes de todos los
mtodos, y esencialmente descarta cualquier caracterstica no observable
entre los participantes del programa y los no participantes. En general,
cuanto ms fuertes sean los supuestos, mayor ser el riesgo de que no se
cumplan en la prctica.
Un plan de respaldo para la evaluacin
A veces las cosas no salen exactamente como estaban planicadas, incluso

con el mejor diseo de evaluacin de impacto y las mejores intenciones.
Porejemplo, en un programa de capacitacin laboral, la agencia ejecu-
tora plane seleccionar a los participantes de forma aleatoria entre el
conjunto de postulantes, sobre la base del exceso de solicitudes previsto
en el programa. Dado que el desempleo entre la poblacin focalizada era
alto, se anticip que el nmero de postulantes al programa de capacita-
cin laboral sera mucho mayor que el nmero de plazas disponibles.
Desafortunadamente, la publicidad para el programa no fue tan efectiva
como se esperaba y, al nal, el nmero de postulantes se situ justo por
debajo del nmero de plazas de capacitacin disponibles. Sin un exceso
de solicitudes del cual extraer un grupo de comparacin, y sin plan de
respaldo, el intento inicial para evaluar el programa tuvo que dejarse de
lado por completo. Este tipo de situacin es habitual, como sucede con
los cambios no anticipados en el contexto operativo o poltico de un pro-
grama. Por lo tanto, es til tener un plan de respaldo en caso de que la
primera opcin de metodologa no funcione.
Planicar el uso de varios mtodos de evaluacin de impacto tambin es
una buena prctica desde un punto de vista metodolgico. Si se plantean
dudas acerca de si uno de los mtodos puede tener sesgos, se podrn veri-
car los resultados comparndolos con el otro mtodo. Cuando se imple-
menta un programa mediante asignacin aleatoria en fases, el grupo de
comparacin se incorporar eventualmente al programa. Aquello limita el
tiempo durante el cual el grupo de comparacin est disponible para la eva-
luacin. Sin embargo, si adems del diseo de asignacin aleatoria tambin
se implementa un diseo de promocin aleatoria, habr un grupo de compa-
racin disponible para toda la duracin del programa. Antes de que se incor-
pore el grupo nal de la implementacin, existirn dos grupos de
comparacin alternativos (de la asignacin aleatoria y de la promocin alea-
toria) aunque en el plazo ms largo solo quedar el grupo de comparacin
de la promocin aleatoria.
Cmo encontrar la unidad de intervencin ms

pequea factible
En general, las reglas operativas tambin determinan el nivel en que se

puede asignar una intervencin, algo que se relaciona con la manera en que
se implementa el programa. Por ejemplo, si se pone en marcha un programa
de salud a nivel de distrito, todas las comunidades del distrito o recibiran el
programa (como grupo) o no lo recibiran. Algunos programas se pueden
implementar de manera eciente a nivel individual o de los hogares, mien-
tras que otros deben aplicarse a nivel de la comunidad o a un nivel adminis-
trativo superior. Incluso si un programa se puede asignar e implementar a
nivel individual, el equipo de evaluacin quiz preera un nivel superior de
agregacin con el n de mitigar los efectos potenciales de derrame; es decir,
los efectos indirectos de las unidades que participan en las unidades que no
participan (vase una descripcin en el captulo 9).
Implementar una intervencin a un mayor nivel puede ser problemtico
para la evaluacin, por dos motivos. En primer lugar, las evaluaciones de las
intervenciones asignadas e implementadas a niveles superiores, como la comu-
nidad o el distrito administrativo, requieren tamaos de muestra ms grandes
y sern ms costosas, en comparacin con las evaluaciones de intervenciones a
un nivel ms bajo, como el nivel individual o de los hogares. Elnivel de inter-
vencin es importante porque dene la unidad de asignacin a los grupos de
tratamiento y comparacin, y eso tiene implicaciones para el tamao de la
muestra de la evaluacin y su costo. En las intervenciones implementadas a
niveles superiores, se necesita una muestra ms grande para poder detectar el
impacto del programa. La idea que subyace a esto se abordar en el captulo 15,
donde se analiza cmo determinar el tamao de la muestra requerido para una
evaluacin, y cmo la implementacin a niveles ms altos crea clusters (conglo-
merados) que incrementan el tamao requerido de la muestra.
En segundo lugar, a niveles superiores de intervencin, es ms difcil
encontrar un nmero suciente de unidades para realizar la evaluacin. Sin
embargo, la asignacin aleatoria solo genera grupos de tratamiento y compa-
racin comparables si se lleva a cabo con un nmero suciente de unidades.
Por ejemplo, si el nivel de agregacin es el de la provincia y el pas solo tiene
seis provincias, es poco probable que la aleatorizacin genere equilibrio
entre los grupos de tratamiento y comparacin. En este caso, imagnese que
el diseo de la evaluacin asigna tres provincias al grupo de tratamiento y
otras tres al grupo de comparacin. Es muy poco probable que las provincias
del grupo de tratamiento sean similares a las del grupo de comparacin,
incluso si en cada provincia hay un nmero grande de hogares. Esto es por-
que la clave para equilibrar los grupos de tratamiento y comparacin es el
nmero de unidades asignadas a los grupos de tratamiento y comparacin,
no el nmero de individuos o de hogares de la muestra. Por lo tanto, llevar a
cabo una asignacin aleatoria en niveles altos de implementacin pone en
riesgo la validez interna si el nmero de unidades no es suciente.
Para evitar los riesgos asociados con la implementacin de la intervencin
en un nivel geogrco administrativo alto, el equipo de evaluacin y los admi-
nistradores del programa tienen que trabajar juntos para encontrar la unidad
de intervencin ms pequea que sea operacionalmente factible. Diversos
factores determinan la unidad de intervencin ms pequea factible:
Las economas de escala y la complejidad administrativa en la implemen-
tacin del programa.
La capacidad administrativa para asignar benecios a nivel individual o
de los hogares.
Preocupaciones potenciales a propsito de posibles tensiones.
Preocupaciones potenciales acerca de los efectos de derrame y la conta-
minacin del grupo de comparacin.
La unidad factible de intervencin ms pequea suele depender de las
economas de escala y de la complejidad administrativa de realizar el pro-
grama. Por ejemplo, un programa de seguro de salud quiz requiera una o-
cina local para que los beneciarios presenten reclamos y para pagar a los
proveedores. Los costos jos de la ocina tienen que repartirse entre un gran
nmero de beneciarios, de modo que puede ser ineciente implementar el
programa a nivel individual y ms eciente si se hace a nivel de la comunidad.
Sin embargo, en situaciones con tipos de intervenciones nuevas y no proba-
das, puede que merezca la pena absorber las ineciencias de corto plazo e
implementar el programa en los distritos administrativos, para asegurar la
credibilidad de la evaluacin y disminuir los costos de la recopilacin de datos.
Algunos administradores de programas sostienen que los programas
administrados a nivel local, como los programas de seguro de salud, no tie-
nen las capacidades administrativas para implementar programas a nivel
individual. Su preocupacin es que sera una carga crear sistemas para pres-
tar diferentes benecios a diferentes beneciarios en unidades administra-
tivas locales, y que acaso resulte difcil garantizar que la asignacin a los
grupos de tratamiento y comparacin se implemente siguiendo el diseo.
Este ltimo problema es una seria amenaza para una evaluacin de impacto,
dado que los administradores del programa quiz no puedan poner en mar-
cha el programa de forma consistente siguiendo un diseo de evaluacin. En
este caso, puede que sea necesaria una implementacin a un nivel superior
o una simplicacin del diseo de evaluacin de impacto.
En ocasiones los gobiernos preeren implementar programas a niveles
ms agregados, como el de la comunidad, porque les preocupan las tensio-
nes potenciales que surgen cuando los miembros de los grupos de compara-
cin observan que los vecinos en el grupo de tratamiento tienen derecho a
los benecios. Numerosos programas se han llevado a cabo con xito a nivel
individual o de los hogares en las comunidades sin generar tensiones, sobre
todo cuando los benecios se han asignado de manera equitativa, transpa-
rente y sujetos a rendicin de cuentas. Aun as, tendra que tenerse en cuenta
el riesgo de que puedan surgir tensiones en el contexto de una evaluacin de
impacto especca.
Por ltimo, cuando se asigna un programa y se implementa a nivel muy
bajo, como en los hogares o a nivel individual, la contaminacin del grupo de
comparacin puede poner en entredicho la validez interna de la evaluacin.
Por ejemplo, imagnese que se evala el efecto de proporcionar agua
corriente en la salud de los hogares. Si se instalan grifos de agua para un
Recuadro 11.1: Programas de transferencias monetarias
condicionadas y el nivel mnimo de intervencin
La mayora de las transferencias monetarias elegibles de las comunidades de comparacin
condicionadas utiliza a las comunidades se les ofreci la misma oportunidad 18 meses
como el nivel o la unidad de intervencin por ms tarde, en el invierno de 1999. Sin
motivos administrativos y de diseo de embargo, el equipo de evaluacin encontr
programa, y debido a preocupaciones acerca una correlacin considerable en los resultados
de los efectos de derrame y de posibles entre los hogares de las propias comunidades.
tensiones en la comunidad si el tratamiento Por lo tanto, para generar suciente potencia
se asignara a un nivel ms bajo. estadstica para la evaluacin, necesitaban
Por ejemplo, la evaluacin del programa ms hogares en la muestra de lo que habra
de transferencias monetarias condicionadas sido necesario si hubieran sido capaces de
Progresa-Oportunidades de Mxico dependa asignar los hogares individuales a los grupos
de la implementacin del programa a de tratamiento y de comparacin. Por lo
nivel comunitario en las zonas rurales para tanto, la imposibilidad de implementar el
asignar de forma aleatoria las comunidades programa a nivel de los hogares gener
a los grupos de tratamiento y comparacin. requisitos de tamaos ms grandes de la
A todos los hogares elegibles de las muestra y aument el costo de la evaluacin.
comunidades de tratamiento se les ofreci la Otras dicultades similares afectan a muchos
oportunidad de inscribirse en el programa en de los programas en el sector de desarrollo
la primavera de 1998, y a todos los hogares humano.
Fuentes: Behrman y Hoddinott (2001); Skouas y McClafferty (2001).
hogar pero no para su vecino, el hogar de tratamiento bien puede compartir

el uso del grifo con un vecino de comparacin y, por lo tanto, el hogar vecino
no sera una verdadera comparacin, dado que se beneciara del efecto de
derrame.
El recuadro 11.1 ilustra las implicaciones de la seleccin de un nivel de
intervencin en el contexto de las transferencias condicionadas. En la prc-
tica, los administradores de programa tienen que optar por la unidad facti-
ble de intervencin ms pequea que (1) permita contar con un gran nmero
de unidades en la evaluacin, (2) mitigue los riesgos para la validez interna,
y (3) se ajuste al contexto operativo.
Otros recursos
Para material de apoyo relacionado con el libro y para hipervnculos con ms

Behrman, J. R. y J. Hoddinott. 2001. An Evaluation of the Impact of PROGRESA

on Preschool Child Height. Documento de discusin Nm. 104. Washington,
D.C.: International Food Policy Research Institute.
Grosh, M. E., C. Del Ninno, E. Tesliuc y A. Ouerghi. 2008. For Protection and
Promotion: The Design and Implementation of Effective Safety Nets. Washington,
D.C.: Banco Mundial.
Skouas, E. y B. McClafferty. 2001. Is Progresa Working? Summary of the Results
of an Evaluation by IFPRI. Washington, D.C.: International Food Policy
Research Institute.

CAPTULO 12
Gestin de una evaluacin

deimpacto
Gestin del equipo, del tiempo y del presupuesto

de una evaluacin
Una evaluacin es una alianza entre un equipo de polticas pblicas y un

equipo de investigacin. Cada grupo depende del otro para el xito de la
evaluacin. Juntos, constituyen el equipo de evaluacin. La alianza se basa
en la comprensin de los roles y responsabilidades respectivas de ambos
equipos, un compromiso conjunto con la evaluacin y un reconocimiento de
lo que motiva a las personas a trabajar en la evaluacin. Una alianza efectiva
es fundamental para asegurar la credibilidad tcnica y el impacto de una
evaluacin en las polticas pblicas.
En este captulo se describen los elementos de una alianza efectiva, lo
cual incluye los roles y responsabilidades de cada equipo. Tambin se ana-
liza cmo funciona la alianza en diferentes etapas del proceso de evaluacin
y se describen los modelos alternativos de colaboracin. El captulo tambin
aborda cuestiones prcticas de calendario y presupuesto.
223
Roles y responsabilidades de los equipos de
investigacin y de polticas pblicas
El equipo de investigacin: funcin de la investigacin y funcin

de los datos
El equipo de investigacin es responsable de la calidad tcnica y la integri-

dad cientca del trabajo de evaluacin. Sus responsabilidades abarcan el
diseo de la investigacin, la calidad de los datos y el anlisis. Los equipos de
investigacin suelen trabajar con las siguientes personas:
El investigador principal trabaja con los responsables de las polticas y los

encargados del programa para: establecer objetivos clave, cuestiones de
polticas, indicadores y necesidades de informacin de la evaluacin
(amenudo utilizando una teora del cambio, como una cadena de resulta-
dos); decidir cul es la metodologa de evaluacin de impacto; desarrollar
el plan de evaluacin; conformar el equipo de investigacin; registrar la
evaluacin de impacto, obtener aprobaciones de la junta de revisin insti-
tucional; preparar un plan de evaluacin, incluido un plan detallado de
preanlisis; dirigir el anlisis de los resultados; y colaborar con el equipo
de polticas pblicas para divulgar los resultados. El investigador princi-
pal debe poder trabajar efectivamente con todo el equipo de evaluacin,
incluyendo la organizacin encargada de la recopilacin de datos, otros
miembros del equipo de investigacin y los responsables de las polticas
pblicas o encargados del programa que utilizan los datos y los resultados
de la evaluacin. Diversos investigadores pueden trabajar con el investi-
gador principal o como co-investigadores principales para liderar o apo-
yar trabajos analticos especcos de los elementos, como el muestreo, las
evaluaciones cualitativas o el anlisis de costo-efectividad.
Un gestor de la evaluacin o coordinador del trabajo de campo, que trabaja

directamente con el investigador principal en la implementacin diaria de
la evaluacin. Esto signica trabajar con los encargados del programa y los
responsables de las polticas pblicas en el equipo de polticas pblicas y
supervisar el trabajo de campo cuando se recopilan los datos primarios.
Esta persona es particularmente importante en aquellos casos en que el
investigador principal carece de una base local, donde se aplica una eva-
luacin prospectiva que debe ser coordinada estrechamente con la imple-
mentacin del programa o all donde se recopilan los datos primarios.
Un experto en muestreo, que orienta el trabajo de clculo de potencia y
muestreo. En el tipo de evaluacin de impacto cuantitativa que trata este
libro, el experto en muestreo debe llevar a cabo clculos de potencia para

determinar el tamao adecuado de la muestra segn los indicadores esta-
blecidos, seleccionar la muestra, comparar los resultados de la muestra
real con los de la muestra diseada, y ofrecer recomendaciones sobre las
implicancias para el anlisis en coincidencia con el plan de preanlisis.
Elinvestigador principal a menudo lleva a cabo estas funciones directa-
mente o junto con el experto en muestreo.
Un equipo de recopilacin de datos, que es el encargado de elaborar los
instrumentos de recopilacin de datos y los manuales y libros de cdigo
correspondientes; debe recopilar, digitar y limpiar los datos, y entregar
una base de datos limpia y documentada cuando se requiera una recopi-
lacin de datos primarios. El captulo 16 aborda las fuentes de los datos y
los diversos aspectos de la recopilacin de los mismos.
El equipo de polticas pblicas: funcin de polticas y funcin de

gestin del programa
El equipo de polticas pblicas est formado por responsables de polticas y

encargados del programa:
Los responsables de las polticas establecen la agenda de investigacin,
denen la pregunta fundamental que aborda el estudio, aseguran los
recursos adecuados para el trabajo, y aplican los resultados a las polticas.
Al comienzo de la evaluacin, deben articular con claridad los objetivos
tanto del programa como de la evaluacin, as como la teora del cambio
y los principales indicadores de inters, lo que incluye el tamao del
efecto mnimo relevante para las polticas de los indicadores de resultado
de inters, como se detalla en el captulo 2. El equipo de polticas pblicas
tiene conocimiento del dilogo de polticas y de los contactos con las
principales partes interesadas con el n de asegurar que la evaluacin se
disee para ser lo ms relevante posible para las polticas, y para garanti-
zar que los interesados y los responsables de la toma de decisiones ade-
cuados participen en momentos clave del proceso de evaluacin.
Los encargados del programa trabajan mano a mano con el equipo de
investigacin para alinear el diseo de evaluacin con la implementacin
del programa. Esto incluye vericar que el diseo de evaluacin se base
en informacin precisa de la operacin del programa y comprometerse a
implementar el programa segn lo planicado, en el caso de las evalua-
ciones prospectivas. Los encargados del programa en el equipo de polti-
cas pblicas tambin suelen gestionar el presupuesto de evaluacin y a
menudo ayudan al equipo de investigacin a supervisar el trabajo de
campo en la recopilacin de datos.
Gestin de una evaluacin de impacto 225

A quin le importa la evaluacin y por qu?
Concepto clave Desde la perspectiva del equipo de polticas pblicas, normalmente el
Una alianza efectiva principal inters es saber si el programa o la reforma son efectivos o no, y
entre el equipo de a qu costo se alcanzaron los resultados. Los encargados locales del pro-
polticas pblicas y el
grama tendrn inters en asegurar que sus esfuerzos sean valorados y que
equipo de investigacin
es crucial para asegurar se les otorgue crdito y visibilidad por su trabajo. Emprender una evalua-
la credibilidad tcnica y cin de impacto signica un esfuerzo considerable de una amplia gama de
el impacto de una partes interesadas, a menudo ms all de los lmites de sus responsabilida-
evaluacin en las des diarias. Una buena manera de apreciar estas contribuciones consiste
polticas. en asegurar que los equipos locales participen activamente en la gama
ms amplia de actividades de evaluacin. Esto se puede conseguir cele-
brando talleres conjuntos, as como tambin elaborando publicaciones
conjuntas, garantizando la capacitacin y el desarrollo de capacidades, y
consiguiendo investigadores locales bien situados para que contribuyan
de manera adecuada y sirvan como un canal vlido entre los equipos de
investigacin y de polticas.
Las evaluaciones tienen valor en trminos de bien pblico cuando
fundamentan una pregunta de inters ms all del inters inmediato del
equipo de polticas. Este aspecto suele encerrar un inters primario para
los investigadores que analizan preguntas relacionadas con una teora
del cambio. Por ejemplo, los resultados sobre cmo se comportan las
personas en ciertas circunstancias o cmo funcionan los canales de
transmisin para que los impactos se materialicen permiten extraer lec-
ciones de orden ms general y aplicarlas en diferentes contextos. Las
evaluaciones de impacto estn contribuyendo rpidamente a una base
de evidencia global sobre el desempeo de una gama de reformas de pro-
gramas y polticas, y constituyen repositorios de conocimientos suma-
mente relevantes para el diseo de programas y polticas. A los donantes
y a los institutos relacionados con las polticas a menudo les interesa
este valor ms amplio de bien pblico, y cada vez prestan ms apoyo
nanciero para llevar a cabo evaluaciones que contribuyan a esta base de
evidencia.
Los investigadores tambin estarn muy comprometidos con el uso de
una metodologa de evaluacin robusta y defendible, y tendrn que asegu-
rar su participacin en el diseo de la evaluacin de impacto, en el anlisis
de los datos y en generar investigacin primaria que cumpla con las nor-
mas cientcas vigentes en las publicaciones acadmicas. Los equipos de
investigacin interdisciplinaria tienen el reto aadido de asegurar que
exista un entendimiento comn entre los miembros del equipo. Diferentes
disciplinas, como la medicina y la economa, pueden tener distintos enfo-
ques para registrar los ensayos, reclutar a los sujetos, informar sobre los

resultados o divulgarlos, entre otras cosas. Estas expectativas diversas se
aclaran y se entienden mejor al comienzo de una evaluacin. Al margen de
los diferentes protocolos, se espera que los equipos de investigacin sigan
normas cientcas y principios ticos generalmente aceptados, como se
trata en el captulo 13.
Los diferentes intereses del equipo de polticas y del equipo de investi-
gacin pueden crear tensiones que hay que entender y gestionar. Los
investigadores tendern a valorar el rigor tcnico en el diseo de una eva-
luacin antes que la viabilidad operativa de la implementacin del pro-
grama. Puede que a los equipos tambin les interesen distintas preguntas
de la evaluacin. Por ltimo, puede que ninguno de los dos equipos tenga
inters en publicar resultados matizados o negativos, dado que esto
podra reejarse negativamente en el desempeo del programa para el
equipo de polticas pblicas y podra tener menos inters acadmico para
el equipo de investigacin. Puede que al equipo de polticas tambin le
interese ser selectivo a propsito de qu resultados publicar, mientras
que el equipo de investigacin valorar la capacidad de publicar toda la
gama de resultados.
En el conjunto del equipo de evaluacin, es crucial promover una cul-
tura de transparencia y de respeto por la evidencia. A los responsables de
las polticas pblicas y a los administradores del programa se les debera
recompensar por su compromiso con la formulacin de polticas basadas
en la evidencia. Incluso cuando los resultados no sean favorables, se
debera dar crdito a estos actores por haber abogado por la transparen-
cia. De la misma manera, se debera alentar al equipo de investigacin a
informar sobre los resultados y publicarlos, independientemente de los
hallazgos.
La alianza entre el equipo de investigacin y el equipo de polticas

pblicas durante la evaluacin
La calidad tcnica y el impacto de la evaluacin en las polticas pblicas

dependen de una activa alianza entre el equipo de investigacin y el
equipo de polticas en cada etapa de la evaluacin, a saber: diseo, imple-
mentacin, anlisis y divulgacin. El recuadro 12.1 resume algunos princi-
pios rectores.
Etapa de diseo. En primer lugar, los responsables de las polticas tienen
que estructurar y transmitir con claridad las principales preguntas de la
investigacin, la correspondiente teora del cambio y los indicadores clave
de inters, as como tambin asegurar que el equipo de investigacin com-
prenda de forma adecuada estos elementos y los respete. Para asegurar la

Recuadro 12.1: Principios rectores de la participacin de los
equipos de polticas pblicas y de evaluacin
H Participar desde el comienzo para maximizar las opciones del diseo de la evaluacin y
asegurar una asociacin efectiva entre los equipos de polticas pblicas y de evaluacin.
H Tener claro un plan de evaluacin de impacto desde el comienzo.
H Comprender los roles, responsabilidades y motivaciones de las diferentes partes intere-
sadas y darles la oportunidad de participar en la evaluacin.
H Participar a lo largo de la evaluacin para asegurar una alineacin adecuada entre la evalu-
acin y la intervencin que se evala.
H Reconocer y gestionar los riesgos y benecios, dejando claro qu pueden y no pueden
hacer las evaluaciones de impacto.
H Valorar la transparencia y asegurar la objetividad; estar preparados para respetar los resul-
tados, sean buenos o malos.
relevancia de las polticas, el equipo de polticas pblicas tambin tiene que

estructurar una estrategia de participacin que garantice que se consulte y se
informe a las partes interesadas acerca del diseo, de la implementacin y de
los resultados de la evaluacin. Por su parte, los investigadores tienen que
aclarar, para el equipo de polticas pblicas, las condiciones necesarias para
una buena evaluacin de impacto. En el caso de las evaluaciones prospecti-
vas, esto signicar, primero, vericar con los encargados del programa y los
responsables de las polticas del equipo de polticas pblicas que las opera-
ciones del programa estn lo sucientemente bien establecidas para asegu-
rar que el programa que se evala no cambiar sustancialmente durante la
evaluacin y, por lo tanto, no volver irrelevantes los resultados de los objeti-
vos de polticas. El momento ideal para llevar a cabo una evaluacin de
impacto suele ser aquel en el que un programa ha sido sometido a sucientes
pruebas de campo como para armar que funciona de la manera prevista lo
cual puede fundamentarse en una buena evaluacin de proceso, pero que
no ha sido ampliado, por lo que deja abiertas las opciones para construir con-
trafactuales adecuados.
En segundo lugar, el equipo de investigacin tiene que entender con cla-
ridad las reglas operativas del programa, a saber: sus recursos disponibles,
sus criterios de elegibilidad para seleccionar a los beneciarios y el calenda-
rio de implementacin. El equipo de polticas pblicas debera trasmitir cla-
ramente estas tres reglas operativas al equipo de investigacin, dado que son
cruciales para fundamentar las opciones metodolgicas disponibles en la
evaluacin, como se detalla en el captulo 11.
En tercer lugar, el equipo de investigacin debera preparar un plan
de evaluacin de impacto que contenga a la vez aspectos operativos y de
la investigacin, y debera compartirlo con los responsables de las pol-
ticas para asegurar que la evaluacin se centre en las preguntas de inte-
rs; que los elementos de colaboracin con el equipo de polticas estn
denidos, yque el equipo de evaluacin sea claro y sencillo acerca de las
preguntas que se formulan, y de la naturaleza y del calendario de resul-
tados (vase el recuadro 12.2). Tambin es til tomar en cuenta los ries-
gos y las estrategias de mitigacin propuestas. Por ltimo, el equipo de
investigacin debera obtener la aprobacin tica de una junta de
Recuadro 12.2: Descripcin general de un plan de evaluacin

de impacto
1. Introduccin
2. Descripcin de la intervencin
3. Objetivos de la evaluacin
3.1 Hiptesis, teora del cambio, cadena de resultados
3.2 Preguntas de polticas
3.3 Indicadores de resultados clave
3.4 Riesgos
4. Diseo de evaluacin
5. Muestreo y datos
5.1 Estrategia de muestreo
5.2 Clculos de potencia
6. Visin general del plan de preanlisis
7. Plan de recopilacin de datos
7.1 Encuesta de lnea de base
7.2 Encuesta(s) de seguimiento
8. Productos por entregar
8.1 Informe de lnea de base
8.2 Informe de evaluacin de impacto
8.3 Nota informativa sobre polticas
8.4 Bases de datos, diseo y protocolos de anlisis plenamente documentados
9. Plan de divulgacin
10. Protocolos ticos sobre proteccin de sujetos humanos
10.1 Asegurar el consentimiento informado
10.2 Obtener aprobacin de la junta de revisin institucional
11. Calendario
12. Presupuesto y nanciamiento
13. Composicin y roles del equipo de evaluacin

revisin institucional e inscribir la evaluacin en un registro de ensayos
(vase el captulo 13).
Este dilogo durante la etapa de diseo debera arrojar como resultado
un compromiso claro y compartido con un plan de evaluacin, y con
expectativas realistas y responsabilidades mutuamente acordadas de los
miembros de los equipos de polticas pblicas y de investigacin. Este
dilogo brinda una oportunidad para que el equipo de investigacin
aclare tanto el valor de una evaluacin de impacto sobre todo el estable-
cimiento de la causalidad y el carcter generalizable de las conclusiones
como sus limitaciones, por ejemplo: no presentar explicaciones de por
qu se obtienen ciertos resultados, el trade-off entre el tamao de la
muestra y los clculos de potencia, o el tiempo requerido para generar
ciertos resultados. Este dilogo tambin proporcionar una oportunidad
para que el equipo de polticas especique preguntas prioritarias y para
asegurar que la evaluacin est bien alineada con las preguntas de inters
de las polticas pblicas.
Etapa de implementacin. Los equipos de polticas pblicas y de investi-
gacin tienen que trabajar juntos para asegurar que la implementacin pro-
ceda uidamente y se corrijan los problemas. Por ejemplo, en un ensayo
controlado aleatorio, el equipo tiene que acordar la mejor manera de aleato-
rizar en la prctica. Adems, durante esta etapa, la coordinacin es especial-
mente importante para garantizar la delidad entre el diseo de evaluacin
y la implementacin del programa.
Etapa de anlisis. El anlisis que se lleve a cabo debe corresponderse con
lo que ha sido delineado en el plan de evaluacin y en el ms detallado plan
de preanlisis. El equipo de investigacin debera proporcionar y debatir
los resultados con el equipo de polticas pblicas en coyunturas clave.
Empezando por la lnea de base, esto debera incluir una revisin de la cali-
dad de los datos recopilados y la adhesin al plan de evaluacin. Esto con-
tribuir a asegurar que el plan de evaluacin previsto en la etapa de diseo
siga siendo factible y permita cualquier ajuste necesario que deba introdu-
cirse. Tambin es una excelente oportunidad para estudiar qu productos
se entregarn en qu etapa del anlisis y para ver si la produccin de esos
resultados progresa adecuadamente con respecto a las necesidades de
toma de decisiones del equipo de polticas pblicas. Una vez que el equipo
de evaluacin ha concluido el anlisis de impacto, debera presentar y com-
partir los resultados iniciales con el equipo de polticas para asegurar que
se responda a todas las preguntas y preparar la etapa de divulgacin.
Etapa de divulgacin. En esta etapa, el equipo de polticas pblicas tiene
que asegurar que los resultados de la evaluacin lleguen a las personas ade-
cuadas en el momento adecuado y en el formato adecuado. Tambin es la
etapa en que se garantiza que todos los datos de la evaluacin estn
documentados de forma apropiada. A menudo, los equipos utilizarn diversas
estrategias y vehculos para divulgar los resultados, teniendo presentes los
diferentes pblicos a los que se dirige, como se seala en el captulo 14.
Establecer una colaboracin
Cmo instituir una alianza
Una evaluacin es un equilibrio entre los conocimientos tcnicos expertos y

la independencia que aporta el equipo de investigacin, y la relevancia de las
polticas, la orientacin estratgica y la coordinacin operativa con las que
contribuyen los responsables de las polticas y los encargados del programa
en el equipo de polticas pblicas. Se puede utilizar una gama de modelos
para crear e implementar esta alianza entre los equipos de investigacin y
de polticas pblicas.
La eleccin de la modalidad depender del contexto y de los objetivos de la
evaluacin de impacto, teniendo en cuenta una gama de riesgos. Por un lado,
un equipo de investigacin totalmente independiente, en colaboracin limi-
tada con el equipo de polticas pblicas, puede generar una evaluacin de
impacto desvinculada de las preguntas de inters de polticas, o que use una
metodologa limitada por la falta de interacciones con los encargados del pro-
grama. Por otro lado, un equipo de investigacin plenamente integrado con el
equipo de polticas pblicas puede crear riesgos de conictos de inters, o con-
ducir a la censura de ciertos resultados si no se aplican los principios de la cien-
cia abierta (vase el captulo 13). Adems, las evaluaciones a menudo pueden
tener mltiples objetivos, entre ellos construir capacidad de evaluacin con los
organismos del gobierno o sensibilizar a los operadores del programa ante las
realidades de sus proyectos al llevarse a cabo en el terreno. Estos objetivos ms
amplios tambin pueden determinar parcialmente el modelo que se elegir.
En general, lo que ms importa en la calidad de la evaluacin de impacto es
si el enfoque de asociacin producir estimaciones no sesgadas de los impac-
tos del programa. Siempre que se respeten los principios ticos de la investiga-
cin y la ciencia abierta, la ausencia de sesgo y la objetividad tienden a ser ms
cruciales para la calidad de la evaluacin de impacto que la independencia
funcional de los equipos de investigacin y de polticas. En la prctica, a
menudo se requiere una estrecha colaboracin entre ambos para asegurar la
elaboracin de una estrategia de evaluacin de impacto de la ms alta calidad.
El modelo de externalizacin
Para los encargados del programa, siempre atareados gestionando operacio-
nes complejas, a menudo es atractivo contar con un equipo externo encargado
de disear e implementar la evaluacin de impacto. Los modelos de externali-
zacin pueden adoptar diferentes formas. Los administradores de programa a
veces intentan externalizar el diseo de la evaluacin de impacto, as como la
realizacin de diversas encuestas (normalmente, una encuesta de lnea de
base y de seguimiento) con una sola entidad en el marco de un contrato amplio.
En otros casos, los administradores de programa primero externalizan el
diseo y siguen con contratos de diversas fases de la recopilacin y del anlisis
de datos.
La externalizacin separa en cierta medida el diseo de la implementa-
cin de la evaluacin de impacto, por lo cual una evaluacin se puede consi-
derar ms independiente. Sin embargo, externalizar totalmente la evaluacin
de impacto puede implicar riesgos considerables. Establecer este tipo de
relacin contractual puede limitar la colaboracin entre los equipos de
implementacin y de investigacin (o la entidad contratada para llevar a
cabo la evaluacin de impacto) del programa.
En algunos casos, se entrega al equipo contratado un conjunto de par-
metros del programa previamente denidos, con escaso margen para deba-
tir sobre los planes de diseo y de implementacin, o sobre el alcance, para
dar forma a la investigacin. En otros casos, puede que no estn denidas las
reglas del programa y las modalidades de implementacin necesarias para
disear una buena evaluacin de impacto. En esos casos, el equipo contra-
tado encargado de dicha evaluacin tiene una inuencia limitada para ase-
gurar que se denan estos elementos.
En otros casos, puede que el programa ya haya sido diseado o que la
implementacin haya comenzado, lo cual puede limitar seriamente las
opciones metodolgicas de la evaluacin. A menudo se pide al equipo con-
tratado que se ajuste ex post a cambios en la implementacin del programa,
sin participar estrechamente ni recibir informacin durante la implementa-
cin. Estas situaciones pueden conducir a diseos de evaluacin subptimos
o a dicultades durante la implementacin, dado que el equipo contratado
puede tener motivaciones diferentes de las de los investigadores y los res-
ponsables de las polticas que han dirigido el diseo de la evaluacin.
Por ltimo, la seleccin y supervisin del equipo contratado puede ser
problemtica para la unidad de implementacin del programa. Se deben
tener en cuenta atentamente y desde el comienzo las reglas de adquisiciones
para asegurar que la externalizacin sea eciente y que no presente conic-
tos de inters. Ciertas reglas pueden limitar la posibilidad de que un equipo
que ha sido contratado para contribuir al diseo de una evaluacin de
impacto pueda ms tarde presentar una oferta para ejecutarla.
Para mitigar estos riesgos, normalmente es preferible que el equipo de
polticas pblicas ya tenga hecho un diseo de evaluacin de impacto, que
incluya una estrategia de identicacin, indicadores de resultados clave,
clculos de potencia iniciales y tamaos aproximados de la muestra. Esto
contribuir a orientar las adquisiciones y la contratacin, dado que dichos
elementos inuyen claramente en los presupuestos de la evaluacin. El
equipo de polticas pblicas tambin debera establecer mecanismos para
asegurar una supervisin tcnica slida del diseo y de la ejecucin de la
evaluacin de impacto. Esto podra realizarse a travs de un comit de super-
visin o mediante una revisin tcnica y cientca regular de los productos
de la evaluacin. En su conjunto, estas medidas de mitigacin sealan que es
probable que el modelo ms efectivo no sea totalmente externalizado.
El modelo de alianza
La colaboracin entre los equipos de investigacin y de polticas pblicas no
se basa nica ni necesariamente en relaciones contractuales. Se pueden
establecer alianzas mutuamente beneciosas cuando los investigadores tie-
nen inters en llevar a cabo investigaciones sobre una pregunta de polticas,
y cuando los responsables de polticas y los encargados del programa procu-
ran asegurar que su proyecto cuente con una evaluacin de impacto de
buena calidad. Los investigadores tienen incentivos para abordar nuevas
preguntas que se aadirn a la base de evidencia global, y para ampliar el
alcance de la evaluacin de impacto y contribuir a que sea ms visible. El
equipo de investigacin puede movilizar parte del nanciamiento para la
evaluacin de impacto si los objetivos de los nanciadores estn estrecha-
mente alineados con el objeto de investigacin de la evaluacin.
Otro tipo de modelo integrado que est adquiriendo ms relevancia,
sobre todo en las instituciones ms grandes, como el Banco Mundial y el
Banco Interamericano de Desarrollo (BID), utiliza una capacidad de inves-
tigacin de evaluacin de impacto interna para apoyar a los equipos de pol-
ticas pblicas y del programa.
No obstante, el enfoque de la alianza presenta ciertos riesgos. En deter-
minados momentos, puede que los investigadores procuren incorporar ele-
mentos novedosos en la investigacin de la evaluacin de impacto que quiz
no estn totalmente alineados con los objetivos inmediatos de las polticas a
nivel local, aunque puedan aadir valor en trminos ms globales. Por su
parte, los responsables de las polticas y los encargados del programa quiz
no siempre sepan apreciar el rigor cientco necesario para emprender eva-
luaciones de impacto rigurosas, y quiz tengan una mayor tolerancia que el
equipo de investigacin a los riesgos potenciales de la evaluacin de impacto.
Para mitigar esos riesgos, los objetivos del equipo de investigacin y de
los equipos de polticas pblicas deben estar estrechamente alineados.
Porejemplo, ambos equipos pueden trabajar juntos en un plan de evalua-
cin exhaustivo, deniendo una estrategia detallada, as como los roles y
responsabilidades de los respectivos equipos (vase el recuadro 12.2).
El plan de evaluacin de impacto tambin es una instancia para resaltar
reglas operativas clave, as como los riesgos operativos potenciales para
implementar la evaluacin de impacto.
Un compromiso mutuo con una evaluacin de impacto recogido en un
plan de evaluacin claro es esencial para que la alianza funcione uida-
mente, aun en ausencia de una relacin contractual. Corresponde a las bue-
nas prcticas que este compromiso mutuo adopte la forma de un acuerdo
por escrito por ejemplo, bajo la forma de trminos de referencia o un
memorando de entendimiento para establecer los roles, responsabilidades
y productos de la evaluacin de impacto. Estos aspectos tambin se pueden
incluir en el plan de evaluacin de impacto.
El modelo plenamente integrado

Algunas evaluaciones de impacto se implementan en un modelo plena-
mente integrado donde los equipos de investigacin y de implementacin
del programa son el mismo, y son responsables tanto de la investigacin
como de las funciones del programa. Los investigadores a veces adoptan
este enfoque en los ensayos de ecacia, donde se prueban nuevas interven-
ciones para la prueba de concepto. En este caso, los investigadores general-
mente preeren mantener el control de la implementacin para asegurar
que el programa se ponga en marcha siguiendo el diseo original lo ms
estrechamente posible. Si bien los resultados de estas evaluaciones de
impacto tienen la mayor capacidad para probar las teoras fundamentales y
para establecer si una determinada intervencin puede funcionar en cir-
cunstancias ideales, el riesgo de este enfoque es que los resultados pueden
tener una validez externa limitada.
El recuadro 12.3 presenta algunos ejemplos de diferentes modelos que
los equipos de investigacin y de polticas pblicas pueden utilizar para
colaborar.
Recuadro 12.3: Ejemplos de modelos de equipos de investigacin

y de polticas pblicas
Externalizacin de evaluaciones en la de desarrollo tenga un plan integral de moni-
Millenium Challenge Corporation toreo y evaluacin, centrndose en las evalua-
La Millenium Challenge Corporation (MCC) ciones independientes y no sesgadas. Esta
es una agencia de asistencia de Estados focalizacin llev a la MCC a desarrollar un
Unidos, creada en 2004, con un fuerte nfa- modelo en el cual tanto el diseo como la
sis en la rendicin de cuentas y los resulta- implementacin de las evaluaciones estn
dos. Requiere que cada uno de sus programas totalmente externalizados con investigadores

Recuadro 12.3: Ejemplos de modelos de equipos de investigacin y de polticas pblicas (contina)
externos. Durante los primeros aos de ope- se concibe, los investigadores aliados a
raciones de la MCC, en ocasiones la separa- IPA, provenientes de una red global de uni-
cin entre el equipo del programa y los versidades, trabajan con los directores de
investigadores externos contratados para la pas en las representaciones relevantes para
evaluacin cre problemas. Por ejemplo, en crear un diseo de evaluacin y un plan de
Honduras, los investigadores disearon un implementacin. Los directores de pas son
ensayo controlado aleatorio de un programa los encargados de gestionar las relaciones
de capacitacin agrcola. Sin embargo, dado entre los socios y emparejar a los principales
que el contrato de implementacin se basaba investigadores del equipo de investigacin
en el desempeo, el implementador tena un con los socios del programa en el equipo de
fuerte incentivo para encontrar agricultores polticas pblicas para desarrollar una pro-
con un alto desempeo para el programa. Los puesta para una evaluacin. Una vez apro-
agricultores elegibles no fueron asignados de bada una propuesta, contratan al personal
forma aleatoria al programa, lo que invalida el de gestin del proyecto para dirigir la recopi-
diseo de evaluacin. Con la divulgacin de lacin de datos en el terreno, todos traba-
las primeras cinco evaluaciones de los progra- jando en la ocina local de IPA. La
mas de capacitacin agrcola, la MCC coordinacin entre los investigadores y los
reexion sobre las experiencias como esta y encargados del programa suele ser estre-
lleg a la conclusin de que la colaboracin cha, y en algunos casos las ocinas de IPA
entre los implementadores y los evaluadores tambin son responsables de implementar
es crucial a lo largo del diseo y de la imple- la intervencin que est siendo evaluada.
mentacin. La organizacin adapt su modelo
para que sea ms selectivo al aplicar las eva- Modelos mixtos en el Banco Mundial
luaciones de impacto con el n de encontrar En la ltima dcada, el Banco Mundial ha
un equilibrio entre la rendicin de cuentas y el ampliado rpidamente el uso de las evalua-
aprendizaje. ciones de impacto prospectivas para esti-
mar los impactos de algunos de los
La integracin en Innovations for Poverty proyectos de desarrollo que nancia. Varios
Action grupos entre ellos Development Impact
En Innovations for Poverty Action (IPA), una Evaluation (DIME), Strategic Impact
organizacin sin nes de lucro de Estados Evaluation Fund (SIEF) y Gender Innovation
Unidos, los equipos de investigacin y de Lab (GIL) proporcionan nanciamiento y
polticas pblicas trabajan juntos desde el apoyo tcnico a las evaluaciones de impacto.
comienzo del diseo de la evaluacin, y a Cuando se implementa un proyecto particu-
menudo desde el momento en que se gesta larmente innovador o donde hay grandes
el programa. El modelo de IPA cuenta con intereses en juego, se denen las activida-
una amplia red de ocinas en el terreno, des de evaluacin de impacto, ya sea incor-
muchas de las cuales estn en contacto con poradas en el proyecto y gestionadas por los
organismos del gobierno y otros socios. gobiernos contrapartes o como actividades
Desde el momento en que una evaluacin independientes manejadas por el Banco

Recuadro 12.3: Ejemplos de modelos de equipos de investigacin y de polticas pblicas (contina)
Mundial. Se crea un equipo de evaluacin El equipo de evaluacin identic los mbitos

que consiste en un grupo de investigacin, de prioridad de la evaluacin de impacto. Se
el cual abarca una combinacin de expertos cre un ensayo controlado aleatorio prospec-
tcnicos y acadmicos, y un equipo de pol- tivo. El gobierno elabor preguntas clave y
ticas pblicas, que normalmente incluye a nanci la recopilacin de datos, en parte con-
los responsables de las polticas pblicas, tratada con el cole Nationale Suprieure de
los encargados del programa y los jefes de Statistique et dconomie Applique (ENSEA),
equipo operativos del proyecto. y en parte llevado a cabo internamente por un
Por ejemplo, en Costa de Marl, una inicia- equipo especializado en recopilacin de datos.
tiva conjunta del Banco Mundial, JPAL y el El Banco Mundial nanciaba las actividades
gobierno evalu un proyecto de empleo y de supervisin tcnica e investigacin, y diri-
desarrollo de capacidades para jvenes. Para ga el equipo de evaluacin. JPAL contribua a
ello, se cre un equipo de evaluacin que travs de los acadmicos aliados. Este
comprenda un equipo de investigacin com- modelo ha demostrado ser efectivo para ase-
puesto por un jefe de equipo del Banco gurar el rigor cientco y la relevancia global,
Mundial, acadmicos internacionales y exper- as como la alineacin con las prioridades de
tos locales, y un equipo de polticas pblicas los responsables de las polticas. Requiere
que inclua a especialistas de la unidad de una gestin rigurosa de las asociaciones y una
implementacin del proyecto, el ministerio coordinacin efectiva entre las diversas partes
asociado y el personal del Banco Mundial. interesadas en el equipo de evaluacin.
Fuentes: Bertrand et al. (2015); IPA (2014); Sturdy, Aquino y Molyneaux (2014).
Eleccin de un equipo de investigacin como socio
Los responsables de las polticas y los encargados del programa tambin tienen
que decidir con quin asociarse. Las preguntas clave son si el equipo de inves-
tigacin o partes del mismo puede ser un equipo local, y qu tipo de ayuda
externa se requerir. La capacidad de investigacin vara en gran medida de un
pas a otro. A menudo se contrata a las empresas internacionales cuando se
requieren habilidades concretas, y tambin pueden asociarse con empresas
locales. Las funciones de recopilacin de datos generalmente son gestionadas
por estas ltimas, debido a su profundo conocimiento del contexto y del
entorno local. Tambin hay una marcada tendencia mundial a asegurar la
plena participacin de los investigadores locales en la evaluacin de impacto.
A medida que aumenta la capacidad de evaluacin, es ms habitual que
los gobiernos, las empresas privadas y las instituciones multilaterales imple-
menten evaluaciones de impacto en asociacin con equipos de investigacin
locales. La participacin de los investigadores locales puede aportar un valor
fundamental a la evaluacin de impacto gracias a su conocimiento
del contexto local. En algunos pases, la autorizacin de la investigacin se
concede solo a los equipos que incluyen a investigadores locales. En general,
el administrador de la evaluacin es el que evala la capacidad local y deter-
mina quin ser responsable de qu aspectos del trabajo de evaluacin. Las
redes acadmicas internacionales de evaluacin de impacto (como JPAL o
IPA), las empresas privadas de investigacin o grupos de evaluacin de
impacto de instituciones internacionales (como DIME y SIEF en el Banco
Mundial; o SPD o RES en el BID) pueden ayudar a los equipos de polticas
pblicas a tomar contacto con investigadores internacionales que tengan los
conocimientos tcnicos expertos para colaborar en la evaluacin de impacto.1
Otra pregunta es si trabajar con una empresa privada o con un organismo
pblico. Las empresas privadas o los institutos de investigacin pueden ser
ms ables para proporcionar resultados de manera oportuna pero, una vez
que se ha rmado un contrato, las empresas privadas a menudo estn menos
dispuestas a incorporar en la evaluacin elementos que podrn encarecerla.
El equipo de investigacin tambin puede trabajar con instituciones de inves-
tigacin y universidades, cuya reputacin y conocimientos tcnicos expertos
garantizan que las partes interesadas aceptarn los resultados de la evalua-
cin. Sin embargo, en ocasiones esas instituciones carecen de la experiencia
operativa o de la capacidad para ejecutar ciertos aspectos de la evaluacin,
como la recopilacin de datos. Por lo tanto, puede que sea necesario subcon-
tratar algunos aspectos con otro socio. El desarrollo de capacidades en el sec-
tor pblico tambin puede ser un objetivo y se puede incluir como parte de
los trminos de referencia de la evaluacin de impacto. Cualquiera sea la
combinacin de contrapartes a la que nalmente se llegue, ser esencial efec-
tuar un anlisis slido de las actividades de evaluacin de los colaboradores
potenciales en el pasado para tomar una decisin bien fundamentada.
Particularmente, cuando se trabaja con un organismo pblico con mlti-
ples responsabilidades, la capacidad y disponibilidad de un equipo de inves-
tigacin interno para emprender las actividades de evaluacin de impacto
tienen que ser estimadas a la luz de otras actividades por las que deben ren-
dir cuentas. Es importante tener conciencia de la carga de trabajo para valo-
rar no solo cmo inuir en la calidad de la evaluacin que se lleve a cabo,
sino tambin en el costo de oportunidad de la evaluacin con respecto a
otras iniciativas de las cuales es responsable el organismo pblico.
Cmo programar una evaluacin en el tiempo
En la primera parte de este volumen se analizaron las ventajas de las evalua-

ciones prospectivas, diseadas durante la elaboracin del programa. Una
planicacin previa permite una eleccin ms amplia para generar grupos
de comparacin, facilita la recopilacin de datos de lnea de base y ayuda a
las partes interesadas a alcanzar un consenso a propsito de los objetivos del
programa y de las preguntas de inters.
Aunque es importante planicar las evaluaciones de forma temprana en
la etapa de diseo del proyecto, debera programarse su ejecucin para eva-
luar el programa una vez que alcance la madurez para ser estable. Los pro-
yectos piloto o las reformas incipientes suelen sufrir revisiones, tanto en
trminos de su contenido como con respecto a cundo, dnde y por quin
sern implementados. Los proveedores del programa necesitarn tiempo
para aprender y aplicar de manera consistente las nuevas reglas operativas.
Dado que las evaluaciones requieren reglas operativas del programa que
sean claras para generar contrafactuales adecuados, es importante ejecutar-
las cuando los programas estn bien establecidos.
Otro aspecto clave de la programacin en el tiempo es cunto tiempo se
requiere antes de que los resultados se puedan medir. El equilibrio adecuado
depende en gran parte del contexto: Si evaluamos demasiado temprano,
existe el riesgo de encontrar un impacto parcial o nulo; si evaluamos dema-
siado tarde, existe el riesgo de que el programa pierda el apoyo de los donan-
tes y del pblico o de que se ample un programa mal diseado (King y
Behrman, 2009:56).2 Para determinar cundo recopilar los datos de segui-
miento, debe tenerse en cuenta una gama de factores que se describen a
continuacin.
El ciclo del programa, que incluye la duracin del programa, el tiempo de
implementacin y los retrasos potenciales. La evaluacin de impacto debe
ajustarse al ciclo de implementacin del programa; la evaluacin no puede
impulsar el programa que se evala. Por su propia naturaleza, las evaluacio-
nes estn sujetas a los plazos del programa y deben alinearse con su dura-
cin prevista. Tambin deben adaptarse a los posibles desfases en la
implementacin cuando los programas tardan en asignar benecios o se
retrasan debido a factores externos.3 En general, a pesar de que la programa-
cin en el tiempo de la evaluacin debera incluirse en el proyecto desde el
comienzo, los evaluadores deberan estar dispuestos a ser exibles e intro-
ducir modicaciones a medida que se ejecuta el proyecto. Adems, deberan
adoptarse provisiones para dar seguimiento a las intervenciones, utilizando
un sistema de monitoreo de modo que el trabajo de evaluacin se funda-
mente en el progreso real de la intervencin.
El tiempo previsto necesario para que el programa inuya en los resultados,
as como la naturaleza de los resultados de inters. La programacin de la reco-
pilacin de los datos de seguimiento debe tener en cuenta cunto tiempo se
requiere despus de que se ejecute el programa para que los resultados se
maniesten. La cadena de resultados del programa ayuda a identicar los
indicadores de resultados y el momento adecuado para medirlos. Algunos
programas (como los de apoyo al ingreso) procuran proporcionar benecios
a corto plazo, mientras que otros (como los de educacin bsica) procuran
tener objetivos a ms largo plazo. Adems, por su propia naturaleza, ciertos
resultados tardan ms en manifestarse (como los cambios en la esperanza de
vida o la fertilidad a partir de una reforma del sistema de salud) que otros
(como los ingresos provenientes de un programa de capacitacin).
Por ejemplo, en la evaluacin del Fondo de Inversin Social de Bolivia,
que contaba con datos de lnea de base recopilados en 1993, los datos de
seguimiento no fueron recopilados hasta 1998 debido al tiempo que se
requera para llevar a cabo las intervenciones (proyectos de agua y sanea-
miento, centros de salud y escuelas) y para que se manifestaran los efectos
en la salud y la educacin de la poblacin beneciaria (Newman et al.,
2002). Fue preciso un plazo similar para la evaluacin de un proyecto de
educacin primaria en Pakistn, que utiliz un diseo experimental con
encuestas de lnea de base y de seguimiento para estimar el impacto de las
escuelas comunitarias en los resultados de los alumnos, lo que inclua los
logros acadmicos (King, Orazem y Paterno, 2008). Sin embargo, los datos
de seguimiento suelen recopilarse antes de lo que sera recomendable,
debido a las presiones para obtener resultados de manera oportuna o por
limitaciones del presupuesto y del ciclo del proyecto (McEwan, 2014).
Por lo tanto, la recopilacin de datos de seguimiento depender del pro-
grama bajo estudio, as como tambin de los indicadores de resultados de
inters.
Los datos de seguimiento se pueden recopilar ms de una vez, de modo
que se puedan tener en cuenta y se puedan contrastar los resultados de corto
y mediano plazo. Los datos de seguimiento recogidos durante la implemen-
tacin del programa quiz no capturen el pleno impacto del mismo si los
indicadores se miden demasiado temprano. Aun as, es muy til documentar
los impactos de corto plazo, que tambin pueden proporcionar informacin
acerca de los resultados previstos a ms largo plazo, tiles para producir
resultados tempranos de la evaluacin de impacto, que pueden estimular el
dilogo entre los equipos de investigacin y de polticas pblicas, y mante-
ner el contacto con la muestra de evaluacin de modo de reducir el desgaste
de la muestra a lo largo del tiempo.
Las encuestas de seguimiento que miden los resultados de largo plazo
despus de implementar el programa a menudo producen la evidencia ms
convincente en lo que se reere a la efectividad del programa. Por ejemplo,
los resultados positivos de las evaluaciones de impacto a largo plazo de los
programas de desarrollo infantil temprano (DIT) en Estados Unidos (Currie,
2001; Currie y Thomas, 1995, 2000) y Jamaica (Grantham-McGregor et al.,
1994; Gertler et al., 2014) han inuido en favor de invertir en intervenciones
en la primera infancia.
En ocasiones, los impactos de largo plazo son objetivos explcitos del
programa, pero puede que incluso un diseo slido de evaluacin de impacto
no pueda resistir al paso del tiempo. Por ejemplo, las unidades del grupo de
control pueden comenzar a verse favorecidas por los efectos de derrame de
los beneciarios del programa.
Los equipos pueden recolectar datos de seguimiento ms de una vez, de
modo que se pueden considerar y contrastar los resultados de corto, mediano
y largo plazo.
Ciclos de elaboracin de polticas. La programacin de una evaluacin
tambin debe tener en cuenta cundo se requiere cierta informacin para
fundamentar las decisiones de polticas y debe sincronizar las actividades
de evaluacin y de recopilacin de datos con momentos clave en la toma de
decisiones. La produccin de resultados debera programarse para funda-
mentar los presupuestos, la ampliacin del programa u otras decisiones de
polticas.
Cmo elaborar un presupuesto para una

evaluacin
El presupuesto constituye uno de los ltimos pasos para hacer operativo

el diseo de la evaluacin. En esta seccin, se analizan algunos datos
sobre el costo de una evaluacin de impacto, se debate cmo elaborar un
presupuesto para una evaluacin y se sugieren algunas opciones de
nanciamiento.
Anlisis de los datos de costos
Los cuadros 12.1 y 12.2 proporcionan referencias tiles sobre los costos aso-
ciados con la realizacin de evaluaciones de impacto rigurosas. Contienen
datos sobre los costos de las evaluaciones de impacto de diversos proyectos
realizados con el apoyo del Fondo Estratgico para la Evaluacin de Impacto
(SIEF, por sus siglas en ingls), administrado por el Banco Mundial. La
muestra del cuadro 12.1 proviene de un estudio exhaustivo de programas
que reciben el respaldo de los grupos de investigacin sobre DIT y educa-
cin en SIEF. La muestra del cuadro 12.2 se seleccion en funcin de la dis-
ponibilidad de estadsticas actuales sobre presupuestos del conjunto de
evaluaciones de impacto nanciadas por SIEF.4
Los costos directos de las actividades de la evaluacin analizados en las
muestras que se presentan en los cuadros 12.1 y 12.2 oscilan entre US$130.000
y US$2,78 millones, con un costo promedio cercano a US$1 milln. Aunque
estos costos varan en gran medida y pueden parecer elevados en trminos
Cuadro 12.1 Costo de las evaluaciones de impacto de una seleccin de proyectos con apoyo del
Banco Mundial
Costos de la
Costo total EI como
de la porcentaje
evaluacin de Costo total del del total de
impacto programaa los costos del
Evaluacin de impacto (EI) Pas (US$) (US$) programa
Proyecto de redes de proteccin Burkina Faso 750.000 38.800.000 1,9
Desarrollo de destrezas y empleo China 220.000 50.000.000 0,4
para migrantes
Proyecto de proteccin social Colombia 130.000 86.400.000 0,2
Plan piloto de nutricin integrada/ Yibuti 480.000 5.000.000 8,8
sistema de seguridad social
asistencial
Programa de inversin en sectores Repblica 600.000 19.400.000 3,1
sociales Dominicana
Incentivos para los maestros Guinea 2.055.000 39.670.000 4,9
basados en el desempeo
Proteccin social Jamaica 800.000 40.000.000 2,0

Tratamiento de la desnutricin Madagascar 651.000 10.000.000 6,1
crnica
Centros de cuidado del nio Malawi 955.000 1.500.000 38,9

basados en la comunidad (piloto)
Informacin y transferencias Nepal 984.000 40.000.000 2,4
monetarias no condicionadas
Asistencia tcnica en redes de Pakistn 2.000.000 60.000.000 3,3

proteccin social
Proyecto de proteccin social Panam 1.000.000 24.000.000 4,2
Primer proyecto de niveles de vida Ruanda 1.000.000 11.000.000 9,1
comunitarios
Intervenciones en informacin Tanzania 712.000 416.000.000 0,2
para la rendicin de cuentas e
incentivos para los profesores
Intervenciones en el tamao de la Uganda 639.000 100.000.000 0,6
clase y calidad de los profesores
Fondo social para el desarrollo 3 Rep. Yemen 2.000.000 15.000.000 13,3

Promedio 936.000 59.798.000 6,2
Fuente: Una muestra de evaluaciones de impacto nanciadas por los grupos de investigacin sobre desarrollo infantil temprano (DIT)
y educacin del Fondo Estratgico para la Evaluacin de Impacto del Banco Mundial (SIEF).
EI = evaluacin de impacto.
a. Los costos totales del programa no incluyen los costos asociados con la evaluacin de impacto.

242
Cuadro 12.2 Costos desagregados de una seleccin de proyectos con apoyo del Banco Mundial
Costo Recopilacin Personal y Divulgacin

Evaluacin de totala Tamao de de datos consultores Viajes y talleres Otros
impacto Pas (US$) la muestra (porcentaje)b (porcentaje)b (porcentaje)b (porcentaje)b (porcentaje)b
Construccin de Bangladesh 655.000 2.574 27 48 5 0 20
capacidad de los hogares
padres para colaborar
en la nutricin y la
salud infantil
Cerrando la brecha Bulgaria 702.000 6.000 74 21 4 1 0
del aprendizaje hogares
temprano entre los
nios romanes
Componente de DIT y Burkina Faso 750.000 4.725 55 20 3 1 21
nutricin del proyecto hogares
de redes de proteccin
de Burkina Faso
Pago a profesores Chad 1.680.000 2978 52 14 12 18 4
comunitarios escuelas
Intervencin en DIT Colombia 573.000 1.429 54 36 2 2 7
basada en el hogar personas
Plan piloto de Yibuti 480.000 1.150 75 0 0 6 18
nutricin/red de personas
proteccin social
integrada
Supervisin e Ghana 498.000 480 51 46 3 0 0
incentivos para un escuelas
mayor aprendizaje: el
Programa de alto
desempeo TCAI

Cuadro 12.2 Costos desagregados de una seleccin de proyectos con apoyo del Banco Mundial (contina)

Incentivos para los Guinea 2.055.000 420 82 9 3 1 4
maestros basados en escuelas
el desempeo
Apoyo en la prestacin Hait 436.000 200 40 31 17 3 9
de servicios educativos escuelas
Motivacin no India 448.000 360 83 5 11 1 0
nanciera extrnseca escuelas
e intrnseca de los
profesores
Estimulacin temprana India 696.000 2.250 49 43 5 3 0
del nio y rendicin de personas
cuentas sociales en la
estrategia de desarro-
llo infantil integrada en
India
Grupos de autoayuda India 844.000 3.000 52 39 5 1 2
de mujeres para hogares
mejorar la salud, la
nutricin, el sanea-
miento y la seguridad
alimentaria
DIT para los pobres India 1.718.000 2.588 46 53 1 1 0
hogares

243
244

Nutricin durante la Indonesia 2.490.000 6.743 94 0 2 4 0
primera infancia, personas
disponibilidad de
proveedores de
servicios de salud y
resultados vitales
como jvenes adultos
Para abordar la Madagascar 651.000 5.000 0 0 66 2 32
desnutricin crnica personas
Habilidades de los Mali 949.000 3.600 58 22 4 5 11
padres, nutricin y personas
prevencin integrada
de la malaria
Aumento de la Mxico 268.000 230 70 26 3 2 0
rendicin de cuentas escuelas
en educacin a travs
de asistentes
pedaggicos basados
en la comunidad
Acceso a un modelo Mxico 420.000 172 45 48 5 1 1
de escolarizacin personas
integral privada
Evaluaciones de Mozambique 1.762.000 110 78 5 4 8 6
impacto aleatorias de escuelas
diversas intervenciones
tempranas en
destrezas en
alfabetizacin y lectura


DIT integrado y Mozambique 1.908.000 6.700 74 8 5 7 7
nutricin hogares
Plan piloto de seguro Nepal 485.000 6.300 61 33 3 4 0
de salud hogares
Informacin y Nepal 984.000 3.000 57 23 9 1 10
transferencias no personas
condicionadas en los
resultados nutricionales
Transferencias Nger 984.000 4.332 67 18 7 1 7
monetarias, hogares
capacitacin de los
padres y DIT holstico
Entendiendo la Nigeria 1.052.000 120 59 25 8 3 6
dinmica de la escuelas
informacin para la
rendicin de cuentas
Programa de Nigeria 2.775.000 5.000 76 13 6 4 2
reinversin de hogares
subsidios y de
empoderamiento e
iniciativa de salud
materno-infantil
Participacin de la Pakistn 845.000 287 59 15 6 3 18
comunidad en el escuelas
comit escolar

245
246

Mejora de las Pakistn 2.124.000 2.000 26 25 5 2 42
escuelas privadas escuelas
para los pobres de
zonas rurales
Seleccin e impactos Ruanda 797.000 300 79 7 3 1 11
motivacionales de escuelas
contratos basados
en el desempeo
de los maestros de
escuela primaria
Campaa de Sudfrica 647.000 200 67 24 2 3 4
informacin en escuelas
escuelas primarias
Probando informacin Tanzania 712.000 420 86 6 7 2 0
en la rendicin de escuelas
cuentas e
intervenciones de
incentivos para los
maestros
Diseo de programas Tanzania 889.000 420 85 11 2 2 0
de incentivos efectivos escuelas
para los maestros
Programa para mujeres Tanzania 1.242.000 3.600 90 7 2 1 0
con alto riesgo de personas
infeccin de VIH


Intervenciones Uganda 639.000 200 82 9 7 2 0
relativas al tamao de escuelas
la clase y la calidad
de los maestros
Contrastando la Uganda 737.000 280 77 18 3 3 0
eciencia de la escuelas
prestacin de
servicios educativos
en los sectores
pblico y privado
Promedio 1.026.000 63 21 7 3 7
Fuente: Una muestra de evaluaciones de impacto nanciada por el Fondo Estratgico para la Evaluacin de Impacto (SIEF) del Banco Mundial.
a. Los costos estimados no siempre capturan todos los costos de la evaluacin, lo que incluye el tiempo del equipo de polticas pblicas.
b. Es el porcentaje de los costos totales de la evaluacin por categora. Este costo no incluye los costos del personal local del proyecto, que a menudo participaba intensamente
en el diseo y la supervisin de la evaluacin, dado que los datos precisos de estos costos no se registran de manera regular.
247
Concepto clave absolutos, las evaluaciones de impacto suelen constituir solo un pequeo
Las evaluaciones de porcentaje de los presupuestos generales del programa. Adems, el costo de
impacto suelen llevar a cabo una evaluacin de impacto debe compararse con los costos de
constituir solo un
oportunidad de no efectuar una evaluacin rigurosa y, por lo tanto, de imple-
pequeo porcentaje de
los presupuestos
mentar potencialmente un programa inefectivo. Las evaluaciones permiten
generales del a los investigadores y a los responsables de las polticas identicar qu pro-
programa. Adems, el gramas o caractersticas del programa funcionan, cules no funcionan y qu
costo de llevar a cabo estrategias pueden ser las ms efectivas y ecientes para alcanzar los objeti-
una evaluacin de vos del programa. En este sentido, los recursos necesarios para implementar
impacto debe
una evaluacin de impacto constituyen una inversin relativamente
compararse con los
costos de oportunidad pequea pero importante.
de no efectuar una El cuadro 12.2 desagrega los costos de la muestra de evaluaciones de
evaluacin rigurosa y, impacto nanciadas por el SIEF. Los costos totales de una evaluacin inclu-
por lo tanto, de yen el tiempo del personal del Banco Mundial, los consultores nacionales e
implementar
internacionales, los viajes, la recopilacin de datos y las actividades de
potencialmente un
programa inefectivo.
divulgacin.5 En estas evaluaciones, como en casi todas en las que no se pue-
den usar los datos existentes, el costo ms importante corresponde a la reco-
pilacin de nuevos datos, que equivale, en promedio, al 63% del costo de la
evaluacin, como se muestra en el cuadro.
Estas cifras reejan diferentes tamaos y tipos de evaluaciones. El costo
relativo de la evaluacin de un programa piloto suele ser superior al costo
relativo de la evaluacin de un programa a nivel nacional o universal.
Adems, algunas evaluaciones solo requieren una encuesta de seguimiento
o pueden usar las fuentes de datos existentes, mientras que otras necesitan
llevar a cabo mltiples rondas de recopilacin de datos. Los costos de
recopilacin de datos dependen sobre todo de las capacidades del equipo
local, de los recursos disponibles y de la duracin del trabajo de campo.
Para saber ms sobre cmo determinar los costos de una encuesta en un
contexto particular, se recomienda al equipo de evaluacin que primero
entre en contacto con el organismo nacional de estadstica y que busque
informacin entre los equipos que hayan llevado a cabo un trabajo de
encuestas en el pas.
Elaboracin de un presupuesto para una evaluacin de impacto
Se necesitan muchos recursos para implementar una evaluacin de

impacto rigurosa, sobre todo cuando se trata de recopilar datos primarios.
Las partidas presupuestarias incluyen los honorarios para al menos un
investigador principal, un asistente de investigacin, un coordinador del
trabajo de campo, un experto en muestreo y los encuestadores. Tambin
se debe considerar el tiempo del personal del proyecto para proporcionar
orientacin y apoyo a lo largo de la evaluacin. Estos recursos humanos
pueden consistir en investigadores y expertos tcnicos de organizaciones
internacionales, consultores internacionales o locales y personal del pro-
grama local. Los costos de viaje y viticos tambin se deben presupuestar.
Tambin se deben considerar en la planicacin los recursos para la
divulgacin, con frecuencia en forma de talleres, informes y documentos
acadmicos.
Como se ha sealado, el costo ms importante suele ser el relacionado
con la recopilacin de datos (que incluye la creacin y la prueba piloto de la
encuesta), los materiales y el equipo para recoger los datos, la capacitacin
de los encuestadores, sus salarios, los vehculos y el combustible, y las ope-
raciones de digitacin de datos. Calcular todos estos costos requiere consi-
derar algunos supuestos, por ejemplo, acerca del tiempo que llevar
completar el cuestionario y de la duracin de los viajes entre los
emplazamientos.
Los costos de una evaluacin de impacto pueden repartirse a lo largo de
varios ejercicios scales. El ejemplo de presupuesto del cuadro 12.3 muestra
cmo se pueden desagregar los gastos en cada fase de una evaluacin por
ejercicio scal, con nes de contabilidad y de informes. Una vez ms, es pro-
bable que las demandas presupuestarias sean mayores durante los aos en
que se recopilan los datos.
Opciones para nanciar las evaluaciones
El nanciamiento de una evaluacin puede provenir de numerosas

fuentes, entre ellas: recursos para el proyecto, presupuestos directos
del programa, ayudas a la investigacin o nanciamiento de los donan-
tes. Amenudo, los equipos de evaluacin procuran tener una combina-
cin de fuentes para generar los fondos necesarios. A pesar de que el
nanciamiento para las evaluaciones sola provenir sobre todo de pre-
supuestos para la investigacin, un nfasis creciente en la elaboracin
de polticas basadas en la evidencia ha aumentado el nanciamiento
proveniente de otras fuentes. En los casos en que es probable que una
evaluacin zanje una brecha de conocimientos considerable de inters
para la comunidad de desarrollo en trminos ms amplios, y donde se
pueda aplicar una evaluacin creble y robusta, se debera instar a los
responsables de las polticas a buscar nanciamiento externo, debido al
bien pblico que los resultados de la evaluacin proporcionarn. Las
fuentes de nanciamiento son el gobierno, los bancos de desarrollo, las
organizaciones multilaterales, los organismos de las Naciones Unidas,
las fundaciones, las instituciones lantrpicas, y las organizaciones de
investigacin y evaluacin, como la Iniciativa Internacional para la
Evaluacin de Impacto.
250
Cuadro 12.3 Ejemplo de presupuesto para una evaluacin de impacto
Etapa de datos de
Etapa del diseo lnea de base
Unidad Costo por Nmero de Costo Unidad Costo por Nmero de Costo
unidad unidades total unidad unidades total
(US$) (US$) (US$) (US$)
A. Salarios del personal Semanas 7.500 2 15.000 Semanas 7.500 2 15.000
B. Honorarios de los consultores 14.250 41.900
Consultor internacional (1) Das 450 15 6.750 Das 450 0 0
Consultor internacional (2) Das 350 10 3.500 Das 350 10 3.500
Investigador asistente/Coordinador Das 280 0 0 Das 280 130 36.400
de trabajo de campo
Experto estadstico Das 400 10 4.000 Das 400 5 2.000
C. Viajes y dietas
Personal: Vuelos internacionales Viajes 3.350 1 3.350 Viajes 3.350 1 3.350
Personal: Hotel y viticos Das 150 5 750 Das 150 5 750
Personal: Transporte terrestre local Das 10 5 50 Das 10 5 50
Consultores internacionales: Vuelos Viajes 3.500 2 7.000 Viajes 3.500 2 7.000
internacionales
Consultores internacionales: Hotel Das 150 20 3.000 Das 150 20 3.000
y viticos
Consultores internacionales: Das 10 5 50 Das 10 5 50
Transporte terrestre local
Coordinador de trabajo de campo: Viajes 0 0 Viajes 1.350 1 1.350
Vuelos internacionales
Coordinador de trabajo de campo: Das 0 0 Das 150 3 150
Hotel y viticos

Cuadro 12.3 Ejemplo de presupuesto para una evaluacin de impacto (contina)
Etapa de datos de
Etapa del diseo lnea de base
Unidad Costo por Nmero de Costo Unidad Costo por Nmero de Costo
unidad unidades total unidad unidades total
(US$) (US$) (US$) (US$)
Coordinador de trabajo de campo: Das 0 0 Das 10 3 30
D. Recopilacin de datos 126.000
Tipo de datos 1: Consentimiento Escuela 120 100 12.000
Tipo de datos 2: Resultados Nio/a 14 3.000 42.000
educativos
Tipo de datos 3: Resultados de Nio/a 24 3.000 72.000
salud
E. Anlisis y divulgacin de datos
Taller(es)
Divulgacin/informes
Costos totales por etapa Etapa de diseo 43.450 Etapa de lnea de base 198.630

251
252
Datos de seguimiento Datos de seguimiento

Primera etapa Segunda etapa
Costo por Costos Costo Costo
unidad Nmero de totales unitario Nmero de total
Unidad (US$) unidades (US$) Unidad (US$) unidades (US$)
A. Salarios del personal Semanas 7.500 22222 15.000 Semanas 7.500 22 15.000
B. Honorarios de los consultores 43.750 38.000
Investigador asistente/Coordinador Das 280 100 28.000 Das 280 100 28.000
de trabajo de campo
Experto estadstico Das 400 5 2.000 Das 400 5 2.000
C. Viajes y dietas
Personal: Vuelos internacionales Viajes 3.350 1 3.350 Viajes 3.350 2 6.700
Personal: Hotel y viticos Das 150 10 1.500 Das 150 10 1.500
Personal: Transporte terrestre local Das 10 5 50 Das 10 5 50
Consultores internacionales: Vuelos Viajes 3.500 2 7000 Viajes 3.500 2 7000
internacionales
Consultores internacionales: Hotel Das 150 20 3.000 Das 150 20 3.000
y viticos
Consultores internacionales: Das 10 5 50 Das 10 5 50

Datos de seguimiento Datos de seguimiento

Primera etapa Segunda etapa
Costo por Costos Costo Costo
unidad Nmero de totales unitario Nmero de total
Unidad (US$) unidades (US$) Unidad (US$) unidades (US$)
Coordinador de trabajo de campo: Viajes 1.350 1 1.350 Viajes 1.350 1 1.350
Vuelos internacionales
Coordinador de trabajo de campo: Das 150 3 450 Das 150 3 450
Hotel y viticos
Coordinador de trabajo de campo: Das 10 3 30 Das 10 3 30
D. Recopilacin de datos 126.000 126.000

Tipo de datos 1: Consentimiento Escuela 120 100 12.000 Escuela 120 100 12.000
Tipo de datos 2: Resultados Nio/a 14 3.000 42.000 Nio/a 14 3.000 42.000

educativos
Tipo de datos 3: Resultados de Nio/a 24 3.000 72.000 Nio/a 24 3.000 72.000
salud
E. Anlisis y divulgacin de datos 55.000
Taller(es) 20.000 2 40.000

Divulgacin/informes 5.000 3 15.000
Costos totales por etapa Seguimiento 201.530 Seguimiento (etapa II) 254.130
(etapa I)
Total costos evaluacin 697.740

253
Otros recursos
Para material de apoyo relacionado con el libro y para hipervnculos de ms

Para consultar diversos instrumentos tiles en la planicacin e implementacin
de una evaluacin, vase el portal de evaluacin del BID (http://www.iadb.org
/portalevaluacion), que incluye:
Seccin de diseo: Cartas Gantt para ayudar en la programacin de las
actividades de evaluacin de impacto, un instrumento de plantilla de
presupuesto para estimar los costos de una evaluacin de impacto, y una
lista de vericacin de actividades centrales que se realizarn.
Seccin de implementacin: Trminos de referencia de la muestra para los
investigadores principales, empresas de recopilacin de datos y apoyo y
supervisin tcnica.
Para directrices e instrumentos tiles en la planicacin e implementacin de
una evaluacin, vase el World Bank Impact Evaluation Toolkit (Vermeersch,
Rothenbhler y Sturdy, 2012), que incluye lo siguiente:
Mdulo 2: Armado del equipo: trminos de referencia de la muestra para
los investigadores principales, coordinadores de la evaluacin, analistas de
datos, investigadores locales, expertos en clculos de potencia, expertos en
calidad de datos, trabajadores locales y otros.
Manuales de campo y programas de capacitacin para hogares y centros de
salud.
Mdulo 3: Diseo: directrices sobre cmo alinear el calendario, la composi-
cin del equipo y el presupuesto de su evaluacin de impacto, y una plantilla
de presupuesto.
Mdulo 4: Preparacin de la recopilacin de datos: informacin sobre la
programacin de actividades de recopilacin de datos y logro de acuerdos
con los interesados sobre la propiedad de los datos; Carta Gantt, presupues-
to de recopilacin de datos de la muestra.
Notas
1. El acrnimo JPAL corresponde al Abdul Latif Jameel Poverty Action Lab; SPD
es la Ocina de Planicacin Estratgica y Efectividad en el Desarrollo, y RES es
el Departamento de Investigacin del BID.
2. Vase King y Behrman (2009) para un anlisis detallado de las cuestiones de
programacin con respecto a la evaluacin de programas sociales.
3. Hay diversos motivos por los que la implementacin no es ni inmediata
niperfecta, por qu la duracin de la exposicin al tratamiento diere
nosolo entre diferentes mbitos del programa sino tambin en los diferen-
tesbeneciarios ltimos, y por qu las diferentes exposiciones pueden
generardiferentes estimaciones del impacto de un programa (King y
Behrman,2009).
4. Si bien los cuadros 12.1 y 12.2 proporcionan referencias tiles, no son representa-
tivos de todas las evaluaciones emprendidas por el programa SIEF o el Banco
Mundial.
5. En este caso, el costo se calcula como porcentaje de la parte del proyecto
nanciado por el Banco Mundial.
Bertrand, M., B. Crpon, A. Marguerie y P. Premand. 2015. Cote dIvoire Youth

Employment and Productivity Impact Evaluation. AEA RCT Registry (9 de
octubre). Disponible en https://www.socialscienceregistry.org/trials/763
/history/5538.
Currie, J. 2001. Early Childhood Education Programs. Journal of Economic
Perspectives 15 (2): 21338.
Currie, J. y D. Thomas. 1995. Does Head Start Make a Difference? American
. 2000. School Quality and the Longer-Term Effects of Head Start. Journal of
Economic Resources 35 (4): 75574.
Gertler, P., J. Heckman, R. Pinto, A. Zanolini, C. Vermeersch, S. Walker, S. M. Chang
y S. Grantham-McGregor. 2014. Labor Market Returns to an Early Childhood
Stimulation Intervention in Jamaica. Science 344 (6187): 9981001.
Grantham-McGregor, S., C. Powell, S. Walker y J. Himes. 1994. The Long-Term
Follow-up of Severely Malnourished Children Who Participated in an
Intervention Program. Child Development 65: 42893.
IPA (Innovations for Poverty Action). 2014. Researcher Guidelines: Working with
IPA. (1 de septiembre.) Disponible en http://www.poverty-action.org/sites
/default/les/researcher_guidelines_version_2.0.pdf.
King, E. M. y J. R. Behrman. 2009. Timing and Duration of Exposure in
Evaluations of Social Programs. World Bank Research Observer 24 (1): 5582.
King, E. M., P. F. Orazem y E. M. Paterno. 2008. Promotion with and without Learning:
Effects on Student Enrollment and Dropout Behavior. Serie de documentos de
trabajo de investigacin de polticas Nm. 4722. Washington,D.C.: Banco Mundial.
McEwan, P. J. 2014. Improving Learning in Primary Schools of Developing
Countries: A Meta-Analysis of Randomized Experiments. Review of
Educational Research. (doi:10.3102/0034654314553127.)
Newman, J., M. Pradhan, L. B. Rawlings, G. Ridder, R. Coa y J. L. Evia. 2002. An
Impact Evaluation of Education, Health, and Water Supply Investments by the
Bolivian Social Investment Fund. World Bank Economic Review 16 (2): 24174.
Sturdy, J., S. Aquino y J. Molyneaux. 2014. Learning from Evaluation at the
Millennium Challenge Corporation. Journal of Development Effectiveness
6(4): 43650.
Measuring the Impact of Results-Based Financing on Maternal and Child Health.
Washington, D.C.: Banco Mundial. Disponible en http://www.worldbank.org
CAPTULO 13
La tica y la ciencia en la
La gestin de evaluaciones ticas y crebles
La tica de la evaluacin se centra en proteger a los individuos o sujetos

humanos que participan en la evaluacin, mientras que la transparencia de
los mtodos contribuye a asegurar que los resultados de la evaluacin no
estn sesgados, sean ables y crebles, y aporten a un acervo ms amplio de
conocimientos.
Los responsables de las polticas y los investigadores tienen un inters
conjunto y una responsabilidad compartida en asegurar que la evaluacin
sea tica y que sus resultados no estn sesgados, sean ables y crebles. Lo
contrario puede signicar la invalidacin de la evaluacin y podra generar
problemas ms all del alcance mismo de esta. Imagnese una evaluacin de
impacto que pone en peligro a un grupo de personas al divulgar datos perso-
nales, o una evaluacin que utiliza un mecanismo de asignacin de pro-
grama que es injusto porque excluye a las familias ms necesitadas. O
pinsese en una evaluacin que demuestra que un programa es sumamente
exitoso pero no divulga ningn dato para apoyar esa armacin. Cualquiera
de estos casos podra producir indignacin pblica: quejas en los medios de
comunicacin, en los tribunales o en otras instancias, y sera fuente de
malestar para los responsables de las polticas pblicas y los investigadores.
La crtica de la evaluacin podra llegar hasta el programa mismo e incluso
257
atentar contra su implementacin. La abilidad y la completitud de los
resultados de evaluacin tambin son muy importantes: cuando las evalua-
ciones producen estimaciones sesgadas o parciales del impacto de los pro-
gramas, los responsables de las polticas se vern limitados en su capacidad
de adoptar una decisin plenamente fundamentada.
Aunque las evaluaciones de impacto estn vinculadas a programas y pro-
yectos pblicos, tambin constituyen una labor de investigacin y, por lo
tanto, se llevan a cabo en el dominio de las ciencias sociales. De la misma
manera, el equipo evaluador debe respetar una serie de principios y reglas
de las ciencias sociales para garantizar que la evaluacin sea tica y transpa-
rente en sus mtodos y resultados.
La tica de llevar a cabo evaluaciones de

impacto
Cuando una evaluacin de impacto asigna los sujetos a grupos de trata-

miento y comparacin y recopila datos de anlisis acerca de ellos, el equipo
de evaluacin asume la responsabilidad de minimizar en la mayor medida
posible cualquier riesgo de que los individuos resulten perjudicados, as
como de asegurar que los individuos que participen en la evaluacin lo
hagan a travs de un consentimiento informado.
La tica en la asignacin de grupos de tratamiento y

comparacin
Como sucede con el juramento hipocrtico de la profesin mdica, un primer

principio de la tica de la evaluacin debera ser no causar perjuicios. La prin-
cipal preocupacin es que la intervencin del programa que se evala pueda
damnicar a los individuos, ya sea directa o indirectamente. Por ejemplo, un
proyecto de rehabilitacin de carreteras podra desplazar a los hogares que
residen a lo largo de determinadas partes de una carretera. Un proyecto de
alfabetizacin que no tiene en cuenta el uso de las lenguas nativas podra vul-
nerar a las comunidades indgenas. Numerosos gobiernos y donantes inter-
nacionales que nancian proyectos de desarrollo utilizan un marco de
salvaguardias para evitar y mitigar este tipo de riesgos. Aunque los encarga-
dos del programa tienen la responsabilidad fundamental de aplicar medidas
de salvaguardias en los proyectos, el equipo de evaluacin debera estar vigi-
lante para vericar que el proyecto cumpla con estos marcos requeridos.
Existe otra preocupacin a propsito del dao que puede surgir de pri-
var a beneciarios potenciales de una intervencin. Un principio funda-
mental es que los grupos no deberan ser excluidos de una intervencin que
se sabe que es beneciosa, nicamente por el propsito de llevar a cabo una Concepto clave
evaluacin. Las evaluaciones solo deberan realizarse en casos en que el No se debera excluir a
equipo de evaluacin ignore si una intervencin es beneciosa en el con- un grupo de una
intervencin que se
texto particular en que se evala. Adems, si una evaluacin demuestra que
sabe que es
un programa es costo-efectivo, los nanciadores del mismo ya sean beneciosa
gobiernos, donantes u organizaciones no gubernamentales (ONG) debe- nicamente para los
ran hacer un esfuerzo razonable para ampliar el programa con el n de nes de una
incluir a los grupos de comparacin una vez que haya nalizado la evalua- evaluacin.
cin de impacto.
Un principio relacionado que se impulsa en este libro es que las evalua-
ciones no deberan dictar cmo se asignan los programas; al contrario,
deberan ajustarse a las reglas de asignacin del programa en la medida en
que estas sean claras e imparciales. La evaluacin tambin puede contri-
buir a (re)denir las reglas cuando estas no existen o cuando no son jus-
tas. Siguiendo este procedimiento, se contribuir a asegurar que las
preocupaciones ticas no emanen tanto de la propia evaluacin de
impacto como de la tica de las reglas utilizadas para elegir a los bene-
ciarios del programa. Aun as, la asignacin de grupos de tratamiento y
comparacin puede suscitar inquietudes acerca de la tica de negar los
benecios del programa a los beneciarios elegibles. Esto es lo que ocurre
en particular con la asignacin aleatoria de los benecios del programa.
En la segunda parte y en el captulo 11, se ha puesto de relieve que la asig-
nacin aleatoria es un mtodo que se puede aplicar en contextos operati-
vos especcos. Concretamente, el hecho de que la mayora de los
programas funcionen con recursos nancieros y administrativos limita-
dos hace imposible llegar a todos los beneciarios elegibles al unsono.
Esto tiene que ver con preocupaciones ticas, dado que el programa
mismo debe desarrollar reglas de asignacin e imponer algn tipo de
seleccin, incluso sin la existencia de una evaluacin de impacto. Desde
una perspectiva tica, hay buenos argumentos para que todos aquellos
que son igualmente elegibles para participar en un programa tengan igua-
les probabilidades de ser destinatarios del mismo. La asignacin aleatoria
cumple este requisito. En otros contextos operativos en los que un pro-
grama se va a desarrollar por fases, la implementacin se puede basar en
la seleccin aleatoria del orden en que los beneciarios o grupos de bene-
ciarios igualmente elegibles sern objeto del programa. En dichos casos,
esto dar a cada beneciario elegible la misma probabilidad de ser el
primero en recibir el programa. As, los beneciarios que ingresan poste-
riormente en el programa pueden ser tomados como grupo de compara-
cin para los primeros beneciarios, generndose de este modo un slido
diseo de evaluacin y un mtodo transparente y equitativo para asignar
los recursos escasos.
La tica y la ciencia en la evaluacin de impacto 259
Por ltimo, tambin puede manifestarse una inquietud tica a propsito
de no llevar a cabo una evaluacin cuando los programas invierten recursos
considerables en intervenciones cuya efectividad se desconoce. En este
contexto, la propia falta de evaluacin podra verse como no tica porque
podra perpetuar programas despilfarradores que no benecian a la pobla-
cin, mientras que los fondos podran ser mejor gastados en intervenciones
ms efectivas. La informacin acerca de la efectividad del programa que
producen las evaluaciones de impacto puede contribuir a una inversin ms
tica y efectiva de los recursos pblicos.
La proteccin de sujetos humanos durante la recopilacin, el

procesamiento y el almacenamiento de datos
Una segunda instancia en la cual los sujetos podran verse perjudicados es

durante la recopilacin, el procesamiento y el almacenamiento de datos. Los
hogares, los maestros, mdicos, administradores y otras personas que res-
ponden a cuestionarios o proporcionan datos a travs de otros medios
podran verse perjudicados si la informacin que proporcionan se divulga
pblicamente sin sucientes salvaguardias para proteger su anonimato. El
perjuicio podra afectar a los propios individuos o a una organizacin a la
que pertenecen. He aqu unos cuantos ejemplos:
Mientras se lleva a cabo una encuesta, una mujer comparte informacin
acerca de sus prcticas de planicacin familiar y su marido (que no est
a favor de la planicacin familiar) escucha su conversacin con el
encuestador.
La privacidad de los hogares se ve violentada (y su seguridad puesta en
peligro) cuando un individuo consigue utilizar los datos de una encuesta
que fueron publicados en Internet para identicar el ingreso y los activos
de familias especcas.
Un estudio utiliza encuestadores no calicados para realizar pruebas
biomdicas, como extracciones de sangre.
Un encuestado solicita que se le elimine de un estudio a medio camino de
la entrevista, pero el encuestador lo insta a acabar de contestar las
preguntas.
Los datos de la encuesta se emplean para identicar a organizaciones
comunitarias que se oponen a ciertas polticas de los gobiernos, con el n
de tomar represalias contra ellas.
Frente a riesgos como estos, compete a los investigadores principales y a
otros miembros del equipo de investigacin salvaguardar los derechos y el
bienestar de los sujetos humanos que participan en la evaluacin de impacto,
de conformidad con el cdigo tico y la legislacin nacional adecuada y con
las directrices internacionales.1 La Organizacin Mundial de la Salud (OMS)
recomienda los siguientes criterios bsicos para evaluar los proyectos de
investigacin con sujetos humanos:
Los derechos y el bienestar de los sujetos que participan en la evaluacin

de impacto deberan ser protegidos de forma adecuada.
Los investigadores deberan obtener un consentimiento informado de

los participantes.
El equilibrio entre riesgo y benecios potenciales implicados deberan

ser valorados y declarados aceptables por un panel de expertos
independientes.
Deberan cumplirse todos los requisitos nacionales especiales.
El Informe Belmont Principios ticos y pautas para la proteccin de

lossujetos humanos en la investigacin identica tres preceptos que cons-
tituyen el fundamento de la conducta tica de la investigacin con sujetos
humanos:
El respeto por las personas. Cmo obtendrn los investigadores el con-

sentimiento informado de los sujetos de su investigacin?
Benecencia. Cmo asegurarn los investigadores que la investigacin

(1) no cause perjuicios y (2) maximice los benecios potenciales y mini-
mice el dao potencial?
Justicia. Cmo asegurarn los investigadores que los benecios y cargas

de la investigacin sean compartidos de forma imparcial y equitativa?
Como elemento clave de su deber de proteger a los sujetos humanos, el

investigador principal debera presentar la investigacin y los protocolos de
recopilacin de datos para que sean analizados y aprobados por una Junta
de Revisin Institucional (JRI), tambin conocida como Comit tico
Independiente o Junta de Revisin tica. La JRI es un comit que ha sido
formalmente nombrado para revisar, aprobar y monitorear la investigacin
biomdica y conductual que trabaja con sujetos humanos. Tanto antes de
que comience el estudio como durante su implementacin, la JRI revisa los
protocolos de investigacin y materiales relacionados con el n de evaluar la
tica de la investigacin y sus mtodos. En el contexto de las evaluaciones de
impacto, el anlisis de la JRI es particularmente importante cuando el estu-
dio requiere la recopilacin de datos de los hogares y de las personas.
Concretamente, el estudio de la JRI verica si los participantes son capaces
de tomar la decisin de participar de las actividades de recopilacin de
datos, y si su eleccin estar plenamente fundamentada y ser voluntaria.
Por ltimo, la JRI analiza si hay algn motivo para creer que la seguridad de
los participantes podra estar en riesgo.
El investigador principal tiene la responsabilidad de identicar todas las
instituciones que deberan revisar y aprobar el estudio. Numerosos pases
cuentan con una junta de revisin tica nacional y la mayora de las univer-
sidades tiene una JRI. Normalmente, al equipo se le pedir que obtenga la
aprobacin tica de la junta de revisin tica nacional correspondiente del
pas y de las JRI de cualquier universidad con la que los investigadores ten-
gan alguna liacin. Puede que haya instancias concretas en que las evalua-
ciones de impacto se lleven a cabo en pases que no tienen una JRI nacional
o con investigadores cuyas instituciones carecen de dicha junta. En esos
casos, el investigador principal debera contratar una JRI (posiblemente
comercial) con una tercera parte. El proceso de anlisis y aprobacin puede
tardar entre dos y tres meses, aunque el plazo vara en funcin de la frecuen-
cia con que se rene el Comit de la JRI. Los equipos de polticas pblicas y
de investigacin deberan coordinar las presentaciones a la JRI y las activi-
dades de recopilacin de datos, de modo que puedan obtener todas las apro-
baciones requeridas antes de iniciar la recopilacin de datos que involucra a
sujetos humanos.
La revisin de la JRI es una condicin necesaria pero insuciente para
asegurar la proteccin de los sujetos humanos. Las JRI pueden variar en gran
medida en trminos de capacidad y experiencia con los experimentos en
ciencias sociales, as como en la focalizacin de su estudio. Las JRI, sobre
todo si estn situadas lejos del lugar donde se lleva a cabo la evaluacin, pue-
den no conocer lo suciente las circunstancias locales para ser capaces de
identicar amenazas contextuales de los sujetos humanos. Puede que pongan
Concepto clave
un nfasis excesivo en la redaccin de los cuestionarios y de los formularios
Una junta de revisin
de consentimiento. O puede que tengan experiencia en un mbito ms focali-
institucional (JRI) es un
comit nombrado para zado, como los experimentos mdicos, cuyas normas son bastante diferentes
estudiar, aprobar y de las de los experimentos sociales, en trminos de los riesgos para los sujetos
monitorear la humanos. El pensar en la proteccin de los sujetos humanos no es algo que
investigacin con naliza una vez que se obtiene la aprobacin de una JRI; ms bien, debera
sujetos humanos.
verse como un punto de partida para asegurar que la evaluacin sea tica.
Las juntas de revisin institucional suelen requerir la siguiente informa-
cin, que debe presentarse para ser analizada:
Evidencia de capacitacin. Numerosas JRI (as como muchas directrices
ticas nacionales) requieren que el equipo de investigacin est capacitado
en la proteccin de sujetos humanos, aunque las modalidades varan de un
pas a otro. Al nal de este captulo, en la seccin Otros recursos, se expo-
nen diversas opciones de capacitacin.
El protocolo de investigacin. El protocolo de investigacin incluye ele-
mentos centrales normalmente denidos en el plan de evaluacin sobre
todo, la nalidad del estudio y los objetivos de la evaluacin, las preguntas
centrales de las polticas pblicas y la metodologa de evaluacin pro-
puesta, as como tambin la descripcin de cmo el equipo de investiga-
cin asegurar la proteccin de los sujetos humanos. Como tal, es un
documento importante en la documentacin de una evaluacin. El proto-
colo de investigacin suele incluir los siguientes elementos en relacin con
el tratamiento de sujetos humanos: el criterio para seleccionar a los partici-
pantes del estudio (sujetos), la metodologa y los protocolos aplicados para
la proteccin de sujetos vulnerables, los procedimientos para asegurar que
los sujetos sean conscientes de los riesgos y benecios de participar en el
estudio, y los procedimientos utilizados para garantizar el anonimato. La
empresa encuestadora debera emplear el protocolo de investigacin para
orientar los seguimientos del trabajo de campo. En el sitio web de la OMS y
en el Kit de Herramientas de Evaluacin de Impacto2 se presenta ms infor-
macin sobre el contenido del protocolo de investigacin.
Procedimientos para solicitar y documentar el consentimiento informado.
El consentimiento informado es una piedra angular de la proteccin de los
derechos de los sujetos humanos en cualquier estudio. Exige que los encues-
tados comprendan claramente la nalidad, los procedimientos, los riesgos y
benecios de la recopilacin de datos en que se les pide participar. Por
defecto, el consentimiento informado de un encuestado adulto requiere un
documento por escrito que incluya una seccin sobre los mtodos utilizados
para proteger la condencialidad del encuestado, una seccin sobre el dere-
cho del encuestado a rechazar o cesar su participacin en cualquier
momento, una explicacin sobre riesgos y benecios potenciales, informa-
cin de contacto en caso de que el encuestado quiera contactar al equipo de
recopilacin de datos, y espacio para que los encuestados registren su con-
Concepto clave
sentimiento formal por escrito para participar en la recopilacin de datos
El consentimiento
mediante una rma. En ocasiones, los participantes del estudio no son capa- informado es una
ces de tomar la decisin de participar. Por ejemplo, a los nios se les suele piedra angular de la
considerar no capaces de tomar esta decisin. Por lo tanto, al contrario de proteccin de los
los adultos, los menores no pueden expresar su consentimiento para parti- sujetos humanos.
cipar en una encuesta; pueden acceder a participar si cuentan con un per- Exige que los
encuestados tengan
miso por escrito de sus padres o tutores. Si bien los pasos descritos
una clara comprensin
constituyen los procedimientos por defecto, numerosas evaluaciones de de la nalidad, los
impacto requieren que su JRI les exima del requisito de obtener un consen- procedimientos, los
timiento formal por escrito de los encuestados. Por ejemplo, cuando traba- riesgos y los benecios
jan con una poblacin analfabeta, a menudo se exime a los potenciales de la recopilacin de
adultos encuestados del consentimiento formal por escrito, que se sustituye datos en la que se les
pide participar.
por un consentimiento verbal documentado.3
Procedimientos para proteger la condencialidad del encuestado. La
proteccin de la condencialidad del encuestado es crucial cuando se
trata de almacenar y divulgar datos pblicamente. Toda la informacin
proporcionada a lo largo de la recopilacin de datos debera ser annima
para proteger la identidad de los encuestados. A pesar de que los resulta-
dos del estudio pueden publicarse, el informe debera redactarse de tal
manera que no sea posible identicar un individuo o un hogar. En lo que
respecta a la garanta de condencialidad de los datos, se debera asignar
a cada sujeto de la encuesta un nico nmero de identicacin encrip-
tado, y se deberan eliminar todos los nombres e identicadores de la base
de datos que se divulga pblicamente. Los identicadores incluyen cual-
quier variable que permita el reconocimiento de individuos u hogares
(como direcciones) o cualquier combinacin de variables que haga lo
mismo (como una combinacin de fecha y lugar de nacimiento, sexo y
aos de escolarizacin). En caso de que el equipo de investigacin prevea
que necesitar los identicadores con el n de hacer un seguimiento de
los entrevistados en una encuesta posterior, puede gestionar una base
dedatos independiente y guardada en condiciones de seguridad, que vin-
cule los ID individuales encriptados con la informacin de identicacin
de los encuestados.4 Adems de encriptar los ID individuales, puede que
tambin sea necesario encriptar las localizaciones e instituciones. Por
ejemplo, si los hogares y los individuos estn codicados con ID encripta-
dos, pero las localidades estn identicadas, puede que sea posible
reconocer los hogares a travs de las caractersticas contenidas en la
encuesta. Por ejemplo, puede que una localidad concreta incluya solo un
hogar que posee una motocicleta, siete vacas y una peluquera. Cualquiera
con acceso a los datos podra ser capaz de localizar el hogar y de esta
manera se violara la condencialidad.
Garantizar evaluaciones ables y crebles

mediante la ciencia abierta
Uno de los objetivos fundamentales de la evaluacin de impacto consiste en

estimar el impacto de un programa en una gama de resultados de inters. En
la segunda parte de este captulo se abordan una serie de mtodos para ase-
gurar que los impactos estimados sean robustos. Una evaluacin de impacto
bien diseada y bien implementada debera garantizar que los resultados no
estn sesgados, sean ables y crebles, y que contribuyan a un acervo de
conocimiento ms amplio. Cuando las evaluaciones no estn sesgadas, y son
ables y crebles y se pueden interpretar dentro de un acervo relevante de
conocimiento relacionado, pueden contribuir a que se tomen las decisiones
adecuadas de poltica pblica y se mejoren las vidas de las personas. Sin
embargo, en la prctica, hay varios problemas que pueden impedir que este
ideal se alcance. En esta seccin, se analizar cmo diversas cuestiones cien-
tcas de la evaluacin de impacto se pueden convertir en asuntos difciles
para los responsables de las polticas, y se presentarn medidas potenciales
para evitar o mitigar estos problemas. Estas medidas se suelen agrupar bajo
la denominacin de ciencia abierta, porque su objetivo consiste en lograr
que los mtodos de investigacin sean transparentes.5 La mayora de estos
problemas tienen que ser manejados por el equipo de investigacin, pero el
equipo de poltica que supervisa una evaluacin de impacto tiene que ser
consciente de los mismos mientras administra las evaluaciones de impacto.
En el cuadro 13.1 se resumen los problemas, las implicaciones de poltica y
las posibles soluciones.
Cuadro 13.1 Asegurar informacin able y creble para las polticas mediante la ciencia abierta
Soluciones de prevencin y
Implicaciones para las mitigacin mediante la
Problemas de la investigacin polticas pblicas ciencia abierta
Sesgo de la publicacin. Solo se Las decisiones de poltica se Registros de ensayos.
publican los resultados positivos. basan en un acervo distorsionado
Las evaluaciones que muestran de conocimiento. Los responsa-
impactos limitados o nulos no se bles de la poltica pblica tienen
divulgan ampliamente. escasa informacin sobre lo que
no funciona y siguen probando/
adoptando polticas que no
tienen impacto alguno.
Minera de datos. Los datos se Las decisiones de poltica para Planes de preanlisis.
fragmentan cada vez ms hasta adoptar intervenciones pueden
que aparece un resultado positivo estar basadas en estimaciones
en la regresin, o la hiptesis se positivas no justicadas de los
reajusta a los resultados. impactos.
Pruebas de hiptesis mltiples, Las decisiones de poltica Planes de preanlisis y tcnicas
anlisis de subgrupo. Los investiga- pblica para adoptar intervencio- de ajustes estadsticos especia-
dores fragmentan cada vez ms los nes pueden estar basadas en lizadas, como las pruebas de
datos hasta que encuentran un estimaciones positivas no ndices, la tasa prudente de
resultado positivo para algn grupo. justicadas de los impactos. error relacionada con la familia
Concretamente: (1) las mltiples y el control de la tasa de falsos
pruebas conducen a la conclusin descubrimientos.a
de que algunos impactos existen
cuando en realidad no existen; o (2)
solo se informa sobre los impactos
que son signicativos.

Cuadro 13.1 Asegurar informacin able y creble para las polticas mediante la ciencia abierta (contina)
Soluciones de prevencin y
Implicaciones para las mitigacin mediante la
Problemas de la investigacin polticas pblicas ciencia abierta
Falta de replicacin. No se pueden La poltica puede basarse en La documentacin y el registro
replicar los resultados porque el resultados manipulados de los datos, incluidos los
protocolo de investigacin, los datos (positivos o negativos), dado protocolos de proyecto, los
y los mtodos de anlisis no estn que los resultados pueden cdigos de organizacin, la
sucientemente documentados. deberse a errores de clculo. publicacin de los cdigos, y la
Los errores y las manipulaciones Los resultados entre diferentes publicacin de datos.
pueden pasar inadvertidos. estudios no se pueden comparar. Cambios en las polticas de las
revistas arbitradas y de
A los investigadores no les interesa La validez de los resultados
nanciamiento para requerir
replicar los estudios, y a las revistas en otro contexto no se puede
documentacin acerca de los
arbitradas no les interesan los probar.
datos y promover la replicacin.
resultados yo tambin.
No se pueden replicar las interven- Los responsables de la poltica
ciones porque el protocolo de pueden ser incapaces de
intervencin no est sucientemente replicar la intervencin en un
documentado. contexto diferente.
a. Para una introduccin bsica al problema de las comparaciones mltiples y las correcciones estadsticas potenciales, se
recomienda consultar https://en.wikipedia.org/wiki/Multiple_comparisons_problem.
Sesgo en la publicacin y registros de pruebas
Normalmente, a los investigadores que trabajan en evaluaciones de impacto

les interesa asegurarse de que los resultados de sus evaluaciones sean publi-
cados en revistas arbitradas porque eso contribuye a su carrera profesional.
Sin embargo, la mayora de los resultados que aparecen en estas publicacio-
nes muestran impactos positivos. Por lo tanto, se impone la pregunta de qu
sucede con las evaluaciones que tienen resultados negativos o que no pue-
den mostrar resultados signicativos. Los investigadores prcticamente no
tienen incentivos para consignar resultados no signicativos o someterlos a
publicaciones arbitradas porque perciben que hay escaso inters en los
resultados y que las revistas rechazarn sus documentos (Franco, Malhotra
y Simonovits, 2014). Este sesgo en la publicacin suele denominarse pro-
blema del cajn de archivador porque los resultados permanecen en el
archivador y no son divulgados ni publicados. Pueden surgir problemas de
sesgo de publicacin similares en las evaluaciones de impacto de programas
especcos. Es ms probable que los equipos de poltica pblica, los nan-
ciadores y los gobiernos den a conocer y publiciten los resultados positivos
de una evaluacin de un programa en lugar de difundir resultados negativos
o ausencia de resultados. Debido a estas tendencias, es difcil tener un
cuadro claro de las intervenciones que no funcionan, dado que los
resultados no suelen estar disponibles y el acervo de evidencia con el que se
cuenta est ms bien distorsionado. Los responsables de la poltica pblica
que tratan de basar sus decisiones en la evidencia disponible quiz no ten-
gan acceso a resultados no publicados; como consecuencia, puede que
continen intentando trabajar con polticas que no han tenido xito en otros
lugares.
Una solucin parcial al sesgo de publicacin es el registro de las pruebas.
Se debera alentar a los equipos de evaluacin de impacto a registrar sus
pruebas, y en ese sentido el equipo de poltica pblica tiene un importante
rol que desempear para asegurar que el equipo de investigacin registre la
evaluacin de impacto. El registro de pruebas es muy comn (y a menudo
requerido) en las ciencias mdicas, pero recin comienza a ganar terreno en
las ciencias sociales, lo que incluye las evaluaciones de impacto. El registro
implica que los investigadores declaren pblicamente su intencin de llevar
a cabo una evaluacin antes de hacerlo realmente, dejando asentada infor-
macin clave acerca de la evaluacin en un registro (vase el recuadro 13.1).
Como consecuencia, debera ser posible tener una lista completa de las
evaluaciones de impacto que se hayan llevado a cabo, tanto si los resultados
fueron positivos como si no lo han sido.
Recuadro 13.1: Registro de pruebas en las ciencias sociales

Las evaluaciones de impacto de las polticas de ingresos bajos y medios. En julio de
pblicas normalmente deberan asentarse 2015 contaba con alrededor de 64 evalua-
en los registros de ciencias sociales en lugar ciones registradas.
de hacerlo en los registros mdicos, debido > El Center for Open Science gestiona el
al carcter de la investigacin. He aqu unos Marco de Ciencia Abierta (OSF, por sus
cuantos ejemplos: siglas en ingls) y tiene un foco ligera-
> El registro de la American Economic mente diferente, pero tambin puede
Association para pruebas aleatorias con- servir como registro (https://osf.io/). El
troladas se puede consultar en http// OSF es un sistema de gestin basado en
www.socialscienceregistry.org. En julio la nube para proyectos de investigacin,
de 2015 contena 417 estudios realizados que permite crear fotos instantneas
en 71 pases. de la investigacin en cualquier momento
> La Iniciativa Internacional para la del tiempo, con una URL persistente y
Evaluacin de Impacto (3ie) gestiona el una marca de fecha. Los investigadores
Registry for International Development pueden subir su protocolo, investigar
Impact Evaluations (RIDIE), que se cen- hiptesis, datos y cdigos en el OSF, y
tra en las evaluaciones de impacto rela- compartir el enlace resultante de la web
cionadas con el desarrollo de los pases como prueba de registro.

Los registros constituyen un gran paso hacia adelante para garantizar que
el acervo disponible de conocimiento no se distorsione ms. Sin embargo, an
persisten muchas dicultades. Por ejemplo, aunque quede claro en un regis-
tro que una evaluacin se llev a cabo, puede que no sea tan fcil obtener
informacin acerca de los resultados de la misma. Las evaluaciones de
impacto se pueden suspender o pueden no llevarse a cabo. E incluso si se
encuentra disponible la falta de resultados de una evaluacin, esto a menudo
suscita un conjunto adicional de preguntas que complican la interpretacin
de los resultados: Acaso los investigadores no encontraron resultados porque
la evaluacin estaba mal diseada y ejecutada, porque el programa no estaba
bien implementado, o porque el programa realmente no tuvo un impacto?
Como se ver en el captulo 16, la recopilacin de datos complementarios a
travs del monitoreo del programa o desde fuentes alternativas de datos
puede contribuir a garantizar que los resultados estn bien interpretados.
Minera de datos, pruebas de hiptesis mltiples y anlisis de

subgrupos
Otro problema potencial relacionado con la evaluacin de impacto es la

minera de datos, la prctica de manipular los datos en bsqueda de resulta-
dos positivos. La minera de datos puede manifestarse de diferentes
maneras. Por ejemplo, cuando hay datos disponibles, puede que aparezca la
tentacin de aplicar regresiones sobre los mismos hasta que surja algo
positivo, y luego reajustar una hiptesis atractiva a aquel resultado. Esto
constituye un problema por el siguiente motivo: cuando se aplican pruebas
estadsticas para la signicancia de los impactos, hay que utilizar un nivel de
signicancia de, por ejemplo, 5%. Estadsticamente, 1 en 20 pruebas de
impacto arrojarn niveles signicativos al 5%, aun cuando la distribucin
subyacente no garantice un impacto (vase el captulo 15 para un debate
sobre los errores de tipo I). Con la minera de datos, ya no se puede garanti-
zar que el resultado de un impacto sea genuino, ni si proviene nicamente
de las propiedades estadsticas de la prueba. Este problema est relacionado
con la cuestin de las pruebas de hiptesis mltiples, a saber: cuando una
investigacin incluye mltiples hiptesis diferentes, existe una alta probabi-
lidad de que al menos una de ellas se conrme con una prueba positiva ni-
camente por azar (debido a las propiedades estadsticas de la prueba), y no
debido al impacto real. Una situacin similar surge en el anlisis de subgru-
pos: cuando la muestra es lo sucientemente grande, los investigadores
podran intentar subdividirla hasta que encuentren un impacto en algn
subgrupo. Una vez ms, no se puede estar seguro de que un resultado de
impacto en ese subgrupo sea un resultado genuino, o si proviene nica-
mente de las propiedades estadsticas de la prueba.
Otro ejemplo de minera de datos tiene lugar cuando la decisin de
continuar o suspender la recopilacin de datos se vuelve dependiente de un
resultado intermedio: por ejemplo, una encuesta de hogares se planic
para un tamao de muestra de 2.000 hogares y el trabajo de campo ha avan-
zado hasta los 1.000. Si esta muestra reducida produce un resultado positivo
de la evaluacin de impacto y se toma la decisin de suspender la recopila-
cin de datos para evitar el riesgo de que ms datos puedan cambiar los
resultados, esto sera minera de datos. Otros ejemplos son la exclusin de
ciertas observaciones o grupos inconvenientes, o el ocultamiento selectivo
de resultados que no encajan. Si bien no hay motivos para creer que estas
prcticas son generalizadas, unos cuantos casos agrantes y de alto perl
tienen el potencial para socavar la evaluacin de impacto como ciencia.
Adems, incluso hay casos menores de minera de datos que tienen el poten-
cial de distorsionar el acervo de evidencia utilizado por los responsables de
la poltica pblica para decidir qu intervenciones comenzar, continuar o
suspender.
Una recomendacin habitual para evitar la minera de datos consiste en
utilizar un plan de preanlisis. Este plan dene los mtodos de anlisis antes
de llevar a cabo el anlisis de evaluacin de impacto, dejando en claro as el
foco de la evaluacin y reduciendo el potencial para alterar los mtodos una
vez que haya comenzado el anlisis. El plan de preanlisis debera especi-
car los resultados que se medirn, las variables construidas y utilizadas, los
subgrupos para los que se llevar a cabo el anlisis y los enfoques analticos
bsicos que se utilizarn en la estimacin de los impactos. Los planes de
preanlisis tambin deberan incluir las correcciones propuestas por los
investigadores en las pruebas de hiptesis mltiples y pruebas de subgru-
pos, si se requiere. Por ejemplo, probar el impacto de una intervencin en
educacin de seis diferentes puntuaciones de pruebas (matemticas, ingls,
geografa, historia, ciencia, francs) para cinco grupos diferentes de escue-
las (grados 1 a 5) y dos sexos (masculino y femenino) arrojara 60 hiptesis
diferentes, una o varias de las cuales estn destinadas a tener una prueba
signicativa solo por azar. Al contrario, el investigador podra proponer
calcular uno o ms ndices que agrupan a los indicadores, para reducir el
nmero de hiptesis y subgrupos.6
Aunque un plan de preanlisis puede contribuir a aliviar la preocupacin
de la minera de datos, tambin existe la preocupacin de que podra elimi-
nar parte de la exibilidad necesaria en el tipo de anlisis que llevan a cabo
los investigadores. Por ejemplo, puede que el plan de preanlisis especique
los canales anticipados de impacto de una intervencin a travs de la cadena
de resultados. Sin embargo, una vez que la intervencin se implemente en la
prctica, de pronto puede surgir un conjunto de factores adicionales no anti-
cipados. Por ejemplo, si un gobierno est pensando en implementar una
nueva manera de pagar a los proveedores de cuidados de salud, uno podra
identicar posibles canales de impacto. Sin embargo, sera muy difcil anti-
cipar todos los efectos posibles que esto podra tener. En algunos casos, sera
necesario realizar entrevistas cualitativas con los proveedores para enten-
der precisamente cmo se adaptan a los cambios y cmo esto inuye en el
desempeo. Sera muy difcil incorporar todas estas posibilidades en el plan
de preanlisis por adelantado. En ese caso, los investigadores tendran que
trabajar por fuera del plan de preanlisis original, y no ser penalizados por
ello. En otras palabras, un plan de preanlisis puede otorgar una credibilidad
adicional a las evaluaciones, convirtindolas en conrmaciones de una hip-
tesis en lugar de ser solo investigacin exploratoria; sin embargo, los investi-
gadores deberan poder seguir explorando nuevas opciones que se pueden
convertir en investigacin conrmativa en evaluaciones posteriores.
Falta de replicacin
Hay dos tipos de replicaciones importantes para la evaluacin de impacto. En

primer lugar, en un determinado estudio, los investigadores que no pertene-
cen al equipo de investigacin original deberan poder reproducir los mismos
resultados (o al menos muy similares) que los investigadores originales utili-
zando los mismos datos y anlisis. Las replicaciones de un determinado
resultado de la evaluacin de impacto constituyen una manera de vericar su
validez interna y su ausencia de sesgo. Cuando los estudios o los resultados
no pueden replicarse debido a la falta de disponibilidad de informacin sobre
la codicacin o los datos, existe el riesgo de que los errores y las manipula-
ciones en el anlisis pasen desapercibidos, y de que los resultados imprecisos
sigan inuyendo en las polticas. Afortunadamente, se estn logrando avan-
ces sustanciales en trminos de hacer disponibles los datos, los cdigos y los
protocolos. Cada vez ms revistas arbitradas de ciencias sociales estn
comenzando a exigir que esos datos y cdigos estn disponibles junto con la
publicacin de los resultados. Directrices como las de Promocin de la
Transparencia y la Apertura, desarrolladas por el Centro para la Ciencia
Abierta, estn cambiando lentamente las prcticas y los incentivos. Para ase-
gurar que pueda realizarse la replicacin, los equipos de evaluacin de
impacto tienen que hacer disponibles pblicamente los datos y asegurar que
todos los protocolos (incluido el de aleatorizacin), las bases de datos, y los
cdigos de anlisis de la evaluacin de impacto estn documentados, almace-
nados en condiciones de seguridad y sucientemente detallados.
En segundo lugar, una vez que se completa una evaluacin, debera ser
posible que otros responsables de la poltica pblica e investigadores utili-
cen las intervenciones y protocolos de evaluacin originales y los apliquen
en un contexto diferente o en un momento distinto para ver si los resultados
se mantienen bajo circunstancias diversas. La falta de replicacin de los
resultados de la evaluacin es un asunto serio para los responsables de la
poltica pblica. Por ejemplo, una evaluacin muestra que la introduccin
de computadores en las escuelas tiene resultados sumamente beneciosos,
pero este es el nico estudio que produjo esos resultados y otros investiga-
dores no han podido obtener los mismos resultados positivos en posteriores
evaluaciones de programas similares. Qu debe hacer un responsable de
poltica pblica en ese caso? La falta de replicacin de los resultados puede
deberse a diferentes causas. En primer lugar, quiz sea difcil llevar a cabo
evaluaciones que intenten solo replicar resultados que fueron obtenidos en
un estudio anterior: puede que ni a los investigadores ni a los nanciadores
les interesen los estudios de yo tambin. En segundo lugar, aun cuando
existan la voluntad y los fondos para replicar los estudios, la replicacin no
siempre es posible porque puede que los protocolos (incluido el de aleatori-
zacin), los datos, y los cdigos de anlisis del estudio original no estn dis-
ponibles ni sean lo sucientemente detallados. Se observa un esfuerzo
creciente entre las organizaciones que apoyan las evaluaciones de impacto
para alentar replicaciones en diferentes contextos: por ejemplo, desarro-
llando grupos de estudio sobre temas similares o promoviendo evaluaciones
de impacto de multisitios.
Lista de vericacin: una evaluacin de impacto

tica y creble
Los responsables de la poltica pblica tienen un importante rol que desempe-

ar para asegurar que se creen las condiciones necesarias para una evaluacin
de impacto tica y creble. Concretamente, los responsables de la poltica
pblica tienen la responsabilidad fundamental de asegurar que las reglas de
asignacin del programa sean justas, y pueden pedir al equipo de investiga-
cin una rendicin de cuentas de la transparencia de los mtodos de investi-
gacin. A continuacin, se sugiere una lista de preguntas de vericacin.
Es justa la asignacin a los grupos de tratamiento y comparacin? Hay
grupos con necesidades particularmente acuciantes que deberan recibir
el programa de todas maneras? Quin ser excluido de la evaluacin de
impacto?
El equipo de investigacin ha identicado la JRI o el comit de revisin
tica nacional pertinente?
Permite el calendario de la evaluacin de impacto contar con tiempo
suciente para preparar y presentar el protocolo de investigacin a la JRI
y obtener consentimiento antes de que comience la recopilacin de datos
de sujetos humanos?
El equipo de investigacin present el protocolo de investigacin y el
plan de preanlisis a un registro de pruebas de ciencias sociales?
Existe un procedimiento para asegurar que los elementos clave de la
intervencin estn documentados tal como ocurren en la prctica, y no
solo como estn planicados?
Los responsables de la poltica pblica comprenden que los resultados
de la evaluacin pueden mostrar que la intervencin no fue efectiva, y
estn de acuerdo en que esos resultados sern publicados y no retenidos?
El equipo de evaluacin ha identicado la manera en que se divulgarn
los datos y los resultados de la evaluacin, aun cuando el equipo de inves-
tigacin no consiga publicar los resultados en una revista arbitrada?
Los principios, los problemas y la lista de vericacin denidos en este
captulo pueden contribuir a asegurar que una evaluacin de impacto sea
creble y tica.
Otros recursos

Capacitacin en investigacin con sujetos humanos de los Institutos Naciona-
les de Salud (National Institutes of Health o NIH) de Estados Unidos.
Los NIH ofrecen una capacitacin en lnea que, si bien se centra en las
ciencias mdicas y en Estados Unidos, es muy informativa y se tarda solo
una hora en completarla. Vanse los enlaces: http://phrp.nihtraining.com
/users/login.php y www.ohsr.od.nih.gov.
Capacitacin en investigacin con sujetos humanos a travs de la Iniciativa de
Capacitacin Institucional Colaborativa (CITI) de la Universidad de Miami.
La CITI brinda cursos internacionales en varias lenguas tanto a organiza-
ciones como a individuos, aunque el programa tiene un costo (valor inicial:
US$100 por persona). Vase http://www.citiprogram.com.
Compilacin internacional de normas de investigacin en seres humanos:
Cada ao, el Departamento de Salud y de Servicios Humanos de Estados
Unidos publica una compilacin de leyes, regulaciones y directrices que
rigen la investigacin sobre seres humanos. La edicin de 2015 incluye 113
pases, as como tambin las normas de diversas organizaciones internacio-
nales y regionales. El documento contiene las juntas de revisin institucio-
nal nacionales e internacionales (http://www.hhs.gov/ohrp/international).

Procedimientos para la proteccin de sujetos humanos en investigaciones
apoyadas por la Agencia de los Estados Unidos para el Desarrollo Internacional
(USAID). Vase el enlace http://www.usaid.gov/policy/ads/200/humansub.pdf.
Manual de mejores prcticas en la investigacin transparente en ciencias sociales,
de Garret Christensen, con la asesora de Courtney Soderberg (Center
forOpen Science). Vase el enlace https://github.com/garretchristensen
/BestPracticesManual.
Gua de trabajo de las ltimas mejores prcticas para la investigacin
cuantitativa transparente en ciencias sociales. El manual es actualizado de
manera regular.
Directrices de Promocin de la Transparencia y la Apertura (TOP). Vase el
enlace http://centerforopenscience.org/top/.
Las directrices se pueden encontrar en el sitio web del Center for Open
Science.
Para enlaces a juntas de revisin independientes reconocidas y servicios inde-
pendientes de JRI, vase el Portal de Evaluacin del Banco Interamericano de
Desarrollo (BID): http://www.iadb.org/portalevaluacion.
Para ms informacin sobre la recopilacin de datos, vase el Portal de Eva-
luacin del BID: http://www.iadb.org/portalevaluacion.
Vase la seccin sobre recopilacin de datos en la seccin de proteccin de
sujetos humanos.
Ntese que el enlace de la Association for the Accreditation of Human
Research Protection Programs (AAHRPP) ofrece capacitacin y certi-
cacin para las JRI. Se puede encontrar una lista de las organizaciones
acreditadas en su sitio web.
Para directrices sobre la proteccin de los participantes, vase el Kit de
Herramientas de Evaluacin de Impacto (Impact Evaluation Toolkit) del Banco
Mundial, Mdulo 4 (http://www.worldbank.org/health/impactevaluationtoolkit).
Notas
1. En ausencia de directrices de tica nacional, el investigador y el equipo deberan

orientarse segn la declaracin de Helsinki adoptada por la 29 Asamblea Mdica
Mundial en Tokio (octubre de 1975) y el artculo 7 del Acuerdo Internacional de
Derechos Civiles y Polticos, aprobado por la Asamblea General de las Naciones
Unidas el 16 de diciembre de 1966. Se encontrarn otras fuentes en la Organiza-
cin Mundial de la Salud (OMS) y en el Informe Belmont sobre principios
ticos y las Directrices para la proteccin de seres humanos (1974) (http://
www.hhs.gov/ohrp/policy/belmont.html). Una compilacin internacional de
normas de investigacin sobre seres humanos se puede hallar en http://www
.hhs.gov/ohrp/international.
2. Las directrices de la OMS sobre cmo elaborar un protocolo para una investiga-
cin que cuente con la participacin de seres humanos se pueden encontrar en
http://www.who.int/rpc/research_ethics/guide_rp/en/index.html.

3. Para ms informacin sobre los procedimientos de consentimiento durante la
recopilacin de datos, consltese el Kit de Herramientas de Evaluacin de
Impacto (Impact Evaluation Toolkit) del Banco Mundial.
4. Se puede encontrar ms informacin sobre la asignacin de los ID en el Kit de
Herramientas de Evaluacin de Impacto (Impact Evaluation Toolkit) del Banco
Mundial.
5. Para ms informacin sobre las recomendaciones de la ciencia abierta en el
contexto de la evaluacin de impacto, consltese Miguel et al. (2014).
6. Existen otras tcnicas. Vase, por ejemplo, Anderson (2008).
Anderson, M. L. 2008. Multiple Inference and Gender Differences in the Effects of

Early Intervention: A Reevaluation of the Abecedarian, Perry Preschool, and
Early Training Projects. Journal of the American Statistical Association 103
(484): 148195.
Christensen, G. y C. Soderberg. 2015. The Research Transparency Manual. Berkeley
Initiative for Transparency in the Social Sciences. Disponible en https://github
.com/garretchristensen/BestPracticesManual.
Franco, A., N. Malhotra y G. Simonovits. 2014. Publication Bias in the Social
Sciences: Unlocking the File Drawer. Science 345 (6203): 150205.
Miguel, E., C. Camerer, K. Casey, J. Cohen, K. M. Esterling et al. 2014. Promoting
Transparency in Social Science Research. Science 343: 3031.

CAPTULO 14
Divulgacin de resultados y
generacin de impacto en las
polticas pblicas
Una base de evidencia slida para las polticas

pblicas
Por n se ha completado la ardua tarea de evaluar el programa desde el

comienzo hasta el nal, un esfuerzo de varios aos que requiri recursos
nancieros y humanos considerables. Se han presentado los productos na-
les de la evaluacin, entre ellos un informe de 200 pginas, junto con mlti-
ples anexos. Misin cumplida?
En realidad, ahora se inicia una nueva fase, que consiste en asegurar que
todo este esfuerzo rinda sus frutos y se traduzca en un impacto en las polticas.
Las evaluaciones de impacto se realizan para rendir cuentas de las inversiones
realizadas en el pasado e informar las decisiones de las polticas pblicas hacia
el futuro pensando en un desarrollo ms costo-efectivo, de modo que los
escasos recursos produzcan los mayores retornos sociales posibles. Esas deci-
siones de poltica pblica dependern de un conjunto de factores, que abarcan
desde la economa poltica hasta las posiciones ideolgicas de los usuarios
de la informacin. Sin embargo, las evaluaciones de impacto pueden y
debeninuir en las polticas pblicas proporcionando una slida base de evi-
dencia que oriente los recursos hacia intervenciones efectivas y probadas.
275
Desde las primeras etapas de un nuevo programa, incluso cuando este
est siendo concebido, la evidencia de evaluaciones de impacto existentes
debera desempear un rol central para fundamentar el diseo del programa
y orientar el prximo conjunto de preguntas de la evaluacin.
Concepto clave Sin embargo, el proceso de inuir en las polticas pblicas no suele ocu-
Las evaluaciones de rrir de forma espontnea solo gracias a la generacin de evidencia. En pri-
impacto deben mer lugar las evaluaciones de impacto deben responder a preguntas
responder a las relevantes de las polticas pblicas de manera rigurosa, presentando eviden-
preguntas relevantes
cia prctica a los principales interesados de manera oportuna. Sin embargo,
de las polticas
pblicas con rigor, puede que los responsables de las polticas y los administradores del pro-
aportar evidencia grama no tengan ni el tiempo ni la energa para ahondar en los detalles de un
prctica de manera informe de 200 pginas, y procuren extraer las principales conclusiones y
oportuna a los recomendaciones. La informacin generada a travs de las evaluaciones de
principales
impacto tiene que estar organizada y divulgada de manera que sea fcil-
interesados, y divulgar
la evidencia de forma
mente accesible y utilizable para los encargados de la toma de decisiones.
que sea fcilmente En este captulo, se trata cmo la evaluacin de impacto puede inuir en
accesible y utilizable las polticas pblicas, los grupos clave a los que conviene llegar, y las estrate-
por parte de los gias para comunicar y divulgar informacin para un pblico focalizado de
responsables de las manera que la evaluacin genere un impacto en las polticas pblicas.
decisiones.
El punto de partida para inuir en las polticas es la seleccin de las pre-
guntas relevantes de la evaluacin que sern tiles para tomar decisiones de
polticas pblicas, como se seala en la primera parte de este libro. Durante
las etapas iniciales del diseo de una evaluacin de impacto, es probable que
los responsables de las polticas y los evaluadores comiencen con una lista
larga de preguntas. Estas preguntas deberan ser consensuadas con el princi-
pal grupo de interesados y responsables de las decisiones que, eventualmente,
utilizarn la evaluacin de impacto para tomar decisiones. La lista larga suele
ajustarse y mejorarse con el tiempo para incluir un nmero ms limitado de
preguntas bien formuladas que sean relevantes para las polticas pblicas y
que a su vez puedan responderse mediante una evaluacin de impacto, utili-
zando los mtodos expuestos en la segunda parte de este libro. Lograr simul-
tneamente que los responsables de las polticas denan las preguntas
importantes y que el equipo de evaluacin pondere la viabilidad tcnica de
responderlas es un primer paso crucial para inuir en las polticas.
Una vez que el programa haya comenzado, es probable que la evaluacin de
impacto produzca importantes insumos analticos que pueden servir para fun-
damentar las polticas mucho antes de que el programa y la evaluacin de
impacto hayan dado sus frutos. Un ejemplo habitual es el de las conclusiones de
una encuesta de lnea de base o de un anlisis de los resultados a corto plazo.
Las encuestas de lnea de base a menudo producen los primeros datos exhaus-
tivos y especcos de la poblacin para un programa, y proporcionan estadsti-
cas descriptivas que se pueden incorporar en el diseo del programa y en el
dilogo de polticas. As como un programa puede tener una descripcin gene-
ral de su poblacin focalizada a travs de encuestas nacionales o estudios de
diagnstico, la encuesta de lnea de base brinda la primera informacin deta-
llada sobre subpoblaciones o zonas geogrcas especcas donde el programa
va a operar. Por ejemplo, un programa diseado para mejorar la nutricin
infantil a travs de suplementos nutricionales puede tener estadsticas sobre las
tasas de desnutricin crnica y desnutricin aguda a nivel nacional a partir de
las encuestas existentes, pero la encuesta de lnea de base puede proporcionar
lasprimeras medidas de la situacin nutricional y de los hbitos alimentarios
del grupo de nios que el programa cubrir en su rea de trabajo. Este tipo de
informacin puede ser valiosa para un diseo de intervencin a la medida,
y debe hacerse disponible para el equipo de polticas pblicas de manera
oportuna (idealmente antes de que se implemente la intervencin) con el n
de inuir en el diseo del programa. El recuadro 14.1 presenta un ejemplo
deMozambique.
Recuadro 14.1: El impacto en las polticas pblicas de un modelo

innovador de educacin preescolar en Mozambique
(continuacin del captulo 1)
En el captulo 1 (recuadro 1.2) se present la muchos nios sufran retrasos en diversos

evaluacin de un programa de educacin parmetros, desde lenguaje y comunicacin
preescolar comunitario, de Save the hasta desarrollo cognitivo y socioemocional.
Children, aplicado en Mozambique, la cual La encuesta de lnea de base fue
constituy un insumo fundamental para las presentada por el equipo de evaluacin en
polticas de desarrollo infantil temprano a seminarios y talleres, y se debatieron los
nivel nacional. Sin embargo, antes de que el resultados con responsables de las polticas
programa nalizara, la evaluacin gener de alto nivel, con donantes internacionales y
informacin nueva y reveladora para el con las principales partes interesadas
debate de las polticas en este mbito en el provenientes de la comunidad de desarrollo
pas. La encuesta de lnea de base arroj las infantil temprano (DIT). Los datos generados
primeras medidas de los resultados del a travs de la evaluacin de impacto
desarrollo infantil basadas en la poblacin, corroboraron la necesidad de destinar
utilizando pruebas especializadas de desa- inversiones a este mbito, y desempearon
rrollo infantil adaptadas al contexto de un rol cataltico para movilizar el apoyo a favor
Mozambique, y recopiladas por personal de la agenda de desarrollo infantil en el pas.
especializado. A pesar de que los datos pro- Una vez completada, la evaluacin se divulg
venan de un grupo seleccionado de comuni- a travs de diversos medios, entre ellos notas
dades en una provincia de aquel pas, las informativas de polticas, videos y blogs,
estadsticas de lnea de base proporcionaron algunos de los cuales han sido incorporados
una primera imagen de los resultados de en el sitio web de la Iniciativa Internacional
desarrollo infantil en el pas, mostrando que para la Evaluacin de Impacto (3ie).
Divulgacin de resultados y generacin de impacto en las polticas pblicas 277

Algunas evaluaciones de impacto, sobre todo aquellas que dependen de
fuentes de datos administrativos o de encuestas peridicas, pueden produ-
cir resultados intermedios que retroalimentan al programa mientras este
est siendo implementado. Estos resultados proporcionan informacin y
recomendaciones valiosas sobre cmo los indicadores a lo largo de la trayec-
toria causal cambian a lo largo del tiempo, lo que permite que se ajusten de
manera correspondiente tanto la implementacin del programa como la
programacin en el tiempo de las actividades de evaluacin. Por ejemplo, si
a mitad de un programa queda claro que no hay efectos en los resultados de
corto plazo, puede que se aconseje implementar una evaluacin operativa
para detectar cuellos de botella y poner en marcha acciones correctivas.
Elplazo de la evaluacin podra ajustarse de modo de evitar la realizacin
de una costosa encuesta de seguimiento antes de que los resultados de la
intervencin hayan tenido la chance de producirse. En el ejemplo de la
nutricin infantil, si los anlisis de los datos administrativos sobre la distri-
bucin de los suplementos nutricionales demuestran que estos ltimos no
estn llegando a los beneciarios previstos, el equipo de polticas pblicas
puede recibir una alerta sobre la necesidad de revisar su cadena de suminis-
tro. La encuesta de seguimiento para medir la estatura y el peso de los nios
podra aplazarse hasta varios meses despus de que el programa haya
comenzado a funcionar de manera efectiva, puesto que no hay motivos para
creer que el programa nutricional genere impactos antes si no estaba lle-
gando a sus participantes.
Las evaluaciones de impacto tienden a producir grandes volmenes de
informacin, que abarcan desde los fundamentos tcnicos del diseo de
evaluacin hasta estadsticas descriptivas y anlisis de impacto, junto con
bases de datos, cdigos estadsticos e informes. Es crucial que el equipo de
evaluacin realice un esfuerzo para documentar toda la informacin a lo
largo del ciclo de evaluacin y, en la medida de lo posible, divulgue la docu-
mentacin (no condencial) tcnica relevante en el dominio pblico, por
ejemplo, a travs de un sitio web especializado. Eventualmente, la credibili-
dad de los resultados de la evaluacin depender de la metodologa y del
rigor con que se haya implementado la evaluacin. La plena transparencia
fortalece la abilidad de la evaluacin y su potencial para inuir en las pol-
ticas pblicas.
Si bien la completitud y la transparencia son cruciales, la mayora de los
consumidores de la informacin no ahondarn en detalles. Depender del
equipo de evaluacin elaborar un conjunto manejable de mensajes clave que
resuma los resultados y recomendaciones ms relevantes para las polticas
pblicas, y divulgar estos mensajes de forma congruente entre diferentes
pblicos. La programacin de las actividades de divulgacin tambin es
esencial para generar un impacto en las polticas. A menos que el equipo de
polticas acuerde lo contrario, las rondas iniciales de presentaciones y con-
sultas sobre los resultados de una evaluacin deberan llevarse a cabo inter-
namente, con el personal del programa, los gestores y los responsables de las
polticas pblicas. Un resultado prematuro ltrado al dominio pblico
puede daar la reputacin de un programa entraando perjuicios duraderos
para el impacto de la evaluacin en las polticas.
Elaboracin a la medida de una estrategia de

comunicacin para diferentes pblicos
Hay al menos tres pblicos primarios para las conclusiones de una evalua-
cin de impacto: el personal del programa y los administradores involucra-
dos en el programa especco que se evala; los responsables de las polticas
de alto nivel que utilizarn la evaluacin para fundamentar las decisiones de
nanciamiento y de diseo de las polticas; y la comunidad de prctica, que
en trminos amplios abarca la comunidad acadmica, los responsables del
desarrollo, la sociedad civil (incluidos los medios de comunicacin) y los
participantes en el programa. Cada uno de estos pblicos tendr diferentes
intereses en los resultados de la evaluacin y requerir estrategias de comu-
nicacin elaboradas a su medida cuando se trata de conseguir el objetivo de
servir de fundamento e inuir en las polticas (cuadro 14.1).
Tcnicos y administradores. El primer pblico clave son los miembros del
personal tcnico y operativo, y los administradores que disearon e imple-
mentaron el programa, as como los representantes de instituciones (como
los ministerios o una institucin de nanciamiento) estrechamente asocia-
dos con el proyecto. Estas personas normalmente sern las primeras en
conocer los resultados de la evaluacin, y elaborar comentarios sobre las
interpretaciones y recomendaciones de la evaluacin.
Dado que esta suele ser la primera vez que los resultados ven la luz del da,
es clave programar la divulgacin de informacin entre estos interesados. Por
un lado, es importante compartir los resultados de forma temprana, de modo
que los responsables de las decisiones del programa puedan incorporar cam-
bios y adoptar decisiones de polticas, como aumentar la escala de la inter-
vencin (o disminuirla) o ajustar los componentes del programa para mejorar
el uso de los recursos y alcanzar un mayor impacto. Por otro lado, hay que
hacer una advertencia contra el riesgo de compartir resultados demasiado
preliminares basados en un anlisis parcial o incompleto, dado que dichos
resultados podran estar sujetos a cambios. Su divulgacin podra crear
expectativas entre el personal del programa y precipitar decisiones de las
polticas an no maduras que podran ser caras de revertir en el futuro. Por lo
tanto, debera buscarse un equilibrio adecuado de puntualidad y completitud
Cuadro 14.1 Participacin de grupos clave en el impacto en las polticas: por qu, cundo y cmo
Personal y Expertos en desarrollo,

administradores del Responsables de las acadmicos, grupos de
programa polticas de alto nivel la sociedad civil
Por qu? Se pueden convertir en Necesitan entender por qu Necesitan evidencia del
defensores de la el tema es importante, impacto de los programas
evaluacin de impacto y cmo la evaluacin de de desarrollo con el n de
del uso de evidencia. impacto puede ayudarles a tomar decisiones, disear
tomar mejores decisiones nuevos programas y llevar
y, en denitiva, lo que la a cabo investigacin que
evidencia les dice acerca de contribuya a mejorar vidas.
hacia dnde deberan
orientarse sus energas (y el
nanciamiento disponible).
Cundo? De manera temprana, De manera temprana, al De acuerdo con el programa
incluso antes de que se denir las preguntas de la que se evale, los grupos
implemente el programa, evaluacin y antes de que de la sociedad civil y los
y con interacciones esta comience y, de expertos del desarrollo
continuas y frecuentes. nuevo, cuando se cuente pueden ser importantes
Los datos de lnea de base con los resultados nales. defensores locales. La
se pueden utilizar para Es importante que los informacin debera
elaborar la intervencin a responsables de las divulgarse una vez que se
la medida. Son los polticas pblicas cuente con los resultados
primeros en comentar los comprendan por qu se denitivos y estos hayan
resultados de la lleva a cabo una evaluacin sido aprobados por el
evaluacin. de impacto y cmo personal del programa y los
pueden ayudarles los responsables de las
resultados. polticas pblicas.
Cmo? Introducir el rol de la Estn presentes en los Los eventos y foros
evidencia en la elaboracin talleres nacionales, y pblicos, como seminarios
de las polticas pblicas en buscan reuniones directas y conferencias, documentos
un taller para que los con el personal de nivel de trabajo, artculos en los
administradores del superior para explicar el peridicos, cobertura en los
programa participen en el trabajo. Instan a los medios y materiales
diseo de la evaluacin. encargados del programa, al basados en la red, son
Efectuar un seguimiento personal tcnico y a los medios para llegar a estas
con reuniones en responsables de las polticas audiencias.
momentos clave: de nivel medio a mantener
inmediatamente despus a los ministerios informados
de la recopilacin de datos acerca de la evaluacin de
de lnea de base, luego de impacto. Cuando la
recopilar resultados evidencia ha acabado, se
intermedios y al nal. presenta a los responsables
de las polticas de nivel
superior. Cuando sea
posible, se incluyen anlisis
de costo-benecio o costo-
efectividad y sugerencias
para los prximos pasos.

en la divulgacin inicial de resultados con el equipo del proyecto. Esto suele
cumplirse cuando el equipo de evaluacin ha llevado a cabo un anlisis
exhaustivo y vericaciones de robustez, pero antes de que se formulen los
resultados, la interpretacin y las recomendaciones nales.
Normalmente, al personal y a los encargados del programa les interesarn
tanto los detalles tcnicos de la metodologa de evaluacin como tambin el
anlisis y los elementos particulares de las conclusiones y recomendaciones
presentadas al comienzo. El debate inicial sobre los resultados que se realice
con este grupo puede prestarse para reuniones de estilo taller, con presenta-
ciones del equipo de evaluacin, y disponiendo de tiempo suciente para
responder a preguntas y comentarios de todas las partes. Este debate inicial
suele enriquecer el anlisis nal, fundamenta la interpretacin de resultados
y contribuye a elaborar a la medida las recomendaciones nales, de modo
que sean ms idneas para orientar los objetivos de las polticas del pro-
grama. Los debates iniciales con el personal del programa y los administra-
dores constituyen una buena oportunidad para intercambiar ideas sobre
resultados inesperados o potencialmente polmicos, y proponer recomen-
daciones de polticas pblicas y respuestas anticipndose a la divulgacin
pblica de la evaluacin de impacto.
Los resultados negativos (incluido el encontrar un impacto nulo) o impre-
vistos pueden ser decepcionantes para el personal y los administradores del
programa que han invertido tiempo y energa considerables, pero tambin
contribuyen a la funcin crtica de instar a que se reformulen las polticas.
Por ejemplo, si se descubre que el programa no ha alcanzado su objetivo pri-
mario debido a dicultades en la implementacin, se pueden adoptar medi-
das para abordar esos mbitos y el programa mejorado se puede volver a
evaluar ms tarde. Si el programa no produce impactos en el corto plazo o lo
hace solamente en un subconjunto de resultados, y hay motivos para creer
que se requiere ms tiempo para alcanzar los resultados nales, la evaluacin
puede presentar y defender los resultados iniciales y se pueden planicar
otras medidas en una fecha futura. Por ltimo, si est claro que la interven-
cin no consigue generar los benecios previstos o est provocando un per-
juicio inesperado, los administradores del programa pueden tomar medidas
inmediatas para detener la intervencin o reformular su diseo. De esta
manera, cuando se divulgan los resultados de la evaluacin, los responsables
de las polticas a cargo del programa pueden anunciar medidas correctivas y
formular respuestas con antelacin, anticipndose a las preguntas difciles
que surgirn en los debates de polticas o en los medios.
Responsables de las polticas de alto nivel. El segundo grupo clave son los
responsables de las polticas de alto nivel, que adoptarn decisiones sobre la
base de los resultados de las evaluaciones de impacto como, por ejemplo, si
ampliar, mantener o disminuir el nanciamiento para una intervencin.
Eneste grupo se incluye el Poder Legislativo nacional, los presidentes y pri-
meros ministros, ministros y secretarios principales, juntas de directores
y/o donantes. Este grupo de partes interesadas suele contar con los resulta-
dos de la evaluacin una vez que estos son denitivos y han sido revisados
por el personal y los administradores del programa, y aprobados por exper-
tos tcnicos externos. En esta etapa, el equipo de evaluacin tendr que cen-
trarse en comunicar los resultados y las recomendaciones clave de manera
asequible; los detalles tcnicos de la evaluacin tienen una importancia
secundaria. A los responsables de las polticas de alto nivel les interesar la
traduccin de los impactos en valores econmicamente signicativos
mediante anlisis de costo-benecio, o una comparacin con las interven-
ciones alternativas a travs de anlisis de costo-efectividad. Estos parme-
tros contribuirn a informar a los responsables de las decisiones acerca de si
el programa es una manera able de invertir recursos limitados para impul-
sar un objetivo de desarrollo importante. A los responsables de las polticas
de alto nivel les puede interesar utilizar los resultados para promover su
agenda poltica, como presionar a favor (o en contra) de una determinada
poltica pblica que la evaluacin apoya (o no apoya). El equipo de evalua-
cin puede colaborar con los expertos en comunicacin para asegurar que
los resultados y las recomendaciones relacionadas estn correctamente
interpretados y que los mensajes de la estrategia de comunicacin sigan ali-
neados con las conclusiones de la evaluacin.
La comunidad profesional. El tercer grupo clave para alcanzar un impacto
amplio de las polticas son los consumidores de la evaluacin fuera del
mbito directo del programa y/o del contexto del pas. Este grupo heterog-
neo comprende la comunidad profesional en sectores prximos a la evalua-
cin, e incluye a los profesionales del desarrollo, acadmicos, la sociedad
civil y los formuladores de polticas de otros pases. Los profesionales del
desarrollo ms all del programa especco pueden interesarse en utilizar
los resultados de la evaluacin para fundamentar el diseo de programas
nuevos o existentes. A estos profesionales les interesarn tanto los detalles
de la evaluacin (mtodos, resultados, recomendaciones) como las leccio-
nes operativas y las recomendaciones que puedan contribuir a la implemen-
tacin de sus propios proyectos de forma ms efectiva. Por otro lado, puede
que a la comunidad acadmica le interese ms la metodologa, los datos y los
hallazgos empricos de la evaluacin.
En la sociedad civil destacan dos grupos clave, a saber: los medios y los
participantes en el programa. Informar al pblico de los resultados de una
evaluacin a travs de los medios de comunicacin puede desempear un rol
clave para la rendicin de cuentas en materia de gasto pblico, obtener el
apoyo pblico para las recomendaciones de la evaluacin y llevar a cabo pol-
ticas efectivas. Esto es particularmente cierto en cuanto a las polticas nuevas
e innovadoras, cuyo resultado era inicialmente incierto u objeto de polmicas
en el debate de polticas. Si la evaluacin arroja una luz emprica sobre lo que
hasta ahora haba sido un debate en gran parte terico o ideolgico, puede
convertirse en un poderoso instrumento para el cambio de polticas.
Por ltimo, los esfuerzos de divulgacin deberan incluir a quienes parti-
cipan del programa. Los participantes han invertido su tiempo y energa en
el programa y puede que hayan dedicado un tiempo considerable a propor-
cionar informacin para los nes de la evaluacin. Asegurar que tengan
acceso a los resultados de la evaluacin y que permanezcan informados a
propsito de ello es un gesto pequeo pero signicativo que puede contri-
buir a mantener su inters en el programa y a su disposicin a tomar parte
en futuras evaluaciones.
Divulgacin de los resultados
A continuacin, se aborda una variedad de estrategias que se pueden consi-

derar para informar a estos grupos clave y generar un impacto en las polti-
cas. Idealmente, las primeras etapas de la planicacin de la evaluacin
incluirn una estrategia de divulgacin o de impacto en las polticas. Esta
estrategia debera acordarse desde el comienzo, y debera especicar clara-
mente el objetivo de la evaluacin para las polticas (por ejemplo, amplia-
cin de un modelo de intervencin ms costo-efectivo), el pblico clave al
que la evaluacin intenta llegar, las estrategias de comunicacin usadas y un
presupuesto para realizar actividades de divulgacin. Si bien el formato y
contenido de las actividades y de los productos de la divulgacin variarn
segn cada caso, en el resto de este captulo se presentan algunas sugeren-
cias y orientaciones generales. El recuadro 14.2 incluye una lista de algunos
instrumentos de extensin y divulgacin.
Los informes suelen ser el primer medio para divulgar el conjunto com-
pleto de resultados de la evaluacin. Se recomienda que estos informes ten-
gan una extensin moderada, entre 30 y 50 pginas, e incluyan un resumen
de una pgina, o menos, y un resumen ejecutivo de dos a cuatro pginas con
los principales resultados y recomendaciones. Los detalles tcnicos, la
documentacin relacionada y el anlisis de apoyo como pruebas de robustez
y falsicacin se pueden presentar en anexos o apndices.
La publicacin de una evaluacin de impacto como documento de tra-
bajo acadmico y/o artculo en una revista cientca arbitrada puede ser una
medida nal laboriosa pero muy provechosa para presentar los resultados
de la evaluacin. Las rigurosas revisiones de pares requeridas para el pro-
ceso de publicacin proporcionarn una retroalimentacin valiosa que
mejorar el anlisis y la interpretacin de los resultados, y la publicacin
Recuadro 14.2: Instrumentos de extensin y divulgacin
A continuacin se listan algunos ejemplos de medios para divulgar las evaluaciones de
impacto:
Exposiciones sobre el programa y resultados de la evaluacin.
Videos donde los beneciarios dan su opinin del programa y revelan cmo afecta sus
vidas.
Breves notas informativas en las cuales se explica la evaluacin y se resumen las reco-
mendaciones de polticas.
Blogs de los investigadores y responsables de las polticas que explican la importancia de
la evaluacin.
Informes completos, despus de recibir los resultados nales, con exhaustivos resme-
nes ejecutivos para asegurar que los lectores entiendan rpidamente las principales
conclusiones.
Invitaciones para los medios que permitan a los periodistas ver el programa en accin y
los resultados del informe.
puede transmitir una clara seal a los responsables de las polticas sobre la
calidad y credibilidad de los resultados de una evaluacin.
Sobre la base de la estrategia de divulgacin acordada, los informes y
documentos se pueden publicar en diversos medios, entre ellos, el sitio web
del programa, el sitio web de la institucin evaluadora, como parte de una
serie de documentos de trabajo, revistas acadmicas arbitradas y libros.
Si bien los informes de evaluacin y los documentos acadmicos sirven
como fundamento para la estrategia de divulgacin, su alcance entre un
pblico ms amplio fuera de la comunidad profesional y acadmica puede ser
limitado debido a su extensin y a su lenguaje tcnico. Puede que el equipo de
evaluacin, quizs en colaboracin con los expertos en comunicacin, consi-
dere til producir artculos breves, escritos al estilo de un relato o con un estilo
periodstico, con un lenguaje claro y sencillo para llegar a pblicos ms amplios.
Se pueden dar a conocer artculos breves bajo la forma de notas informativas
de polticas, boletines e infografas. En estas publicaciones, ser particular-
mente til eliminar la jerga tcnica y traducir los resultados en representacio-
nes visualmente atractivas, con imgenes, esquemas y grcos (recuadro 14.3).
Los equipos de evaluacin pueden generar un conjunto de presentacio-
nes que acompaen a los informes escritos y los artculos breves. Las
presentaciones deberan elaborarse a la medida del pblico especco. Un
buen punto de partida es producir una presentacin tcnica para el equipo
del proyecto y el pblico acadmico, y otra presentacin ms breve y menos
Recuadro 14.3: La divulgacin efectiva de las evaluaciones de
impacto
Diversas publicaciones exponen los resultados de las evaluaciones de impacto en un
formato accesible y sencillo. Entre ellos se incluyen dos actualizaciones con un foco regional.
Los resultados de la evaluacin de impacto de programas en Amrica Latina y el Caribe
se recogen en el Panorama de la efectividad en el desarrollo (DEO, por sus siglas en
ingls), publicado anualmente por la Ocina de Planicacin Estratgica y Efectividad en
el Desarrollo del Banco Interamericano de Desarrollo (BID). Los resultados se resumen
en artculos breves, de fcil lectura, que incluyen resmenes infogrcos de una pgina
que explican la pregunta fundamental de la evaluacin de impacto, los mtodos, resulta-
dos y recomendaciones de polticas, utilizando grcos e conos que permiten que los
lectores entiendan los mensajes clave de forma muy rpida e intuitiva. El DEO de 2014
incluye los resultados de evaluaciones de impacto de programas tan diversos como el
turismo en Argentina, la capacitacin laboral en Repblica Dominicana, la productividad
agrcola en Bolivia y las orquestas juveniles en Per.
Africa Impact Evaluation Update, del Banco Mundial, recoge la ltima evidencia de la regin.
En 2013, esta publicacin se centr en el gnero y en 2014, en la agricultura y la tierra.
Fuentes: http://deo.iadb.org y http://www.worldbank.org.
tcnica para los responsables de las polticas y la sociedad civil. Si bien las
principales conclusiones y recomendaciones para las polticas sern las mis-
mas, la estructura y el contenido de estas dos presentaciones tendrn dife-
rencias importantes. La presentacin tcnica debera centrarse en aanzar
la credibilidad de los resultados mediante una exposicin de los mtodos de
evaluacin, los datos y el anlisis, antes de llegar a los resultados y recomen-
daciones. Una presentacin dirigida a los responsables de las polticas debe-
ra poner de relieve el problema del desarrollo que la intervencin se
propone abordar y las implicaciones prcticas de las conclusiones, y tratar
de forma ms supercial los detalles tcnicos.
Para aprovechar el cada vez mayor acceso a Internet de los pases en
desarrollo y las alternativas de bajo costo para producir multimedia, los
equipos de evaluacin tambin pueden contemplar una gama de medios
para divulgar las conclusiones de la evaluacin, entre ellos: los sitios web o
las grabaciones en audio y video. Los videoclips de corta duracin pueden
ser un medio poderoso para transmitir ideas complejas a travs de imge-
nes y sonido, dejando que la historia de la evaluacin se despliegue de una
manera que sea ms rpida y ms plenamente comprensible que la que
utilizan los tpicos medios impresos (recuadro 14.4).
Por ltimo, armado con una variedad de productos de divulgacin, el
equipo de evaluacin debe mostrarse proactivo en la divulgacin de estos
productos a los consumidores dentro del programa, del gobierno y de la
comunidad profesional ms amplia, de modo que la informacin llegue a los
usuarios previstos y pueda ser asimilada en el proceso de toma de decisiones
y el debate de polticas pblicas. El proceso de divulgacin se lleva a cabo
mediante reuniones presenciales entre el equipo de evaluacin y el adminis-
trador del programa, a travs del cabildeo con responsables de las polticas
de alto nivel, as como tambin de presentaciones en seminarios y conferen-
cias donde los acadmicos y miembros de la comunidad profesional se
renen para informarse acerca de los ltimos avances en la investigacin y
la evaluacin del desarrollo, mediante entrevistas y programas de noticias
en la radio y la televisin y, actualmente cada vez ms, a travs de Internet.
Los blogs y las redes sociales en particular pueden ser maneras costo-
efectivas de llegar a grandes cantidades de usuarios potenciales y para
orientar a los lectores hacia un conjunto de productos disponibles relacio-
nados con una determinada evaluacin (recuadro 14.5). Si bien las estrate-
gias particulares variarn segn cada caso, se recomienda una vez ms
planicar y presupuestar los medios y las actividades de divulgacin con
antelacin, de modo que los resultados de la evaluacin puedan llegar a sus
pblicos previstos de manera rpida y efectiva, de modo que as se pueda
maximizar el impacto en las polticas.
Recuadro 14.4: Divulgacin de las evaluaciones de impacto

en lnea
A continuacin, se muestran algunos ejemplos destacados de divulgacin en lnea de los
resultados de una evaluacin de impacto:
La Iniciativa Internacional para la Evaluacin de Impacto (3ie) organiza la evidencia de las
evaluaciones de impacto por sector, e incluye notas informativas de poltica, revisiones
sistemticas y mapas de brechas de evidencia.
El Abdul Latif Jameel Poverty Action Lab (J-Pal) divulga evidencia de evaluaciones de
impacto realizadas por investigadores asociados, y aade notas informativas de polticas,
anlisis de costo-efectividad y enlaces con documentos acadmicos.
La Iniciativa de Desarrollo de la Evaluacin de Impacto (DIME, por sus siglas en ingls)
del Banco Mundial presenta notas breves, boletines e informes con los resultados de las
evaluaciones de impacto de los proyectos de dicha institucin.
El Fondo Estratgico para la Evaluacin de Impacto (SIEF) del Banco Mundial incluye
videos, notas breves y entrevistas.

Recuadro 14.5: Blogs de evaluacin de impacto
Esta lista contiene ejemplos de blogs que recogen con regularidad los resultados de las
evaluaciones de impacto:
El blog de Impacto en el Desarrollo del Banco Mundial.
El blog de Efectividad en el Desarrollo del BID.
El blog de Innovations for Poverty Action.
Otros recursos
Para material de apoyo relacionado con el libro y para hipervnculos de

ms recursos, se recomienda consultar el sitio web de la Evaluacin de
Impacto en la Prctica (http://www.worldbank.org/ieinpractice).
La Iniciativa Internacional para la Evaluacin de Impacto (3ie) y el
Instituto de Desarrollo de Ultramar (ODI, por sus siglas en ingls) han
desarrollado un kit de herramientas de impacto de polticas en lnea con
el n de contribuir a divulgar y utilizar la evidencia de las evaluaciones de
impacto en la toma de decisiones.

Cuarta parte
CMO OBTENER
DATOS PARA UNA
EVALUACIN DE
IMPACTO
La cuarta parte de este libro proporciona orientacin sobre cmo obtener datos
para una evaluacin de impacto, lo que comprende la eleccin de la muestra y
cmo encontrar fuentes de datos adecuadas.
El captulo 15 trata de cmo extraer una muestra de una poblacin de inters

y cmo llevar a cabo clculos de potencia para determinar el tamao adecuado
de la muestra de la evaluacin de impacto. El captulo se centra en la des-
cripcin de la idea fundamental de los muestreos y los clculos de potencia.
Tambin destaca los elementos que los responsables de las polticas tienen que
proporcionar al equipo de investigacin o a los expertos tcnicos responsables
de elaborar los muestreos y los clculos de potencia.
En el captulo 16 se analizan las diversas fuentes de datos que pueden utilizar

las evaluaciones de impacto. All se destaca cundo se pueden usar las fuentes
de los datos existentes, entre ellos los datos administrativos. Dado que nume-
rosas evaluaciones requieren la recopilacin de nuevos datos, en el captulo se
abordan los pasos necesarios para recopilar los datos de una nueva encuesta.
Esto implica determinar quin recopilar los datos, desarrollar instrumentos de
recopilacin de datos y realizar pruebas piloto, llevar a cabo el trabajo de campo
y de control de calidad, y procesar y almacenar datos.
En el captulo 17 se presentan conclusiones de la totalidad del libro. All se revisan

brevemente los elementos centrales de una evaluacin de impacto bien dise-
ada, y se proponen algunos consejos para mitigar los riesgos habituales en la
realizacin de una evaluacin de impacto. Tambin se ofrecen algunas perspecti-
vas del reciente aumento del uso de evaluaciones de impacto y otras iniciativas
de institucionalizacin relacionadas.
CAPTULO 15
La eleccin de una muestra
El muestreo y los clculos de potencia
Una vez que se ha elegido el mtodo para seleccionar el grupo de compara-

cin y estimar el contrafactual, uno de los prximos pasos consiste en deter-
minar qu datos se precisarn, y la muestra necesaria para estimar con
exactitud las diferencias de los resultados entre el grupo de tratamiento y el
grupo de comparacin. En este captulo, se analizar cmo se puede extraer
una muestra de una poblacin de inters (muestreo) y cmo se puede deter-
minar el tamao que debe tener la muestra para proporcionar estimaciones
precisas del impacto del programa (clculos de potencia). El muestreo y
losclculos de potencia requieren habilidades tcnicas especcas y se les
suelen encargar a un experto especializado. En este captulo, se describen
los elementos bsicos de la realizacin de muestreos y clculos de potencia,
y se destacan los elementos que los responsables de las polticas deben
poder proveer a los expertos tcnicos.
Elaboracin de una muestra
El muestreo es el proceso de extraer unidades de una poblacin de inters

para estimar las caractersticas de la poblacin. Suele ser necesario, dado que,
normalmente, no es posible observar y medir directamente los resultados
para toda la poblacin de inters. Por ejemplo, si se desea conocer la altura
291
promedio de los nios menores de 2 aos en un pas, sera muy difcil, costoso
y lento medir a todos los nios de la poblacin. En cambio, se puede utilizar
una muestra de nios extrada de la poblacin para inferir las caractersticas
promedio de esa poblacin (grco 15.1).
El proceso mediante el cual se extrae una muestra de la poblacin de
inters es crucial. Los principios de muestreo sirven de orientacin para
extraer muestras representativas. En la prctica, hay que seguir tres grandes
pasos para extraer una muestra:
1. Determinar la poblacin de inters.
2. Denir un marco muestral.
3. Extraer el nmero de unidades requeridas por los clculos de potencia
del marco muestral.
En primer lugar, se debe denir claramente la poblacin de inters. Esto
requiere especicar con precisin la unidad en la poblacin de inters para
la cual se medirn los resultados, y detallar con claridad la cobertura geo-
grca o cualquier otro atributo pertinente que caracterice a la poblacin
de inters. Por ejemplo, si se est gestionando un programa de desarrollo
infantil temprano, puede que resulte de inters medir el impacto del pro-
grama en los resultados cognitivos de los nios de entre 3 y 6 aos en todo
el pas, solo para los nios que viven en zonas rurales o solo para los nios
matriculados en preescolar.
Grco 15.1 Uso de una muestra para inferir las caractersticas promedio de
una poblacin de inters
Poblacin de inters
Inferir caractersticas
de la poblacin sobre
la base la muestra
Muestra

En segundo lugar, una vez que se haya denido la poblacin de inters,
se debe establecer un marco muestral. El marco muestral es la lista ms
exhaustiva que se puede obtener de las unidades en la poblacin de inters.
Idealmente, el marco muestral debera coincidir exactamente con la
poblacin de inters. Un censo totalmente actualizado de la poblacin de
inters constituira un marco muestral ideal. En la prctica, se suelen utili-
zar como marcos muestrales las listas existentes, como los censos de pobla-
cin, los censos de instalaciones o los registros de inscritos.
Se requiere un marco muestral adecuado para asegurar que las conclu- Concepto clave
siones a las que se llegue mediante el anlisis de una muestra se puedan Un marco muestral es
generalizar para el conjunto de la poblacin. De hecho, un marco muestral la lista ms exhaustiva
que no coincida exactamente con la poblacin de inters crea un sesgo de que se puede obtener
de las unidades en la
cobertura, como lo ilustra el grco 15.2. Si se produce un sesgo de cober-
poblacin de inters.
tura, los resultados de la muestra no tienen validez externa para el conjunto Se produce un sesgo
de la poblacin de inters sino nicamente para la poblacin incluida en el de cobertura cuando
marco muestral. La medida en que las estadsticas calculadas a partir de la el marco muestral no
muestra se pueden generalizar a toda la poblacin de inters depende de la corresponde
magnitud del sesgo de cobertura, es decir: de la falta de coincidencia entre el perfectamente a la
poblacin de inters.
marco muestral y la poblacin de inters.
Los sesgos de cobertura constituyen un riesgo, y la creacin de marcos
muestrales requiere un esfuerzo riguroso. Por ejemplo, los datos del censo
pueden contener la lista de todas las unidades de una poblacin. Sin
embargo, si ha transcurrido demasiado tiempo entre el censo y el momento
Grco 15.2 Un marco muestral vlido cubre el conjunto de la poblacin

de inters
Marco muestral
vlido
Marco muestral
no vlido
Poblacin
de inters
La eleccin de una muestra 293

en que se recopilaron los datos de la muestra, el marco muestral ya no
estar actualizado. Adems, los datos del censo pueden no contener su-
ciente informacin sobre atributos especcos para construir un marco
muestral. Si la poblacin de inters est compuesta por nios que asisten a
nivel inicial, y el censo no incluye datos sobre la matrcula preescolar, se
Concepto clave requeriran datos complementarios de matrcula o registros de los estable-
El muestreo es el cimientos educativos.
proceso por el cual las Una vez identicada la poblacin de inters y un marco muestral, es
unidades se extraen de
necesario elegir un mtodo para elaborar la muestra. Se pueden utilizar
un marco muestral. El
muestreo probabilstico diversos procedimientos alternativos.
asigna una probabili- Los mtodos de muestreo probabilstico son los ms rigurosos, dado
dad bien denida a que asignan una probabilidad bien denida para cada unidad del marco
cada unidad del marco muestral. Los tres principales mtodos de muestreo probabilstico son los
muestral. siguientes:
Muestreo aleatorio. Todas las unidades de la poblacin tienen exacta-
mente la misma probabilidad de ser extradas.1
Muestreo aleatorio estraticado. La poblacin se divide en dos grupos
(porejemplo, hombres y mujeres) y se lleva a cabo un muestreo aleatorio
en cada grupo. Como consecuencia, todas las unidades en cada grupo
(o estrato) tienen la misma probabilidad de ser extradas. Siempre y
cuando todos los grupos sean lo sucientemente grandes, el muestreo
estraticado permite formular inferencias acerca de los resultados
no solo a nivel de la poblacin, sino tambin dentro de cada grupo.
Elmuestreo estraticado es til cuando se quiere elaborar una muestra
de los subgrupos pequeos en la poblacin (por ejemplo, las minoras)
con el n de estudiarlos ms en detalle. La estraticacin es esencial para
las evaluaciones que buscan comparar los impactos del programa entre
esos subgrupos.
Muestreo de clusters. Las unidades se agrupan en clusters (conglomerados)
y se extrae una muestra aleatoria de los mismos. Posteriormente, o todas
las unidades en esos clusters constituyen la muestra, o bien se extrae un
cierto nmero de unidades del cluster de forma aleatoria. Esto signica
que cada cluster tiene una probabilidad bien denida de ser seleccionado y
las unidades dentro de un cluster seleccionado tambin tienen una proba-
bilidad bien denida de ser extradas.
En el contexto de una evaluacin de impacto, el procedimiento para
extraeruna muestra a menudo est determinado por las reglas de elegibili-
dad del programa que se evala. Como se ver en el debate sobre el tamao
de la muestra, si la unidad viable ms pequea de implementacin es
ms grande que la unidad de observacin, la asignacin aleatoria de los
benecios crear clusters. Por este motivo, el muestreo de clusters aparece a
menudo en los estudios de evaluaciones de impacto.
El muestreo no probabilstico puede provocar graves errores de muestreo.
Por ejemplo, supngase que se emprende una encuesta nacional pidiendo a
un grupo de entrevistadores que recopilen datos de los hogares de las
viviendas ms prximas a la escuela en cada pueblo. Cuando se utiliza un
procedimiento de muestreo no probabilstico de este tipo, es probable que
la muestra no sea representativa del conjunto de la poblacin de inters.
Concretamente, se producir un sesgo de cobertura, dado que las viviendas
remotas no sern estudiadas.
Es necesario prestar mucha atencin al marco muestral y al procedi-
miento de muestreo para establecer si los resultados obtenidos de una
determinada muestra se pueden generalizar al conjunto de la poblacin de
inters. Aun cuando el marco muestral tenga perfecta cobertura y se utilice
un procedimiento de muestreo probabilstico, los errores de no muestreo
tambin pueden afectar la validez interna y externa de la evaluacin de
impacto. Los errores de no muestreo se tratan en el captulo 16. Por ltimo,
en ocasiones se observa una confusin entre el muestreo aleatorio y la asig-
nacin aleatoria. En el recuadro 15.1 se explica con claridad que ambos son
muy diferentes.
En el resto de este captulo, se examina la importancia que entraa el
tamao de la muestra para la precisin de las evaluaciones de impacto.
Como se ver con mayor exactitud, se requieren muestras relativamente
Recuadro 15.1: El muestreo aleatorio no es suciente para la

A veces se produce una confusin entre el obtendra una muestra aleatoria de partici-
muestreo aleatorio y la asignacin aleatoria. pantes y una muestra aleatoria de no partici-
Qu pasara si alguien comenta que est pantes. Si los participantes y los no
implementando una evaluacin de impacto participantes tienen diferentes caractersti-
entrevistando a una muestra aleatoria de cas, tambin lo tendr la muestra de partici-
participantes y no participantes? Supngase pantes y no participantes. El muestreo
que observa a un grupo de individuos que aleatorio no hace que dos grupos no compa-
participan de un programa de empleo y a un rables sean comparables y no proporciona
grupo de individuos que no participan en el validez interna para la evaluacin de impacto.
programa. Qu pasara si se tomara una Este es el motivo por el que el muestreo
muestra aleatoria de cada uno de estos dos aleatorio no es suciente para la evaluacin
grupos? El primer grco ilustra que se de impacto.

Recuadro 15.1: El muestreo aleatorio no es suciente para la evaluacin de impacto (contina)
Grco B15.1.1 Muestreo aleatorio entre grupos no comparables de participantes y

no participantes
Participantes de un programa No participantes
Como debera quedar claro a partir del comparacin que no lo ser. El proceso de
debate que se desarrolla en la segunda aleatorizacin de un programa que se exhibe
parte, la asignacin aleatoria de los benecios en el grco B15.1.2 es diferente del proceso
de un programa es diferente del muestreo de muestreo aleatorio descrito en el grco
aleatorio. El proceso de asignacin aleatoria B15.1.1. Como se seal en la segunda
parte de una poblacin de inters elegible y parte, cuando la asignacin aleatoria est
utiliza un procedimiento de aleatorizacin bien implementada, contribuye a la validez
para asignar las unidades (que normalmente interna de la evaluacin de impacto. El
son personas o grupos de personas, como muestreo aleatorio puede ser til para
nios en una escuela) de la poblacin asegurar la validez externa, en la medida en
elegible a un grupo de tratamiento que ser que la muestra se extrae aleatoriamente de
objeto de una intervencin, y a un grupo de la poblacin de inters.

Recuadro 15.1: El muestreo aleatorio no es suciente para la evaluacin de impacto (contina)
Grco B15.1.2 Asignacin aleatoria de los benecios de un programa entre un

grupo de tratamiento y un grupo de comparacin
Poblacin elegible
Comparacin
miento
Grupo de tratamiento G
Grupo de comparacin
(participantes del programa) (no participantes del programa)
ms grandes para obtener estimaciones precisas de las caractersticas de la

poblacin. Tambin se requieren muestras ms grandes para poder obtener
estimaciones precisas de las diferencias entre grupos de tratamiento y de
comparacin, es decir, para estimar el impacto de un programa.
La decisin sobre el tamao de la muestra de

una evaluacin de impacto: clculos de potencia
Como ya se seal, el muestreo describe el proceso para elaborar una

muestra de unidades de una poblacin de inters a n de estimar las carac-
tersticas de esa poblacin. Las muestras ms grandes dan estimaciones ms
precisas de las caractersticas de la poblacin. De qu tamao, exacta-
mente, tienen que ser las muestras para una evaluacin de impacto?

Los clculos para determinar el tamao de la muestra se denominan clcu-
los depotencia. Aqu se analiza la idea bsica que subyace a los clculos de
potencia a partir del caso ms sencillo, a saber: una evaluacin realizada
utilizando un mtodo de asignacin aleatoria, para probar la efectividad de
un programa en relacin con un grupo de comparacin que no recibe una
intervencin, y suponiendo que el incumplimiento no es un problema.2
Alnal del captulo, se abordan brevemente otras consideraciones ms all
de este caso sencillo.
El fundamento de los clculos de potencia
Los clculos de potencia indican el tamao mnimo de la muestra que es

necesario para llevar a cabo una evaluacin de impacto y para responder de
forma convincente a la pregunta de inters para las polticas. Concretamente,
los clculos de potencia se pueden utilizar para:
Evaluar si las bases de datos existentes son sucientemente grandes
parallevar a cabo una evaluacin de impacto.
Evitar recopilar pocos datos. Si la muestra es demasiado pequea, puede
que no sea posible detectar un impacto positivo aunque existiera y, por
lo tanto, se puede llegar a la conclusin de que no ha tenido efecto. Esto
podra provocar una decisin de poltica para eliminar el programa, lo
cual sera perjudicial.
Contribuir a tomar decisiones a propsito del tamao adecuado de la
muestra. Los tamaos ms grandes de la muestra proporcionan estima-
ciones ms precisas de los impactos del programa, pero la recopilacin de
informacin puede ser muy onerosa. Los clculos de potencia proporcio-
Concepto clave nan insumos clave para evaluar el equilibrio entre los costos requeridos
Los clculos de
para recopilar ms datos y los benecios de una mayor precisin en la
potencia proporcionan evaluacin de impacto.
un indicador de la
muestra ms pequea
Los clculos de potencia constituyen una indicacin de la muestra ms
con la que es posible pequea (y el presupuesto ms bajo) con el que es posible medir el
estimar con precisin impacto de un programa; es decir, la muestra ms pequea que permitir
el impacto de un detectar diferencias signicativas en los resultados entre los grupos de
programa; a saber, la tratamiento y comparacin. Por lo tanto, los clculos de potencia son
muestra ms pequea
cruciales para determinar cules son los programas que tienen xito y
que permitir detectar
diferencias signicati- cules no.
vas en los resultados Como se seal en el captulo 1, la pregunta bsica de la evaluacin de
entre los grupos de impacto es: Cul es el impacto o efecto causal de un programa en un resul-
tratamiento y tado de inters? La sencilla hiptesis incorporada en esa pregunta puede ser
comparacin. reformulada de la siguiente manera: El impacto del programa es diferente
de cero? En el caso de la asignacin aleatoria, responder a esta pregunta
requiere dos pasos:
1. Estimar los resultados promedio para los grupos de tratamiento y
comparacin.
2. Valorar si existe una diferencia entre el resultado promedio del grupo de
tratamiento y el resultado promedio del grupo de comparacin.
A continuacin, se analizar cmo calcular los resultados promedio para
cada grupo, y luego, cmo comprobar si hay una diferencia entre los dos
grupos.
Estimacin de resultados promedio para los grupos de

tratamiento y comparacin
Supngase que se debe estimar el impacto de un programa de nutricin en

el peso de los nios a los 2 aos, y que hay 200.000 nios elegibles para el
programa. Del total de nios elegibles, 100.000 fueron asignados de forma
aleatoria para participar en el programa. Los 100.000 nios elegibles que no
fueron asignados aleatoriamente al programa sirven como grupo de compa-
racin. Como primer paso, habr que estimar el peso promedio de los nios
que participaron y de los que no participaron.
Para determinar el peso promedio de los nios que participaron, se
podra pesar a cada uno de los 100.000 nios participantes y luego calcu-
lar el promedio. Desde luego, sera un procedimiento sumamente costoso.
Afortunadamente, no es necesario pesar a cada nio. El promedio se
puede estimar utilizando el peso promedio de una muestra extrada de la
poblacin de los nios que participan.3 Cuantos ms nios haya en
la muestra, ms cerca estar el promedio estimado del promedio real.
Cuando una muestra es pequea, el peso promedio constituye una esti-
macin muy imprecisa del promedio en la poblacin. Por ejemplo,
unamuestra de dos nios no dar una estimacin precisa. En cambio, una
muestra de 10.000 nios producir una estimacin ms precisa mucho
ms cercana al verdadero peso promedio. En general, cuantas ms obser-
vaciones haya en la muestra, ms precisas sern las estadsticas obtenidas
de la muestra (grco 15.3).4
Por lo tanto, se sabe que con una muestra ms grande se obtendr una
imagen ms exacta de la poblacin de los nios que participan. Lo mismo
ocurrir con los nios que no participan: a medida que crece el tamao
de la muestra de estos ltimos, se sabe con mayor precisin cmo es esa
poblacin. Pero por qu habra esto de importar? Si se puede estimar el
resultado promedio (el peso) de los nios que participan y no participan
Grco 15.3 Una muestra ms grande tiene ms probabilidades de
parecerse a la poblacin de inters
Una muestra
pequea
Poblacin de inters
Una muestra
grande
con ms precisin, tambin se podr saber con ms precisin la diferen-

cia de peso entre ambos grupos, y eso es el impacto del programa. Dicho
de otra manera, si solo se tiene una idea vaga del peso promedio de los
nios en los grupos de pequeos que participan (tratamiento) y que no
participan (comparacin), cmo se podr tener una idea precisa de la
diferencia de peso de los dos grupos? La verdad es que no se puede. En
la siguiente seccin, se examina esta idea de una manera ligeramente
msformal.
Comparacin de los resultados promedio entre los grupos de

tratamiento y comparacin
Una vez que se haya estimado el resultado promedio (el peso) del grupo
de tratamiento (los nios que participan seleccionados por asignacin
aleatoria) y el grupo de comparacin (los nios que no participan seleccio-
nados por asignacin aleatoria), se puede proceder a determinar si los dos
resultados son diferentes. Esta parte est clara: se restan los promedios y
se calcula la diferencia. En trminos estadsticos, la evaluacin de impacto
pone a prueba la hiptesis nula (o por defecto) en contraste con la hiptesis
alternativa.
La hiptesis nula es la hiptesis de que el programa no tiene un impacto.
Se expresa como:
H0: impacto o diferencia entre el resultado en el grupo de tratamiento y
comparacin = 0.
Ha: impacto o diferencia entre el resultado en el grupo de tratamiento y

comparacin 0.
Imagnese que en un ejemplo de un programa de nutricin se comienza

con una muestra de dos nios tratados y dos nios de comparacin. Con una
muestra tan pequea, la estimacin del peso promedio de los nios tratados
y los nios de comparacin y, por lo tanto, la estimacin de la diferencia
entre los dos grupos, no ser demasiado able. Puede vericarse esto extra-
yendo diferentes muestras de dos nios del grupo de tratamiento y dos
nios del grupo de comparacin. Lo que se encontrar es que el impacto
estimado del programa vara mucho.
Al contrario, imagnese que se comienza con una muestra de 1.000
nios tratados y 1.000 nios del grupo de comparacin. Como se seal, las
estimaciones del peso promedio de ambos grupos sern mucho mspreci-
sas. Por lo tanto, la estimacin de la diferencia entre los dos grupos tambin
lo ser.
Por ejemplo, grese que se observa que el peso promedio en la muestra
de los nios del tratamiento (que participan) es de 12,2 kilos, y el promedio
de los nios en la muestra de comparacin (que no participan) es de 12,0
kilos. La diferencia entre ambos grupos es de 0,2 kilos. Si estas cifras corres-
pondieran a muestras de dos observaciones cada una, no se sabra bien si el
impacto del programa es verdaderamente positivo porque esos 0,2 kilos
podran deberse a la falta de precisin en las estimaciones. Sin embargo,
si estas cifras provienen de muestras de 1.000 observaciones cada una,
aumentara la conanza de que se acercan bastante al verdadero impacto
del programa, que en este caso sera positivo.
Por lo tanto, la pregunta clave es: Exactamente qu tamao debe tener
la muestra para permitirnos saber que un impacto estimado positivo se
debe alverdadero impacto del programa y no a una falta de precisin en las
estimaciones?
Dos errores potenciales en las evaluaciones de impacto
Cuando se prueba si un programa tiene impacto, se pueden cometer dos

tipos de errores. Se comete un error de tipo I si una evaluacin concluye que
el programa ha tenido impacto, cuando en realidad no lo ha tenido. En el
caso de la intervencin hipottica en nutricin, esto ocurrira si usted, como
miembro del equipo de evaluacin, concluyera que el peso promedio de los
Concepto clave nios de la muestra tratada es superior al de los nios de la muestra de com-
Un error de tipo I ocurre paracin, aunque el peso promedio de los pequeos en las dos poblaciones
cuando una evaluacin es, de hecho, igual y las diferencias observadas eran pura coincidencia. En
llega a la conclusin de este caso, el impacto positivo que se observ provendra nicamente de la
que un programa ha
falta de precisin de las estimaciones.
tenido impacto, cuando
en realidad no lo ha Un error de tipo II es el tipo contrario de error. Se produce cuando una
tenido. Un error de evaluacin llega a la conclusin de que el programa no ha tenido impacto,
tipo II se produce cuando en realidad s lo ha tenido. En el caso de la intervencin en nutricin,
cuando una evaluacin esto ocurrira si se concluyera que el peso promedio de los nios en las dos
llegar la conclusin de
muestras es el mismo, aunque el peso promedio de los nios de la poblacin
que el programa no ha
tenido impacto cuando,
de tratamiento es, de hecho, superior al de los nios del grupo de compara-
de hecho, s lo ha cin. Una vez ms, el impacto debera haber sido positivo, pero debido a
tenido. lafalta de precisin de las estimaciones, se llega a la conclusin de que el
programa ha tenido un impacto cero.
Cuando se prueba la hiptesis de que un programa ha tenido impacto, los
estadsticos pueden limitar el tamao de los errores de tipo I. La probabilidad
de un error de tipo I se puede establecer mediante un parmetro denominado
el nivel de signicancia. El nivel de signicancia suele jarse en 5%, lo que
quiere decir que se puede tener un 95% de conanza en llegar a la conclusin
de que el programa ha tenido un impacto. Si a usted le preocupa mucho
cometer un error de tipo I, puede establecer un nivel de signicancia menor:
por ejemplo, del 1%, de manera de tener un 99% de conanza de llegar a la
conclusin de que el programa ha tenido impacto.
Sin embargo, los errores de tipo II tambin preocupan a los responsables
de las polticas. Numerosos factores inuyen en la probabilidad de cometer
un error de tipo II, pero el tamao de la muestra es crucial. Si el peso pro-
medio de 50.000 nios tratados es el mismo que el peso promedio de 50.000
nios de comparacin, es probable que se pueda concluir que el programa
no ha tenido impacto. Al contrario, si en una muestra de dos nios del grupo
de tratamiento estos pesan en promedio lo mismo que en el caso de la
Concepto clave
muestra de dos nios del grupo de comparacin, es ms difcil llegar a una
La potencia es la
probabilidad de
conclusin able. El peso promedio es similar porque la intervencin
detectar un impacto ha tenido impacto o porque los datos no son sucientes para comprobar la
cuando, de hecho, este hiptesis en una muestra tan pequea? Las muestras grandes reducen
existe. Una evaluacin laprobabilidad de que solo se observe a los nios que pesan lo mismo por
de impacto tiene una una cuestin de (mala) suerte. En las muestras grandes, la diferencia de
alta potencia si hay un
promedios entre la muestra tratada y la muestra de comparacin propor-
bajo riesgo de que no
se detecten los ciona una mejor estimacin de la verdadera diferencia de los promedios
impactos reales del entre todas las unidades tratadas y todas las unidades de comparacin.
programa; es decir, La potencia (o potencia estadstica) de una evaluacin de impacto es la
de cometer un error probabilidad de detectar una diferencia entre los grupos de tratamiento y
de tipo II.
comparacin cuando esta de hecho existe. Una evaluacin de impacto tiene
una alta potencia si hay un bajo riesgo de no detectar verdaderos impactos
del programa, es decir, de cometer un error de tipo II. Los ejemplos anterio-
res muestran que el tamao de la muestra es un factor determinante crucial
de la potencia de una evaluacin de impacto. Las secciones siguientes ilus-
trarn ms detenidamente este punto.
Por qu los clculos de potencia importan en

las polticas pblicas
El objetivo del clculo de potencia consiste en determinar el tamao de una

muestra para evitar llegar a la conclusin de que un programa no ha tenido
impacto, cuando de hecho s lo ha tenido (error de tipo II). La potencia de
una prueba es igual a 1 menos la probabilidad de un error de tipo II.
Una evaluacin de impacto tiene una potencia elevada si es poco proba-
bleque se produzca un error de tipo II, lo que signica que es poco probable
que usted se sienta decepcionado por los resultados que muestran que el pro-
grama que se evala no ha tenido impacto, cuando en realidad s lo ha tenido.
Desde una perspectiva de polticas, las evaluaciones de impacto con insu-
ciente potencia, con una alta probabilidad de errores de tipo II, no solo
son intiles sino que tambin pueden resultar muy onerosas. Una alta
probabilidad de un error de tipo II pone en peligro el potencial de una eva-
luacin de impacto de identicar resultados estadsticamente signicativos.
Por lo tanto, destinar recursos a evaluaciones de impacto sin suciente
potencia es una inversin riesgosa.
Las evaluaciones de impacto sin suciente potencia tambin pueden
tener graves consecuencias prcticas. Por ejemplo, en la intervencin
hipottica en nutricin anteriormente mencionada, si se llegara a la
conclusin de que el programa no fue efectivo, aunque s lo fue, los respon-
sables de las polticas podran poner n a un programa que, de hecho,
benecia a los nios. Por lo tanto, es crucial minimizar la probabilidad de
errores de tipo II utilizando muestras lo sucientemente grandes en las
evaluaciones de impacto. Por esto es tan fundamental y pertinente llevar a
cabo clculos de potencia.
Los clculos de potencia paso a paso
A continuacin, se explican los principios bsicos de los clculos de potencia,

con eje en el caso sencillo de un programa de asignacin aleatoria. Para llevar a
cabo clculos de potencia se requiere estudiar las siguientes cinco preguntas:
1. El programa funciona mediante clusters?
2. Cul(es) es/son los indicadores de resultados?
3. Cul es el nivel mnimo de impacto que justicara la inversin hecha en
la intervencin?
4. Cul es la media de resultado para la poblacin de inters? Cul es la
varianza subyacente del indicador de resultado?
5. Cules son los niveles razonables de potencia estadstica y de signicancia
estadstica en la evaluacin que se lleva a cabo?
Cada una de estas preguntas es vlida para el contexto especco de las
polticas en el que se ha decidido llevar a cabo la evaluacin de impacto.
El primer paso en los clculos de potencia consiste en determinar si el pro-
grama que se quiere evaluar genera clusters a lo largo de su implementacin.
Una intervencin cuyo nivel de intervencin (a menudo, lugares) es diferente
del nivel al que se querran medir los resultados (a menudo, personas) genera
clusters en torno al lugar de la intervencin. Por ejemplo,puede que sea nece-
sario implementar un programa en el nivel del hospital, escuela o comunidad
(en otras palabras, a travs de clusters), pero el impacto se mide en los
pacientes, alumnos o habitantes de la comunidad (vase el cuadro 15.1).5
Cuando una evaluacin de impacto genera clusters, es el nmero de estos
ltimos lo que determina en gran parte el tamao de la muestra til. En
cambio, el nmero de individuos en los clusters importa menos. Se volver
sobre sobre esto ms adelante.
La naturaleza de cualquier dato de la muestra construido a partir de
programas que estn conglomerados es algo diferente de las muestras
obtenidas a partir de programas que no lo estn. Como consecuencia, los
clculos de potencia comprendern pasos ligeramente diferentes, depen-
diendo de si un programa asigna aleatoriamente los benecios entre los
clusters o sencillamente asigna los benecios aleatoriamente entre todas
las unidades de una poblacin. Se analizar cada situacin en su momento.
Se comienza ahora con los principios de los clculos de potencia en
ausencia de clusters, es decir, cuando el tratamiento se asigna al nivel
enque se observan los resultados. Luego se seguir adelante para tratar los
clculos de potencia cuando hay clusters.
Cuadro 15.1 Ejemplos de clusters
Nivel al que se asignan Unidad en que se

Benecio los benecios (cluster) miden los resultados
Transferencias monetarias Pueblo Hogares
Tratamiento anti malaria Escuela Individuos
Programa de capacitacin Barrio Individuos

Clculos de potencia sin clusters
Supngase que se ha resuelto la primera pregunta establecindose que los

benecios del programa no se asignen por cluster. En otras palabras, el pro-
grama que se evala asigna de forma aleatoria los benecios entre todas las
unidades en una poblacin elegible.
En el segundo paso, se deben identicar los indicadores de resultado ms
importantes para los cuales ha sido diseado el programa. Estos indicado-
res derivan del objetivo del programa, de una teora del cambio y de la pre-
gunta fundamental de la investigacin de la evaluacin, como se seal en la
primera parte. Los clculos de potencia tambin ayudarn a entender el
tipo de indicadores ms adecuados para las evaluaciones de impacto. En
realidad, como se ver ms adelante, se pueden requerir muestras de diver-
sos tamaos para medir impactos en diferentes indicadores.
Tercero, se debe determinar el impacto mnimo que justicara la inver-
sin realizada en la intervencin. Se trata sobre todo de una pregunta de
polticas pblicas, ms que de una pregunta tcnica. Un programa de trans-
ferencias monetarias es una inversin provechosa si reduce la pobreza en
5%, 10% o 15%? La implementacin de un programa de mercado laboral
activo vale la pena si aumenta los ingresos en 5%, 10% o 15%? La respuesta
es sumamente especca del contexto, pero en todos los casos es necesario
determinar el cambio en los indicadores de resultados que justicara la
inversin hecha en el programa. Dicho de otra manera, cul es el nivel
deimpacto por debajo del cual una intervencin debera considerarse no
exitosa? La respuesta a esa pregunta le dar el efecto mnimo detectable que
la evaluacin de impacto tiene que ser capaz de identicar. Responder a esta
pregunta depender no solo del costo del programa y del tipo de benecios
que proporciona, sino tambin del costo de oportunidad de no invertir
fondos en una intervencin alternativa.
Si bien los efectos mnimos detectables se pueden basar en objetivos
depolticas pblicas, es posible utilizar otros enfoques para establecerlos.
Puede que sea til tomar como referencia efectos mnimos detectables en
relacin con resultados de los estudios en programas similares para arrojar
luz sobre la magnitud de los impactos que se pueden esperar. Por ejemplo,
las intervenciones en educacin suelen medir los benecios en trmi-
nosdepuntuaciones de las pruebas estandarizadas. Los estudios existentes
demuestran que un aumento de 0,1 desviaciones tpicas es relativamente
pequeo, mientras que un aumento de 0,5 es relativamente grande. Como
alternativa, se pueden llevar a cabo simulaciones ex ante para evaluar la
gama de impactos que son realistas bajo diversas hiptesis. En el captulo 1
se presentaron ejemplos de simulaciones ex ante para programas de trans-
ferencias monetarias condicionadas. Por ltimo, los anlisis econmicos ex

Concepto clave ante pueden arrojar luz sobre el tamao de los impactos que se necesitaran
El efecto mnimo para que la tasa de retorno de una determinada inversin sea suciente-
detectable (EMD) es el mente alta. Por ejemplo, los aumentos de los ingresos anualizados genera-
tamao de efecto que dos por un programa de capacitacin laboral tendran que ser superiores a
una evaluacin de la tasa de inters prevalente en el mercado.
impacto est diseada
Como se comprender, es ms fcil identicar una gran diferencia entre
para estimar para un
determinado nivel de dos grupos que identicar una diferencia pequea. Para que una evaluacin
signicancia y de impacto identique una pequea diferencia entre los grupos de trata-
potencia. Ceteris miento y comparacin, se necesitar una estimacin muy precisa de la dife-
paribus, se necesitan rencia de los resultados medios entre los dos grupos. Esto requiere una
muestras ms grandes
muestra grande. Como alternativa, en las intervenciones que se consideran
para que una
viables solo si generan grandes cambios en los indicadores de resultado, las
detecte diferencias muestras necesarias para llevar a cabo una evaluacin de impacto sern ms
ms pequeas entre pequeas. Sin embargo, el efecto mnimo detectable debera jarse de
los grupos de manera conservadora, dado que es menos probable que se detecte cualquier
tratamiento y impacto menor que el efecto mnimo deseado.
comparacin o para
Cuarto, para llevar a cabo clculos de potencia, se le debe pedir a un
detectar diferencias en
un resultado ms experto que estime algunos parmetros bsicos, como el promedio de la
variable. lnea de base y una varianza de los indicadores de resultado. Estos valores
de referencia deberan preferiblemente obtenerse de los datos recopilados
en un contexto similar a aquel en el cual se implementar el programa que
se estudia, o de una encuesta piloto en la poblacin de inters.6 Es muy
importante sealar que cuanto ms variables sean los resultados de inters,
mayor ser la muestra que se necesitar para estimar un efecto de trata-
miento preciso. En el ejemplo de la intervencin hipottica en nutricin, el
peso de los nios es el resultado de inters. Si todos los individuos pesan lo
mismo en la lnea de base, ser factible estimar el impacto de una interven-
cin en nutricin en una muestra pequea. En cambio, si los pesos de lnea
de base de los nios son muy variables, se requerir una muestra ms grande
para estimar el impacto del programa.
Quinto, el equipo de evaluacin tiene que determinar un nivel de potencia
razonable y un nivel de signicancia para la evaluacin de impacto plani-
cada. Como ya se seal, la potencia de una prueba es igual a 1 menos la
probabilidad de cualquier error de tipo II. Por lo tanto, la potencia oscila
entre 0 y 1, donde un valor alto indica menos riesgo de no identicar un
impacto existente. Una potencia de 0,8 es una referencia generalmente uti-
lizada para los clculos de potencia. Signica que se encontrar un impacto
en el 80% de los casos all donde se haya producido. Un nivel ms alto de
potencia de 0,9 (o 90%) a menudo proporciona una referencia til pero ms
conservadora, lo cual aumenta el tamao requerido de la muestra.
El nivel de signicancia es la probabilidad de cometer un error de tipo I.
Normalmente se ja en 5%, de modo que se puede tener una conanza
del95% de llegar a la conclusin de que el programa ha tenido impacto si se
encuentra un impacto signicativo. Otros niveles habituales de signicancia
son 1% y 10%. Cuanto menor sea el nivel de signicancia, ms conanza se
puede tener en que el impacto estimado es real.
Una vez que se han abordado estas cinco preguntas, el experto en clculos
de potencia puede calcular el tamao requerido de la muestra utilizando un
software estadstico.7 El clculo de potencia indicar el tamao requerido de
la muestra, dependiendo de los parmetros establecidos en los pasos 1 a 5.
Los propios clculos son sencillos, una vez que se han determinado los par-
metros relevantes para las polticas (sobre todo en los pasos 2 y 3).8 (Sia usted
le interesa la implementacin de los clculos de potencia, el manual tcnico
disponible en el sitio web del libro contiene ejemplos de clculos de potencia
utilizando Stata y Optimal Design.)
Al solicitar asesora a los expertos estadsticos, el equipo de evaluacin
debera pedir un anlisis de la sensibilidad del clculo de potencia ante cam-
bios en los supuestos. Es decir, es importante entender cunto tendr que
aumentar el tamao requerido de la muestra con supuestos ms conserva-
dores (como un impacto previsto menor, mayor varianza en el indicador de
resultado o un mayor nivel de potencia). Tambin es una buena prctica
encargar clculos de potencia para diversos indicadores de resultados, dado
que los tamaos requeridos de la muestra pueden variar considerablemente
si algunos indicadores de resultados son mucho ms variables que otros. Por
ltimo, los clculos de potencia tambin pueden indicar el tamao de la
muestra necesario para establecer una comparacin de los impactos del
programa en diferentes subgrupos especcos (por ejemplo, hombres o
mujeres, u otros subgrupos de la poblacin de inters). Cada subgrupo
tendra que tener el tamao requerido de la muestra.
Evaluacin del impacto del HISP: la decisin del tamao

de la muestra necesario para evaluar el HISP ampliado
Para volver al ejemplo presentado en la segunda parte del libro, supn-

gase que el ministerio de Salud estaba satisfecho con la calidad y los resul-
tados de la evaluacin del Programa de Subsidios de Seguros de Salud
(HISP, por sus siglas en ingls). Sin embargo, antes de ampliar el pro-
grama, el ministro decide realizar una prueba piloto de una versin
ampliada del programa, que denominan HISP+. El HISP original paga
una parte del costo del seguro de salud de los hogares rurales pobres, y
cubre los costos de la atencin primaria y los medicamentos, pero no
cubre la hospitalizacin. El ministro de Salud se pregunta si un HISP+ que

tambin cubra la hospitalizacin disminuira an ms los gastos directos
en salud de los hogares pobres. El ministerio le pide disear una evalua-
cin de impacto para evaluar si el HISP+ disminuira los gastos en salud
de los hogares rurales pobres.
En este caso, elegir un diseo de evaluacin de impacto no es difcil: el
HISP+ tiene recursos limitados y no puede ser implementado universal-
mente de manera inmediata. Como consecuencia, se llega a la conclusin
de que la asignacin aleatoria sera el mtodo de evaluacin de impacto
ms viable y robusto. El ministro de Salud entiende que el mtodo de asig-
nacin aleatoria puede funcionar bien y se muestra de acuerdo.
Para nalizar el diseo de la evaluacin de impacto, usted contrata a
un tcnico estadstico que le ayudar a denir el tamao de la muestra
necesaria. Antes de comenzar a trabajar, el tcnico estadstico le pide
informacin clave. Utiliza una lista de vericacin de cinco preguntas.
1. El programa HISP+ generar clusters? A estas alturas, usted no est

totalmente seguro. Cree que es posible asignar de forma aleatoria el
paquete de benecios ampliado a nivel de los hogares entre todos los
hogares rurales pobres que ya se benecian del HISP. Sin embargo,
usted sabe que el ministro de Salud puede preferir asignar el programa
ampliado a nivel de la comunidad y que eso generara clusters. El tc-
nico estadstico sugiere llevar a cabo clculos de potencia en un caso de
referencia sin clusters, y luego analizar cmo cambiaran los resultados
con los clusters.
2. Cul es el indicador de resultado? Usted explica que al gobierno le

interesa un indicador bien denido, a saber, los gastos directos en
salud de los hogares pobres. El tcnico estadstico busca la fuente ms
actualizada para obtener valores de referencia de este indicador y
sugiere utilizar la encuesta de seguimiento de la evaluacin HISP.
Seala que entre los hogares que reciben el HISP, los gastos directos
anuales per cpita en salud llegan a un promedio de US$7,84.
3. Cul es el nivel mnimo de impacto que justicara la inversin en

la intervencin? En otras palabras, qu disminucin de los gastos
directos en salud por debajo del promedio de US$7,84 justicara esta
intervencin? El profesional estadstico subraya que no se trata solo de
una consideracin tcnica, sino de una decisin de polticas. Por eso,
un responsable de las polticas como usted debe establecer el efecto
mnimo que la evaluacin debera ser capaz de detectar. Usted recuerda
que, basndose en anlisis econmicos ex ante, el programa HISP+ se
considerara efectivo si redujera los gastos directos en salud de los

hogares en US$2. Aun as, usted sabe que para los nes de la evalua-
cin, puede que sea preferible ser conservador al determinar el impacto
mnimo detectable, dado que es poco probable que se detecte cualquier
otro impacto menor. Para entender cmo el tamao necesario de la
muestra vara segn el efecto mnimo detectable, usted sugiere que el
tcnico estadstico lleve a cabo clculos para una reduccin mnima de
los gastos directos en salud de US$1, US$2 y US$3.
4. Cul es la varianza del indicador de resultado en la poblacin de

inters? El tcnico estadstico vuelve a la base de datos de los hogares
HISP tratados, y seala que la desviacin tpica de los gastos directos
en salud es de US$8.
5. Cul sera un nivel razonable de potencia para la evaluacin que

se lleva a cabo? El profesional estadstico aade que los clculos de
potencia suelen efectuarse para una potencia de entre 0,8 y 0,9.
Recomienda 0,9, pero propone realizar vericaciones de robustez ms
tarde, con un nivel menos conservador de 0,8.
Con toda esta informacin, el tcnico estadstico emprende los clculos

de potencia. Como se haba acordado, comienza con el caso ms conser-
vador de una potencia de 0,9. En el cuadro 15.2 se recogen los resultados
que genera.
El estadstico llega a la conclusin de que para detectar una disminu-
cin de US$2 en los gastos directos en salud con una potencia de 0,9, la
muestra tiene que contener al menos 672 unidades (336 unidades tratadas
y 336 unidades de comparacin, sin clusters). Seala que si usted se sin-
tiera satisfecho detectando una disminucin de US$3 en los gastos direc-
tos en salud, una muestra ms pequea de al menos 300 unidades (150
unidades en cada grupo) sera suciente. En cambio, se necesitara una
Cuadro 15.2 Evaluacin del HISP+: tamao requerido de la muestra para

identicar diversos efectos mnimos detectables, potencia = 0,9
Efecto mnimo Grupo de Grupo de

detectable tratamiento comparacin Total muestra
US$1 1.344 1.344 2.688
US$2 336 336 672
US$3 150 150 300
Nota: El efecto mnimo detectable describe la reduccin mnima de los gastos directos en salud de
los hogares que puede detectar la evaluacin de impacto. Potencia = 0,9; sin clusters.

muestra mucho ms grande de al menos 2.688 unidades (1.344 cada
grupo) para detectar una disminucin de US$1 en los gastos directos en
salud.
El tcnico estadstico luego produce otro cuadro para un nivel de
potencia de 0,8. El cuadro 15.3 muestra que los tamaos de la muestra
requeridos son ms pequeos con una potencia de 0,8 que con una
potencia de 0,9. Para detectar una reduccin de US$2 en los gastos direc-
tos en salud de los hogares, sera suciente una muestra total de al menos
502 unidades. Para detectar una reduccin de US$3, se precisan al menos
224 unidades. Sin embargo, para detectar una reduccin de US$1 se
necesitaran al menos 2.008 unidades en la muestra. El tcnico estads-
tico subraya que los siguientes resultados son tpicos de los clculos de
potencia:
Cuanto mayor (ms conservador) el nivel de potencia, mayor ser el

tamao requerido de la muestra.
Cuanto ms pequeo el impacto detectado, mayor ser el tamao

requerido de la muestra.
El tcnico estadstico le pregunta si quiere llevar a cabo clculos

de potencia para otros resultados de inters. Usted sugiere considerar
tambin el tamao requerido de la muestra para detectar si el HISP+
inuye en la tasa de hospitalizacin. En el ejemplo de las comunidades
HISP tratadas, en el 5% de los hogares hay un miembro del hogar que
acude al hospital en un ao cualquiera; esto proporciona una tasa de
referencia. El estadstico produce un nuevo cuadro, que demuestra que
se necesitaran muestras relativamente grandes para detectar cambios
en la tasa de hospitalizacin (cuadro 15.4) de 1, 2 o 3 puntos porcentuales
con respecto a la tasa de lnea de base del 5%.

identicar diversos efectos mnimos detectables, potencia = 0,8
Efecto mnimo Grupo de Grupo de

detectable tratamiento comparacin Total muestra
US$1 1.004 1.004 2.008
US$2 251 251 502
US$3 112 112 224
los hogares que puede detectar la evaluacin de impacto. Potencia = 0,8; sin clusters.

El cuadro 15.4 muestra que los requisitos del tamao de la muestra
sonmayores para este resultado (la tasa de hospitalizacin) que para los
gastos directos en salud. El tcnico estadstico llega a la conclusin de
que si usted est interesado en detectar impactos en ambos resultados,
debera utilizar los tamaos de muestra ms grandes que surgen de los
clculos de potencia efectuados en las tasas de hospitalizacin. Si se usan
los tamaos de muestra de los clculos de potencia realizados para los
gastos directos, el tcnico estadstico sugiere informar al ministro de
Salud que la evaluacin no tendr suciente poder para detectar efectos
pertinentes para las polticas en las tasas de hospitalizacin.

detectar diversos efectos mnimos deseados (aumento de la tasa de
hospitalizacin)
Potencia = 0,8; sin clusters
Efecto mnimo
detectable Grupo de Grupo de
(porcentaje) tratamiento comparacin Total muestra
1 7.257 7.257 14.514
2 1.815 1.815 3.630
3 807 807 1.614
Nota: El efecto mnimo deseado describe el cambio mnimo en la tasa de utilizacin de servicios
hospitalarios (expresado en puntos porcentuales) que puede detectar la evaluacin de impacto.
Pregunta HISP 8
A. Qu tamao de la muestra recomendara usted para estimar el

impacto del HISP+ en los gastos directos en salud?
B. Ese tamao de la muestra sera suciente para detectar cambios en la
tasa de hospitalizacin?
Clculos de potencia con clusters
En el apartado anterior se introdujeron los principios de llevar a cabo

clculos de potencia para programas que no generan clusters. Sin embargo,
como se seal en la segunda parte, algunos programas asignan benecios
a nivel de clusters. A continuacin, se describe brevemente cmo hay que
adaptar los principios bsicos de los clculos de potencia para las muestras
con clusters.
Ante la presencia de clusters, un principio rector clave es que el nmero de
clusters suele importar mucho ms que el nmero de individuos en los clusters.
Se requiere un nmero suciente de clusters para probar de forma convin-
cente si un programa ha tenido impacto al contraponer resultados en mues-
tras de las unidades de tratamiento y comparacin. Es el nmero de clusters el
que determina en gran parte el tamao de la muestra til o efectivo. Si se
asigna de manera aleatoria el tratamiento entre un pequeo nmero de clus-
ters, es poco probable que los clusters de tratamiento y comparacin sean
idnticos. La asignacin aleatoria entre dos distritos, dos escuelas o dos hospi-
tales no garantizar que los dos clusters sean similares. En cambio, la asigna-
cin aleatoria de una intervencin entre 100 distritos, 100 escuelas o 100
hospitales tiene ms probabilidades de asegurar que los grupos de tratamiento
y comparacin sean similares. En resumen, se requiere un nmero suciente
de clusters para alcanzar un equilibrio. Adems, el nmero de clusters tambin
importa para la precisin de los efectos estimados del tratamiento. Se requiere
un nmero suciente de clusters para probar la hiptesis de que un programa
tiene un impacto con suciente potencia. Cuando se implementa una evalua-
cin de impacto basada en la asignacin aleatoria, es muy importante asegu-
rar que el nmero de clusters sea sucientemente grande.
Se puede establecer el nmero de clusters requeridos para pruebas de
hiptesis precisas efectuando clculos de potencia. Esto exige formular las
mismas cinco preguntas expuestas anteriormente, ms una pregunta extra:
Cun variable es el indicador de resultado en los clusters?
En el extremo, todos los resultados en un cluster estn perfectamente
correlacionados. Por ejemplo, puede ocurrir que el ingreso del hogar no
vare especialmente en las comunidades, pero que entre comunidades se
Concepto clave
observe una desigualdad importante en los ingresos. En este caso, si usted
El nmero de clusters
considera aadir una persona a su muestra de evaluacin, agregar a un indi-
importa mucho ms en
los clculos de viduo de una comunidad nueva aumentar mucho ms la potencia que
potencia que el nmero introducir un individuo de una comunidad que ya est representada. Dado
de individuos en los que los resultados estn plenamente correlacionados en un cluster, aadir
clusters. Se requieren un nuevo individuo de ese cluster existente no aportar nueva informacin.
a menudo al menos 40
En realidad, en este caso, es probable que el individuo de la segunda comu-
a 50 clusters en cada
uno de los grupos de
nidad tenga un aspecto muy similar al individuo original ya incluido. En
tratamiento y general, una mayor correlacin intra-cluster en los resultados (es decir, una
comparacin, aunque mayor correlacin en los resultados o caractersticas entre las unidades que
los requisitos del pertenecen al mismo cluster) aumenta el nmero de clusters requeridos
tamao de la muestra para alcanzar un determinado nivel de potencia.
variarn segn los
En las muestras con clusters, los clculos de potencia subrayan los bene-
casos, y los clculos de
potencia son cios relativos entre aadir clusters y aadir observaciones dentro de los
necesarios para clusters. El aumento relativo de la potencia al agregar una unidad de un
asegurar un tamao nuevo cluster es casi siempre mayor que el de sumar una unidad a un cluster
adecuado de la ya existente. Aunque el incremento de la potencia al aadir un nuevo cluster
muestra.
puede ser drstico, agregar clusters tambin puede tener implicaciones
operativas y elevar el costo de la implementacin del programa o de la
recopilacin dedatos. Ms adelante en este captulo, se explica cmo efec-
tuar clculos de potencia con clusters en el caso del HISP+ y se analizan
algunas consideraciones.
En numerosos casos, se requieren al menos entre 40 y 50 clusters en
cada grupo de tratamiento y comparacin para obtener potencia su-
ciente y garantizar la similitud de las caractersticas de lnea de base al
usar mtodos de asignacin aleatoria. Sin embargo, puede que el nmero
vare de acuerdo con los diversos parmetros ya analizados, as como la
correlacin intra-cluster. Adems, como se ver ms adelante, es probable
que el nmero probablemente aumente al utilizar mtodos distintos de la
asignacin aleatoria (suponiendo que todos los dems factores perma-
nezcan constantes).
Evaluacin del impacto del HISP: tamao requerido de la

muestra para evaluar un HISP expandido con clusters
Despus de su primera conversacin con el tcnico estadstico acerca

de los clculos de potencia para el HISP+, usted decide hablar breve-
mente con el ministro de Salud acerca de las implicaciones de asignar
aleatoriamente los benecios del HISP+ entre todos los individuos de la
poblacin que reciben el plan bsico del HISP. La consulta revela que ese
procedimiento no sera polticamente viable: en ese contexto, resultara
difcil explicar por qu una persona recibira los benecios ampliados
mientras que su vecino no los recibira.
Por lo tanto, en lugar de la asignacin aleatoria a nivel individual, usted
sugiere seleccionar aleatoriamente un cierto nmero de comunidades
HISP para realizar una prueba piloto del HISP+. Todos los miembros de
la comunidad del pueblo seleccionado seran elegibles. Este procedi-
miento generar clusters y, por lo tanto, requerir nuevos clculos de
potencia. Ahora se trata de determinar el tamao requerido de la muestra
para evaluar el impacto del HISP+ cuando se asigne aleatoriamente
porcluster.
Usted vuelve a consultar con su tcnico estadstico. l vuelve a asegu-
rarle que solo se requiere un poco ms de trabajo. En su lista de verica-
cin solo queda una pregunta por responder, a saber: cunto vara el
indicador de resultado en los clusters. Por fortuna, tambin es una pre-
gunta que se puede responder utilizando los datos del HISP. El tcnico
descubre que la correlacin de los gastos directos en salud en la comunidad
es igual a 0,04.

Tambin pregunta si se ha jado un lmite para el nmero de comuni-
dades en las que sera viable implementar el nuevo plan piloto. Dado queel
programa ahora tiene 100 comunidades en el HISP, usted explica que
podra tener, como mximo, 50 comunidades de tratamiento y 50 comuni-
dades de comparacin para el HISP+. Con esa informacin, el tcnico
estadstico produce los clculos de potencia que aparecen en el cuadro 15.5
con una potencia de 0,8.
El estadstico llega a la conclusin de que para detectar una disminu-
cin de US$2 en los gastos directos en salud, la muestra debe incluir al
menos 630 unidades, es decir, 7 unidades por cluster en 90 clusters (45 en
el grupo de tratamiento y 45 en el grupo de comparacin). Seala que
este nmeroes mayor que en la muestra con asignacin aleatoria a nivel
de los hogares, que requiri solo un total de 502 unidades (251 en el grupo
de tratamiento y 251 en el grupo de comparacin; vase el cuadro 15.3).
Para detectar una disminucin de US$3 en los gastos directos en salud,
lamuestra tendra que incluir al menos 246 unidades, o 3 unidades en
cada uno de los 82 clusters (41 en el grupo de tratamiento y 41 en el grupo
de comparacin).
Posteriormente, el tcnico estadstico le indica cmo el nmero total
de observaciones requeridas en la muestra vara con el nmero total de
clusters. Luego decide repetir los clculos para un efecto mnimo detecta-
ble de US$2 y una potencia de 0,8. El tamao de la muestra total reque-
rida para estimar dicho efecto aumenta visiblemente cuando el nmero
de clusters disminuye (cuadro 15.6). Con 120 clusters, se necesitara una
muestra de 600 observaciones. Si solo hubiera 30 clusters disponibles, la
muestra total debera contener 1.500 observaciones. En cambio, si hubiera
90 clusters disponibles, solo se necesitaran 630 observaciones.

identicar diversos efectos mnimos detectables (disminucin de los
gastos del hogar en salud)
Potencia = 0,8; mximo de 100 clusters
Efecto mnimo Nmero Unidades Total muestra Total muestra

detectable de clusters por cluster con clusters sin clusters
US$1 100 102 10.200 2.008
US$$2 90 7 630 502
US$3 82 3 246 224
los hogares que puede detectar la evaluacin de impacto. El nmero de clusters es el nmero total
de clusters, la mitad de los cuales ser el nmero de clusters del grupo de comparacin, y la otra
mitad ser el nmero de clusters del grupo de tratamiento.

detectar un impacto mnimo de US$2 en diversas cantidades de clusters
Potencia = 0,8
Efecto mnimo Nmero Unidades Total muestra

detectable de clusters por cluster con clusters
US$2 30 50 1.500
US$2 58 13 754
US$2 81 8 648
US$2 90 7 630
US$2 120 5 600
Nota: El nmero de clusters es el nmero total de clusters, la mitad de los cuales ser el nmero
de clusters del grupo de comparacin, y la otra mitad ser el nmero de clusters del grupo de
tratamiento. Si el diseo no tuviera clusters, se necesitaran 251 unidades en cada grupo para
identicar un efecto mnimo detectable de US$2 (vase el cuadro 15.3).
Pregunta HISP 9
A. Qu tamao total de la muestra recomendara para estimar el impacto

del HISP+ en los gastos directos en salud?
B. En cuntas comunidades le aconsejara al ministro de Salud imple-
mentar el HISP+?
Ms all del caso de referencia
Este captulo se ha centrado en el caso de referencia de una evaluacin de

impacto implementada utilizando el mtodo de asignacin aleatoria, con
pleno cumplimiento. Este es el escenario ms sencillo y, por lo tanto, el ms
adecuado para transmitir la intuicin en que se basan los clculos de poten-
cia. Aun as, numerosos aspectos prcticos de nuestros clculos de potencia
an no han sido analizados, y es necesario considerar detenidamente las
desviaciones de los casos bsicos que se abordan aqu. Ms abajo, se tratan
algunas de estas desviaciones.
Utilizacin de mtodos cuasi experimentales. Ceteris paribus, los mtodos
de evaluacin de impacto cuasi experimentales, como la regresin
discontinua, el pareamiento o las diferencias en diferencias, tienden a
requerir muestras ms grandes que el mtodo de referencia de asignacin
aleatoria. Por ejemplo, al utilizar el diseo de regresin discontinua, en el
captulo 6 se subrayaba que solo se pueden considerar las observaciones en
torno al umbral de elegibilidad. Se requiere una muestra sucientemente
grande en torno a ese umbral. Los clculos de potencia son necesarios para
estimar la muestra requerida de modo de establecer comparaciones signi-
cativas en torno al umbral.
Por otro lado, la disponibilidad de diversas rondas de datos puede
contribuir a aumentar la potencia de una evaluacin de impacto con
undeterminado tamao de la muestra. Por ejemplo, los datos de lnea de
base sobre resultados y otras caractersticas pueden aadir precisin a la
estimacin de los efectos de tratamiento. La disponibilidad de medidas
repetidas de resultados despus del comienzo del tratamiento tambin
puede ser til.
Anlisis de diferentes modalidades de programa o innovaciones de diseo.
En los ejemplos presentados en este captulo, el tamao total de la muestra se
divida por igual entre los grupos de tratamiento y comparacin. En algunos
casos, la principal pregunta de polticas con respecto a la evaluacin puede
generar la comparacin de impactos del programa entre las modalidades del
programa o las innovaciones de diseo. Si esto es as, el impacto previsto
puede ser relativamente menor que si un grupo de tratamiento objeto de un
programa fuera comparado con un grupo de comparacin que no reciba
ningn tipo de benecios. Como tal, el efecto mnimo deseado entre los dos
grupos de tratamiento puede ser ms pequeo que el efecto mnimo deseado
entre el grupo de tratamiento y el grupo de comparacin. Esto implicara
que la distribucin ptima de la muestra generara grupos de tratamiento
que son relativamente ms grandes que el grupo de comparacin.9 En las
evaluaciones de impacto con mltiples ramas de tratamiento, puede que sea
necesario implementar clculos de potencia para estimar por separado el
tamao de cada grupo de tratamiento y comparacin, en funcin de la prin-
cipal pregunta de inters de las polticas.
Comparacin de subgrupos. En otros casos, algunas de las preguntas de la
evaluacin de impacto pueden centrarse en estimar si los impactos de un
programa varan entre diferentes subgrupos, como el sexo, la edad o las
categoras de ingreso. Si esto es lo que ocurre, los requisitos del tamao de la
muestra sern mayores y los clculos de potencia tendrn que ajustarse de
forma correspondiente. Por ejemplo, una pregunta clave de polticas puede
ser si un programa educativo tiene un impacto mayor en las alumnas que en
los alumnos. Se necesitar un nmero suciente de alumnos de cada sexo en
el grupo de tratamiento y el grupo de comparacin para detectar un impacto
en cada subgrupo. Si se pretende comparar los impactos del programa entre
dos subgrupos, puede que se duplique el tamao requerido de la muestra. Si
se considera la heterogeneidad entre ms grupos (por ejemplo, por la edad)
tambin puede aumentar considerablemente el tamao requerido de la
muestra. Si este tipo de comparaciones entre grupos ha de llevarse a cabo en
el contexto de una evaluacin de impacto que depende de la asignacin
aleatoria, es preferible tambin tenerlas en cuenta cuando se implementa
la aleatorizacin y, sobre todo, para aplicar una asignacin aleatoria
por bloques o estratos (es decir, en cada subgrupo que se compara). En
laprctica, aunque no se realice ninguna comparacin entre subgrupos, la
aleatorizacin estraticada o por bloque puede contribuir a maximizar an
ms la potencia de un determinado tamao de la muestra.
Anlisis de mltiples resultados. Es necesario proceder con singular
cuidado cuando se emprenden clculos de potencia en los casos en que una
evaluacin de impacto pretenda probar si un programa genera cambios en
mltiples resultados. Si se tienen en cuenta numerosos resultados diferentes,
habr una probabilidad relativamente ms alta de que la evaluacin de
impacto encuentre impactos en uno de los resultados solo por azar. Para
abordar esto, el equipo de evaluacin de impacto tendr que pensar en pro-
bar la signicancia estadstica conjunta de los cambios en diversos resulta-
dos. Como alternativa, se pueden elaborar algunos ndices o familias de
resultados. Estos enfoques para lidiar con las pruebas de mltiples hiptesis
tienen implicaciones para los clculos de potencia y el tamao de la muestra
y, en ese sentido, hay que tenerlos en cuenta cuando se dene la muestra
necesaria para la evaluacin de impacto.10
Para lidiar con el cumplimiento imperfecto o el desgaste de la muestra. Los
clculos de potencia suelen proporcionar el tamao mnimo requerido de
la muestra. En la prctica, los problemas de implementacin a menudo
implican que el tamao de la muestra real es ms pequeo que el tamao
planicado. Por ejemplo, el cumplimiento imperfecto puede signicar que
solo se inscribe una parte de los beneciarios a los que se ofrece el pro-
grama. Los requisitos del tamao de la muestra aumentan cuando surge el
cumplimiento imperfecto. Adems, aunque todos los individuos se inscri-
bieran en el programa, se puede producir algn grado de desgaste en la
encuesta de seguimiento si no se da con el paradero de todos los individuos.
Aunque ese incumplimiento o desgaste es aleatorio y no afecta la consis-
tencia de las estimaciones de impacto, estos aspectos inuiran en la
potencia de la evaluacin de impacto. Para dar cuenta de dichos factores,
generalmente se recomienda aadir un margen al tamao de la muestra
prevista por los clculos de potencia. De la misma manera, los datos de
menor calidad tendrn ms error de medicin y harn que los resultados
de inters sean ms variables, adems de que requerirn tamaos de la
muestra ms grandes.
Las reexiones ms avanzadas mencionadas en esta seccin exceden el
alcance de este libro, pero los recursos recogidos al nal de este captulo
pueden ser tiles. En la prctica, los equipos de evaluacin tienen que incluir
o contratar a un experto que pueda efectuar clculos de potencia, y el
experto debera ser capaz de asesorar en temas ms complejos.
Otros recursos

Para ejemplos de cmo efectuar clculos de potencia con los programas StataTM
y Optimal Design para el caso especco del HISP que ilustra este captulo, va-
se el manual tcnico disponible en el sitio web del libro (http://www.iadb.org
/portalevaluacion). Este manual incluye material tcnico adicional para lectores
con conocimientos de estadstica y econometra.
Para un debate detallado sobre el muestreo (incluyendo otros mtodos como
el muestreo sistemtico o muestreo de mltiples etapas), ms all de los con-
ceptos bsicos tratados aqu, vase los siguientes recursos:
W. G. Cochran (1977), Sampling Techniques, tercera edicin. Nueva York:
John Wiley.
L. Kish (1995), Survey Sampling. Nueva York: John Wiley.
S. Lohr (1999), Sampling: Design and Analysis. Pacic Grove, CA:
Brooks Cole.
S. K. Thompson (2002), Sampling, segunda edicin. Nueva York: John Wiley.
O, en un nivel ms bsico, G. Kalton (1983), Introduction to Survey
Sampling. Beverly Hills, CA: Sage Publications.
Se puede encontrar orientacin prctica para el muestreo en:
M. Grosh y J. Muoz (1996), A Manual for Planning and Implementing
the Living Standards Measurement Study Survey. Documento de trabajo
LSMS 126. Washington, D.C.: Banco Mundial.
Naciones Unidas (2005), Household Sample Surveys in Developing and
Transition Countries. Nueva York: Naciones Unidas.
G. Iarossi (2006), The Power of Survey Design: A Users Guide for
ManagingSurveys, Interpreting Results, and Inuencing Respondents.
A. G. Fink (2008), How to Conduct Surveys: A Step by Step Guide, cuarta
edicin. Beverly Hills, CA: Sage.
Para una hoja de clculo de potencia que calcule la potencia de un determi-
nado tamao de la muestra despus de ingresar ciertas caractersticas, vase
el portal de evaluacin del Banco Interamericano de Desarrollo, seccin de
diseo, en herramientas (http://www.iadb.org/portalevaluacion).
Para ms informacin sobre clculos de potencia y tamao de la muestra, vase
el Kit de Herramientas de Evaluacin de Impacto (Impact Evaluation Toolkit)
del Banco Mundial, Mdulo 3 sobre Diseo. Este mdulo tambin incluye un
gua para realizar clculos de potencia ex ante, un documento sobre clculos
de potencia con variables binarias y una recopilacin de referencias tiles para
ms informacin sobre los clculos de potencia (http://www.worldbank.org
/health/impactevaluationtoolkit).
Para diversos blogs sobre clculos de potencia, vase el blog de impacto del
desarrollo del Banco Mundial (World Bank Development Impact Blog) (http://
blogs.worldbank.org/impactevaluations/).

Para un debate de algunas reexiones sobre clculos de potencia en diseos
ms complejos que el caso de referencia de la asignacin aleatoria en
presencia de cumplimiento perfecto, vase:
J. Spybrook, S. Raudenbush, X. Liu, R. Congdon y A. Martnez (2008),
Optimal Design for Longitudinal and Multilevel Research: Documentation
forthe Optimal Design Software. Nueva York: William T. Grant
Foundation.
P. Rosenbaum (2009), The Power of Sensitivity Analysis and Its Limit.
En: P. Rosenbaum, Design of Observational Studies, captulo 14. Nueva York:
Springer Series in Statistics.
Sobre el tema de pruebas de mltiples hiptesis, vase:
E. Duo, R. Glennerster, M. Kremer, T. P. Schultz y A. S. John (2007),
Using Randomization in Development Economics Research: A Toolkit.
En: Handbook of Development Economics, Vol. 4, captulo 61, pp.
38953962. msterdam: Elsevier.
P. Z. Schochet (2008), Guidelines for Multiple Testing in Impact
Evaluationsof Educational Interventions. Preparado por Mathematica
Policy Research Inc., para el Institute of Education Sciences, U.S.
Department of Education, Washington, D.C.
Hay diversos instrumentos disponibles para quienes estn interesados en
analizar el diseo de la muestra de manera ms profunda. Por ejemplo, la
W.T. Grant Foundation desarroll el software de libre disponibilidad Optimal
Design, un software para la Investigacin de Mltiples Niveles y Longitudinal,
til para el anlisis de potencia estadstica con clusters. El software y el manual
de Optimal Design se pueden descargar de http://hlmsoft.net/od.
Notas
1. Estrictamente hablando, las muestras se extraen de los marcos muestrales. En

este anlisis, se supone que el marco muestral coincide perfectamente con la
poblacin.
2. Como se seal en la segunda parte, el cumplimiento supone que todas las
unidades asignadas al grupo de tratamiento son tratadas y que todas las
unidades asignadas al grupo de comparacin no son tratadas.
3. En este contexto, el trmino poblacin no se reere a la poblacin del pas,
sino al conjunto del grupo de nios que nos interesan: la poblacin de
inters.
4. Esta idea se concreta en el teorema denominado teorema del lmite central.
En trminos formales, en el caso de un resultado y, el teorema del lmite central
establece que la media de la muestra y constituye en promedio una estimacin
vlida de la media de la poblacin. Adems, para un tamao de muestra n y una
varianza de la poblacin s 2, la varianza de la media de la muestra es inversa-
mente proporcional al tamao de la muestra:
s2
var( y ) =
n

A medida que aumenta el tamao de la muestra n, las estimaciones de la
varianza de la muestra tienden hacia cero. En otras palabras, la media se estima
con ms precisin en muestras grandes que en pequeas.
5. Las cuestiones de ndole social y poltica, que hacen imposible la asignacin
aleatoria en los clusters suelen requerir la asignacin de benecios por cluster.
En el contexto de una evaluacin de impacto, la conguracin de clusters suele
ser necesaria debido a los probables efectos de derrame, o a la contaminacin
delos benecios del programa entre los individuos en los clusters. Vase el
tratamiento de este tema en el captulo 11.
6. Cuando se calcula la potencia desde la lnea de base, la correlacin entre los
resultados a lo largo del tiempo tambin se debe considerar en el clculo de
potencia.
7. Por ejemplo, Spybrook et al. (2008) introdujeron el Optimal Design, un
programa informtico fcil de usar para efectuar clculos de potencia.
8. En general, es deseable contar con grupos de tratamiento y de comparacin del
mismo tamao. De hecho, para cierto nmero de observaciones en una
muestra, se maximiza la potencia asignando la mitad de las observaciones al
grupo de tratamiento y la otra mitad al grupo de comparacin. Sin embargo, los
grupos de tratamiento y de comparacin no siempre tienen que tener el mismo
tamao.
9. Los costos del tratamiento tambin se pueden tener en cuenta y generar grupos
de tratamiento y comparacin que no tienen el mismo tamao. Vase, por
ejemplo Duo et al. (2007).
10. Vase, por ejemplo Duo et al. (2007) o Schochet (2008).
Cochran, W. G. 1977. Sampling Techniques, tercera edicin. Nueva York: John

Wiley & Sons.
Duo, E., R. Glennerster, M. Kremer et al. 2007. Using Randomization in
Development Economics Research: A Toolkit. En: T. P. Schultz y J. Strauss
(eds.), Handbook of Development Economics, Vol. 4, pp. 3895962. msterdam:
Elsevier.
Fink, A. G. 2008. How to Conduct Surveys: A Step by Step Guide, cuarta edicin.
Beverly Hills, CA: Sage.
Grosh, M. y P. Glewwe (eds.). 2000. Designing Household Survey Questionnaires
forDeveloping Countries: Lessons from 15 Years of the Living Standards
Measurement Study. Washington, D.C.: Banco Mundial.
Grosh, M. y J. Muoz. 1996. A Manual for Planning and Implementing the Living
Standards Measurement Study Survey. Documento de trabajo LSMS 126.
Iarossi, G. 2006. The Power of Survey Design: A Users Guide for Managing Surveys,
Interpreting Results, and Inuencing Respondents. Washington, D.C.: Banco
Mundial.
Kalton, G. 1983. Introduction to Survey Sampling. Beverly Hills, CA: Sage.

Kish, L. 1995. Survey Sampling. Nueva York: John Wiley.
Lohr, S. 1999. Sampling: Design and Analysis. Pacic Grove, CA: Brooks Cole.
Rosenbaum, P. 2009. Design of Observational Studies. Nueva York: Springer Series
in Statistics.
Schochet, P. Z. 2008. Guidelines for Multiple Testing in Impact Evaluations of
Educational Interventions. NCEE 2008-4018. National Center for Eduational
Evaluation and Regional Assistance, Institute of Education Sciences.
Washington, D.C.: U.S. Department of Education.
Spybrook, J., S. Raudenbush, X. Liu, R. Congdon y A. Martnez. 2008. Optimal
Design for Longitudinal and Multilevel Research: Documentation for the Optimal
Design Software. Nueva York: William T. Grant Foundation.
Thompson, S. K. 2002. Sampling, segunda edicin. Nueva York: John Wiley.
Washington, D.C.: Banco Mundial. Disponible en http://www.worldbank
.org/ health/impactevaluationtoolkit.

CAPTULO 16
Encontrando fuentes adecuadas

de datos
Tipos de datos necesarios
En este captulo se analizan las diversas fuentes de datos que pueden utilizar
las evaluaciones de impacto. En primer lugar, se estudian las fuentes de
datos existentes, sobre todo los datos administrativos, y se proporcionan
algunos ejemplos de evaluaciones de impacto que han aprovechado datos
existentes. Dado que muchas evaluaciones requieren la recopilacin de
datos nuevos, tambin se examinan los pasos en la recopilacin de nuevos
datos de las encuestas. Una comprensin clara de estos pasos contribuir a
asegurar que la evaluacin de impacto se base en datos de calidad que no
comprometan el diseo de evaluacin. Como primer paso, habr que con-
tratar la elaboracin de un cuestionario adecuado. Paralelamente, se necesi-
tar ayuda de una empresa o un organismo del gobierno especializado en
recopilacin de datos. La entidad de recopilacin de datos reclutar y
capacitar al personal de campo y realizar una prueba piloto del cuestiona-
rio. Despus de introducir los ajustes necesarios, la empresa o el organismo
podrn proceder con el trabajo de campo, recopilar los datos, digitalizarlos
y procesarlos antes de que puedan ser entregados, almacenados y analiza-
dos por el equipo de evaluacin.
Para evaluar el impacto de la intervencin en los resultados de inters, se
requieren datos de buena calidad. La cadena de resultados que se expone en
323
el captulo 2 proporciona una base para denir qu indicadores deberan
medirse y cundo. Los indicadores son necesarios en toda la cadena de
resultados.
Datos sobre los resultados. La primera y principal necesidad son los datos
sobre los indicadores de resultado directamente afectados por el programa.
Los indicadores de resultado estn vinculados con los objetivos que el pro-
grama pretende alcanzar. Como se seal en el captulo 2, los indicadores de
resultado deben seleccionarse preferiblemente para que sean especcos,
medibles, atribuibles, realistas y focalizados (EMARF). No obstante, la
evaluacin de impacto no debe medir solo aquellos resultados de los que el
programa rinde directamente cuentas. Los datos sobre los indicadores de
resultados que el programa afecta indirectamente, o los indicadores que
capturan los efectos no intencionados del programa, maximizarn el valor
de la informacin que genera la evaluacin de impacto, as como la com-
prensin de la efectividad general del programa.
Datos sobre los resultados intermedios. Por otro lado, los datos sobre los
resultados intermedios son tiles para ayudar a entender los canales a tra-
vs de los cuales el programa evaluado ha tenido impacto o no lo ha
tenido en los resultados nales de inters. Normalmente, las evaluaciones
de impacto se llevan a cabo a lo largo de diversos perodos y se debe denir
cundo medir los indicadores de resultados. Siguiendo esta cadena de
resultados, se puede establecer una jerarqua de indicadores de resultado,
que abarca desde los indicadores de corto plazo, que se pueden medir
mientras los participantes todava estn en el programa, como la asistencia
escolar registrada en una encuesta de seguimiento de corto plazo en el
contexto de un programa educativo, hasta las encuestas de seguimiento de
ms largo plazo, como el aprendizaje escolar o la insercin en el mercado
laboral, que se pueden medir en una encuesta de seguimiento a ms largo
Concepto clave plazo despus de que los participantes han dejado el programa. Para medir
Los indicadores son el impacto a lo largo del tiempo de manera convincente es necesario contar
necesarios en toda la con datos de la lnea de base antes de implementar el programa o la innova-
cadena de resultados. cin que se evala. La seccin del captulo 12 que versa sobre la programa-
Constituyen la cin en el tiempo de la evaluacin arroja luz sobre cmo denir el momento
vericacin para medir
en que se recopilan los datos.
los resultados nales y
los resultados Como se seal en el captulo 15, en el contexto de los clculos de poten-
intermedios, as como cia, cuando las muestras son relativamente pequeas, algunos indicadores
los benecios y la pueden no ser adecuados para la evaluacin de impacto. Detectar el impacto
calidad de implemen- de una intervencin cuyos indicadores son extremadamente variables, se
tacin del programa.
reeren a sucesos poco frecuentes o solo se ven afectados de forma margi-
nal por la intervencin, puede requerir muestras demasiado grandes. Por
ejemplo, solo ser posible determinar el impacto de una intervencin sobre
las tasas de mortalidad materna si se dispone de una muestra de decenas de
miles de mujeres embarazadas, dado que la mortalidad es (afortunadamente)
un hecho excepcional. En ese caso, puede que sea necesario replantear la
evaluacin de impacto y focalizarla en indicadores ms intermedios,
relacionados con los resultados nales, pero para los cuales hay suciente
potencia como para detectar efectos. En el caso de una intervencin cuyo
n es reducir la mortalidad materna, un indicador intermedio podra estar
vinculado con la utilizacin de los servicios de salud durante el embarazo, y
con los partos en los centros de salud, que estn asociados con la mortali-
dad. Los clculos de potencia analizados en el captulo 15 pueden contri-
buir a arrojar luz sobre los indicadores en los que se detectan impactos y
aquellos en los que puede ser ms difcil detectar impactos sin muestras
muy grandes.
Datos sobre las actividades y productos del programa. Tambin se requie-
ren indicadores para la parte de la cadena de resultados que describe las
actividades y productos del programa. Concretamente, los datos de monito-
reo del programa pueden proporcionar informacin esencial sobre las pres-
taciones de la intervencin. En particular, los datos de monitoreo incluyen
deniciones sobre quines son los beneciarios y qu benecios o produc-
tos del programa pueden haber recibido. Como mnimo, se necesitan datos
de monitoreo para saber cundo comienza un programa y quin recibe
benecios, as como para proporcionar una medida de la intensidad o cali-
dad de la intervencin. Esto es particularmente importante en los casos en
que un programa puede no llegar a todos los beneciarios con el mismo
contenido, calidad o duracin. Es esencial tener una comprensin adecuada
de la medida en que la intervencin se ha implementado siguiendo el diseo,
para interpretar los resultados de la evaluacin de impacto, lo que incluye
saber si destacan la efectividad del programa puesto en marcha segn el
diseo o si hay deciencias en su implementacin.
Datos adicionales. Puede que se precisen otros datos para la evaluacin
de impacto, lo cual depende de la metodologa usada. Los datos sobre otros
factores que pueden inuir en el resultado de inters pueden ser necesarios
para controlar por inuencias externas. Este aspecto es particularmente
importante cuando se utilizan mtodos de evaluacin que dependen de ms
supuestos que los mtodos aleatorios. A veces tambin es necesario tener
datos sobre los resultados y otros factores a lo largo del tiempo para calcular
tendencias, como sucede con el mtodo de diferencias en diferencias. Dar
cuenta de otros factores y tendencias anteriores tambin contribuye a
aumentar la potencia estadstica. Incluso con la asignacin aleatoria, los
datos sobre otras caractersticas pueden ayudar a estimar los efectos del tra-
tamiento con ms precisin. Tambin pueden ser utilizados para incluir
controles adicionales o analizar la heterogeneidad de los efectos del pro-
grama en caractersticas relevantes.
Encontrando fuentes adecuadas de datos 325
El diseo seleccionado para la evaluacin de impacto tambin afectar a
los requisitos de datos. Por ejemplo, si se elige el mtodo de pareamiento o
de diferencias en diferencias, habr que recolectar datos sobre una gama
muy amplia de caractersticas para los grupos tanto de tratamiento como de
comparacin, lo que hace posible ejecutar una serie de pruebas de robustez,
como se explic en la segunda parte o en el captulo 11 (vase el cuadro 11.2).
Para cada evaluacin, resulta til desarrollar una matriz que enumere las
preguntas de inters, los indicadores de resultado para cada pregunta y la
fuente de los datos, como se describe en el grco 2.1 del captulo 2 sobre la
cadena de resultados. La elaboracin de un plan de evaluacin de impacto y
el contar con un plan de preanlisis constituyen otras oportunidades esen-
ciales para denir una lista precisa de indicadores clave requeridos en las
evaluaciones de impacto.
La utilizacin de datos cuantitativos existentes
Una de las primeras cuestiones que se debe considerar cuando se disea una
evaluacin de impacto es qu fuente de datos se utilizar. Una considera-
cin fundamental es si la evaluacin de impacto depender de datos exis-
tentes o si requerir la recopilacin de datos nuevos.
Casi siempre se necesitan datos existentes al comienzo de una evaluacin
de impacto para estimar los valores de referencia de los indicadores o para
efectuar clculos de potencia, como se analiz en el captulo 15. Despus de
la fase de planicacin, la disponibilidad de datos existentes puede dismi-
nuir de forma considerable el costo de una evaluacin de impacto. Si bien es
probable que los datos existentes y, en particular los datos administrativos,
sean subutilizados en la evaluacin de impacto en general, la viabilidad de
usar datos existentes en la evaluacin de impacto tiene que ser valorada con
detenimiento.
De hecho, como se seal en el captulo 12, la recopilacin de datos suele
representar el mayor costo de una evaluacin de impacto. Sin embargo, para
determinar si los datos existentes se pueden utilizar en una determinada
evaluacin de impacto, debe tenerse en cuenta una serie de preguntas:
El muestreo. Se dispone de datos existentes tanto para el grupo de trata-
miento como para el grupo de comparacin? Las muestras existentes se
han extrado de un marco muestral que coincide con la poblacin de
inters? Las unidades del marco muestral, se han obtenido mediante un
procedimiento de muestreo probabilstico?
Tamao de la muestra. Las series de datos son sucientemente grandes
para detectar cambios en los indicadores de resultado con suciente
potencia? La respuesta a esta pregunta depende de la eleccin de los
indicadores de resultado, as como de los resultados de los clculos de
potencia tratados en el captulo 15.
Disponibilidad de datos de lnea de base. Los datos existentes disponibles
tanto para los grupos de tratamiento como de comparacin son anterio-
res a la implementacin del programa o de la innovacin que se evala?
La disponibilidad de datos en lnea de base es esencial para documentar
el equilibrio en las caractersticas previas del programa entre los grupos
de tratamiento y de comparacin cuando se utilizan mtodos aleatorios, y
son esenciales para la implementacin de diseos cuasi experimentales.
Frecuencia. Los datos existentes son recopilados con suciente fre-
cuencia? Se dispone de ellos para todas las unidades de la muestra a lo
largo del tiempo, incluyendo los momentos en que hay que medir los
indicadores de resultado segn la cadena de resultados y la lgica de la
intervencin?
Alcance. Los datos existentes contienen todos los indicadores necesa-
rios para responder a las preguntas de inters de las polticas, incluyendo
los principales indicadores de resultado y los resultados intermedios de
inters?
Vnculos con la informacin de monitoreo del programa. Los datos exis-
tentes se pueden vincular a datos del monitoreo de la implementacin
del programa, lo que implica observar qu unidades pertenecen a los gru-
pos de tratamiento y de comparacin, y si todas las unidades asignadas al
grupo de tratamiento reciben los mismos benecios?
Identicadores nicos. Existen identicadores nicos que vinculen dife-
rentes fuentes de datos?
Como lo subrayan las preguntas anteriores, los requisitos para los datos
existentes son bastante importantes, y no es habitual que los datos existen-
tes resulten sucientes para las evaluaciones de impacto. Aun as, con el
rpido crecimiento en el alcance y la cobertura de los sistemas de informa-
cin, y con la evolucin general hacia un mundo en que los datos digitales de
una amplia gama de fuentes se almacenan de manera peridica, cada vez
ms evaluaciones de impacto pueden contemplar el uso de datos existentes.
Se puede utilizar una gama de fuentes potenciales de datos existentes en las
evaluaciones de impacto, lo cual abarca datos censales, encuestas nacionales
o datos administrativos.
Los datos del censo de poblacin pueden proporcionar informacin
exhaustiva sobre toda la poblacin. Se pueden utilizar para las evaluacio-
nes de impacto cuando estn disponibles en un nivel sucientemente
desagregado e incluyen detalles para saber qu unidades pertenecen al
grupo de tratamiento o de comparacin, como los identicadores geogr-
cos o personales. Los datos censales no se recopilan a menudo, y normal-
mente incluyen solo un pequeo conjunto de indicadores clave. Sin
embargo, en ocasiones dichos datos se recopilan para incluirse en sistemas
de informacin o registros que proporcionan la base para denir los obje-
tivos de los programas pblicos, lo que incluye identicadores nicos que
pueden servir de soporte a vnculos con otras bases de datos existentes.
Las encuestas representativas a nivel nacional, como las encuestas de
hogares, las encuestas de medicin de los niveles de vida, las encuestas de la
fuerza laboral, las encuestas demogrcas y de salud, las encuestas de
empresas o las encuestas de instalaciones tambin se pueden contemplar.
Estas pueden contener un conjunto exhaustivo de variables de resultado,
pero rara vez cuentan con sucientes observaciones, tanto del grupo de
tratamiento como de comparacin, para llevar a cabo una evaluacin de
impacto. Supngase, por ejemplo, que se desea evaluar un programa nacio-
nal de gran alcance que llega al 10% de los hogares en un determinado pas.
Si una encuesta representativa a nivel nacional se lleva a cabo en 5.000
hogares cada ao, esta puede contener alrededor de 500 hogares que reciben
el programa en cuestin. Es la muestra lo bastante grande para llevar a cabo
una evaluacin de impacto? Los clculos de potencia pueden responder a
esta pregunta, pero en muchos casos la respuesta es negativa.
Adems de determinar si se pueden utilizar las encuestas existentes,
tambin se debe averiguar si se estn planicando nuevas iniciativas de
recopilacin de datos nacionales. Si se planica una encuesta que cubrir
la poblacin de inters, quiz tambin se pueda introducir una pregunta
o una serie de preguntas como parte de esa encuesta. Si ya se ha pla-
neado una encuesta que mide los indicadores requeridos, existe la
posibilidad de sobre muestrear una determinada poblacin para asegu-
rar una cobertura adecuada en los grupos de tratamiento y comparacin
y acomodar la evaluacin de impacto. Por ejemplo, la evaluacin del
Fondo Social de Nicaragua complement un estudio nacional de medi-
cin de los niveles de vida con una muestra adicional de beneciarios
(Pradhan y Rawlings, 2002).
Los datos administrativos suelen ser recopilados por organismos pblicos
o agencias privadas como parte de sus operaciones regulares, normalmente
con cierta frecuencia, y a menudo para monitorear los servicios prestados o
registrar interacciones con los usuarios. En algunos casos, los datos admi-
nistrativos contienen los indicadores de resultado necesarios para una eva-
luacin de impacto. Por ejemplo, los sistemas educativos cuentan con
registros de la matriculacin y asistencia de los alumnos y de las calicacio-
nes de las pruebas, y tambin pueden recopilar informacin sobre los
insumos escolares y los maestros. De la misma manera, los sistemas de salud
pueden reunir datos sobre las caractersticas y localizacin de los centros de
salud, la oferta de servicios de salud y la asignacin de recursos. Tambin
pueden consolidar datos recopilados en centros de salud sobre los historia-
les mdicos de los pacientes, datos antropomtricos, historiales de vacuna-
ciones y, de manera ms amplia, datos sobre la incidencia de las enfermedades
y estadsticas vitales. Las empresas de servicios pblicos renen datos sobre
el consumo de agua o electricidad. Las agencias tributarias pueden recoger
datos sobre los ingresos y los impuestos. Los sistemas de transporte recopi-
lan datos sobre los pasajeros y los tiempos de viaje. Las empresas del sistema
nanciero recopilan datos sobre las transacciones o el historial crediticio de
los clientes. Todas estas fuentes de datos existentes pueden ser potencial-
mente utilizadas en las evaluaciones de impacto. A veces incluyen series
temporales extensas, que pueden contribuir a seguir a las unidades a lo largo
del tiempo.
Es crucial realizar un diagnstico de la disponibilidad y calidad de los
datos cuando se considera la posibilidad de utilizar datos administrativos.
En algunos casos, los datos de las fuentes administrativas pueden ser ms
ables que los datos de las encuestas. Por ejemplo, un estudio en Malawi
revel que los encuestados daban informacin falsa sobre la asistencia y
matriculacin escolar en una encuesta de hogares, en comparacin con los
registros administrativos obtenidos en las escuelas; por lo tanto, los resul-
tados de la evaluacin de impacto eran ms ables si se basaban en los
datos administrativos (Baird y zler, 2012). Al mismo tiempo, en numero-
sos contextos, los datos administrativos son recopilados por un gran
nmero de proveedores y pueden ser de calidad desigual. Por lo tanto, su
abilidad debe valorarse detenidamente antes de tomar la decisin de tra-
bajar con datos administrativos en la evaluacin de impacto. Un aspecto
crucial consiste en asegurar que existan identicadores nicos para vin-
cular los datos administrativos con otras fuentes de datos, incluyendo
datos sobre el monitoreo del programa que documentan qu unidades han
recibido los benecios del programa. Cuando estos identicadores exis-
ten, como los nmeros de identicacin nacional usados de manera
consistente, se puede evitar una gran cantidad de trabajo para preparar y
limpiar los datos. En todos los casos, la proteccin de la condencialidad
es una parte importante de la preparacin de los datos y del protocolo de
gestin de datos. Los principios ticos que rigen la proteccin de sujetos
humanos (vase el debate en el captulo 13) tambin rigen el uso que se
hace de datos existentes.
Algunas evaluaciones retrospectivas inuyentes han trabajado con
registros administrativos: Galiani, Gertler y Schargrodsky (2005), sobre
lapoltica de aguas en Argentina; Ferraz y Finan (2008) sobre auditoras y
desempeo de los polticos, y Chetty, Friedman y Sez (2013) sobre los crdi-
tos scales en Estados Unidos. En el recuadro 16.1 se presenta un ejemplo de
evaluacin de impacto de salud en Argentina. Por su parte, el recuadro 16.2
ilustra el uso de datos administrativos en la evaluacin de impacto de un
programa de transferencias monetarias en Honduras.
En algunos casos, los datos requeridos para la evaluacin de impacto se
pueden recopilar implementando nuevos sistemas de informacin o de
datos administrativos. Esta implementacin se puede coordinar con la de un
diseo de evaluacin, de modo que los indicadores de resultado se recopilen
para un grupo de tratamiento y un grupo de comparacin en mltiples
Recuadro 16.1: Elaboracin de una base de datos en la evaluacin

del Plan Nacer de Argentina
Al evaluar el programa de nanciamiento de la registros farmacuticos, el censo de pobla-
salud basado en resultados de Argentina, Plan cin de 2001 e informacin geogrca de los
Nacer, Gertler, Giovagnoli y Martnez (2014) centros de salud. La obtencin de historiales
combinaron datos administrativos de diversas mdicos de los nacimientos individuales en
fuentes para formar una base de datos grande los hospitales de maternidad fue una de las
y exhaustiva para el anlisis. Despus de la tareas ms difciles. Cada hospital de mater-
falta de xito de diversas estrategias de eva- nidad recopilaba datos sobre la atencin pre-
luacin anteriores, los investigadores adopta- natal y los resultados al nacer, pero solo
ron un enfoque de variables instrumentales. cerca de la mitad de los registros estaban
Esto requiri una cantidad sustancial de datos digitalizados. El resto se compona de docu-
del universo de los registros de nacimientos mentos en papel, por lo que el equipo de eva-
de las siete provincias estudiadas. luacin tuvo que ingresar los registros en
Los investigadores necesitaban datos papel en el sistema computarizado.
sobre la atencin prenatal y los resultados al El equipo compil una base de datos
nacer, que se podan encontrar en los regis- exhaustiva del 78% de los nacimientos ocu-
tros de nacimientos de los hospitales pbli- rridos durante el perodo de evaluacin. Esto
cos. Luego tuvieron que determinar si la gener una base de datos grande que les
madre era beneciaria del Plan Nacer y si la permiti examinar el impacto del Plan Nacer
clnica que visitaba estaba incorporada en el en sucesos relativamente raros, como la
programa en el momento de la visita. Para mortalidad neonatal. Normalmente, esto no
construir una base de datos con toda esta es posible en las evaluaciones con muestras
informacin, el equipo de evaluacin vincul ms pequeas recopiladas a travs de
cinco diferentes fuentes de datos, inclu- encuestas. La evaluacin determin que los
yendo las bases de datos de los hospitales beneciarios del Plan Nacer tenan una proba-
pblicos de maternidad, los datos de imple- bilidad un 74% menor de mortalidad neonatal
mentacin del programa Plan Nacer, los en el hospital que los no beneciarios.
Fuente: Gertler, Giovagnoli y Martnez (2014).

Recuadro 16.2: Utilizacin de datos censales para reevaluar el
PRAF en Honduras
El objetivo del Programa de Asignacin investigadores un tamao muestral ms
Familiar (PRAF), de Honduras, es mejorar grande, lo que les permiti poner a prueba la
los resultados educativos y de salud de los robustez de los hallazgos, adems de los
nios pequeos que viven en condiciones efectos de derrame. Por otro lado, dado que
de pobreza. Proporciona transferencias contaban con datos del censo de todos los
monetarias a hogares elegibles en funcin municipios, pudieron aplicar dos diseos de
de la asistencia escolar y de las visitas a un regresin discontinua diferentes utilizando
centro de salud de manera regular. El pro- grupos de comparacin alternados. Para el
grama comenz en 1990. Un componente primer diseo de regresin discontinua, utili-
de la evaluacin se incluy en la segunda zaron el umbral de elegibilidad; para el
fase del PRAF en 1998. Glewwe y Olinto segundo, los lmites del municipio.
(2004) y Morris et al. (2004) informaron de Al igual que en las evaluaciones de
impactos positivos en los resultados en edu- impacto anteriores, Galiani y McEwan
cacin y salud. encontraron impactos positivos y estadsti-
Varios aos ms tarde, Galiani y McEwan camente signicativos a partir del programa.
(2013) reevaluaron el impacto del programa, Sin embargo, sus estimaciones indicaban
utilizando una fuente de datos diferente. que el PRAF haba tenido un impacto mucho
Mientras que la evaluacin de impacto origi- mayor que el impacto encontrado en la eva-
nal haba recopilado datos de encuesta de luacin original. Observaron que el PRAF
70 municipios sobre un total de 298, Galiani aumentaba la matriculacin escolar en los
y McEwan utilizaron datos del censo de nios elegibles en un 12% ms que en el
Honduras de 2001. As, fusionaron los datos grupo de comparacin. Los resultados de
individuales y de los hogares del censo con los diseos de regresin discontinua alterna-
los datos a nivel municipal sobre las comuni- dos generalmente conrman la robustez de
dades tratadas. Esto proporcion a los las conclusiones.
Fuente: Galiani y McEwan (2013).
ocasiones. Puede que la puesta en marcha de sistemas de informacin se

produzca antes de lanzar las nuevas intervenciones, de modo que los cen-
tros administrativos en el grupo de comparacin utilicen el nuevo sistema
de informacin antes de recibir la intervencin que se evala. Dado que la
calidad de los datos administrativos puede variar, requieren una auditora y
una vericacin externa para garantizar la abilidad de la evaluacin.
Recoger datos de la evaluacin de impacto a travs de fuentes administrati-
vas en lugar de hacerlo a travs de encuestas puede reducir drsticamente el
costo de una evaluacin, pero no siempre es viable.
Aun cuando los datos existentes no sean sucientes para toda la evaluacin
de impacto, a veces pueden ser utilizados en partes de la evaluacin.
Por ejemplo, en algunos casos, los programas recopilan datos detallados
sobre beneciarios potenciales para denir quin es elegible. O puede que
los datos del censo estn disponibles poco antes de que un programa se
implemente. En esos casos, los datos existentes a veces pueden ser utilizados
para documentar un equilibrio de lnea de base, en las caractersticas ante-
riores al programa, entre los grupos de tratamiento y comparacin, aunque
se seguiran necesitando datos de seguimiento adicionales para medir un
conjunto ms amplio de indicadores de resultados.
La recopilacin de datos de nuevas encuestas
Los datos existentes son sucientes para toda una evaluacin de impacto
solo en casos relativamente raros. Si los datos administrativos no son
sucientes para la evaluacin, muy posiblemente habr que depender de
datos de encuestas. Como consecuencia, lo ms probable es que se tenga que
presupuestar la recopilacin de nuevos datos. A pesar de que la recopilacin
de datos suele implicar el mayor costo de una evaluacin de impacto, tam-
bin puede ser una inversin de alto retorno de la que a menudo depende la
calidad de la evaluacin. La recopilacin de nuevos datos proporciona la e-
xibilidad para garantizar que se midan todos los indicadores necesarios para
una evaluacin integral del desempeo del programa.
La mayora de las evaluaciones de impacto requieren recopilar datos de
encuestas, incluyendo al menos una encuesta de lnea de base antes de la
intervencin o innovacin que se evala, y una encuesta de seguimiento
despus de que se ha implementado la intervencin. Los datos de las encues-
tas pueden ser de diversos tipos, en funcin del programa que se evala y de
la unidad de anlisis. Por ejemplo, las encuestas de empresas utilizan a las
rmas como la principal unidad de observacin, las encuestas de instalacio-
nes utilizan los centros de salud o las escuelas como la principal unidad de
observacin, y las encuestas de hogares utilizan los hogares como la princi-
pal unidad de observacin. La mayora de las evaluaciones dependen de
encuestas individuales o de hogares como fuente primaria de datos. En esta
seccin, se revisan algunos principios generales de la recopilacin de datos
de las encuestas. Aunque estos se reeren sobre todo a las encuestas de
hogares, los mismos principios son vlidos para la mayora de otros tipos de
datos de encuestas.
El primer paso para decidir si utilizar los datos existentes o recopilar
nuevos datos mediante encuestas ser determinar el enfoque del muestreo,
as como el tamao necesario de la muestra (como se analiz en el
captulo 15). Una vez que se decida recopilar datos de encuestas para la
evaluacin, habr que:
Determinar quin recopilar los datos.
Desarrollar y poner a prueba el instrumento de recopilacin de datos.
Llevar a cabo un trabajo de campo y realizar el control de calidad.
Procesar y almacenar los datos.
La implementacin de estos diversos pasos se suele contratar, pero es esen-
cial que se comprendan su alcance y sus componentes clave para poder
gestionar efectivamente una evaluacin de impacto de calidad.
Determinar quin recopilar los datos
Es necesario designar con antelacin a la agencia encargada de recopilar los

datos. Al momento de decidir quin lo hara, habr varias consideraciones.
Los candidatos potenciales para esta tarea son:
La institucin a cargo de implementar el programa.
Otra institucin gubernamental con experiencia en la recopilacin de
datos (como una agencia estadstica nacional).
Una empresa independiente o institucin especializada en recopilacin
de datos.
La entidad que recopile los datos siempre tiene que coordinarse estrecha-
mente con el organismo que implemente el programa. Se requiere una estre-
cha coordinacin para garantizar que las operaciones del programa no se
pongan en marcha antes de recopilar los datos de lnea de base. Cuando se
necesitan datos de lnea de base para el funcionamiento del programa (por
ejemplo, datos para un ndice de focalizacin, en el contexto de una evalua-
cin basada en un diseo de regresin discontinua), la entidad encargada de
la recopilacin de datos debe ser capaz de procesar los mismos rpidamente
y transmitirlos a la institucin encargada de las operaciones del programa.
Tambin se requiere una coordinacin estrecha de la programacin de la
recopilacin de datos de la encuesta de seguimiento. Por ejemplo, si se ha
elegido una implementacin con asignacin aleatoria, la encuesta de segui-
miento debe llevarse a cabo antes de que el programa se ponga en marcha en
el grupo de comparacin, para evitar la contaminacin.
Un factor sumamente importante en la decisin de quin recopilar los
datos es la utilizacin de los mismos procedimientos de recopilacin de
datos en los grupos de comparacin y de tratamiento. A menudo la agencia
de implementacin tiene contacto solo con el grupo de tratamiento y no est
en una buena posicin para recopilar datos de los grupos de comparacin.
Sin embargo, utilizar diferentes organismos de recopilacin de datos para
los grupos de tratamiento y de comparacin es muy riesgoso, dado que esto
puede crear diferencias en los resultados medidos en los dos grupos senci-
Concepto clave llamente porque los procedimientos de recopilacin de datos son diferen-
Deben utilizarse los tes. Si la agencia ejecutora no puede recopilar datos efectivamente de los
mismos procedimien- grupos de tratamiento y de comparacin, debera contemplarse seriamente
tos de recopilacin de la posibilidad de contratar una institucin o agencia externa.
datos tanto en los
En algunos contextos, tambin puede ser recomendable contratar una
grupos de comparacin
como de tratamiento. agencia independiente para recoger los datos con el n de garantizar que
estos se consideren objetivos. Puede que no se justiquen las preocupacio-
nes de que la agencia ejecutora del programa no recopile datos objetivos,
pero un organismo de recopilacin de datos independiente que no tiene
intereses en juego en los resultados de la evaluacin aade credibilidad al
esfuerzo general de evaluacin de impacto. Tambin puede garantizar que
los encuestados no perciban la encuesta como parte del programa y, de esta
manera, se minimiza el riesgo de que los encuestados den respuestas estra-
tgicas intentando aumentar lo que perciben como la posibilidad de partici-
par en un programa.
Dado que la recopilacin de datos comprende una secuencia compleja de
operaciones, se recomienda que una entidad especializada y experimentada
sea la responsable. Hay pocos organismos ejecutores de programas con su-
ciente experiencia para recopilar los datos a gran escala y preservar la cali-
dad, ambos criterios necesarios para una evaluacin de impacto. En la mayora
de los casos, se tendr que pensar en contratar a una institucin local, como
una agencia estadstica nacional o una empresa o think tank especializados.
La contratacin de una institucin local, como una agencia estadstica
nacional, puede exponer a la institucin a los estudios de evaluacin de
impacto y contribuir a mejorar su capacidad, lo cual en s mismo puede ser
un benecio secundario de la evaluacin de impacto. Sin embargo, las agen-
cias estadsticas nacionales no siempre tendrn la capacidad logstica para
asumir otros encargos adems de sus actividades regulares. Puede que tam-
bin carezcan de la experiencia necesaria para llevar a cabo encuestas para
las evaluaciones de impacto, como la experiencia de efectuar un seguimiento
exitoso de los individuos a lo largo del tiempo, o para aplicar instrumentos
de encuesta no tradicionales. Si estas limitaciones aparecen, contratar una
empresa independiente o institucin especializada en recopilacin de datos
puede ser lo ms prctico.
No siempre es necesario que sea la misma entidad la que recopila infor-
macin de las encuestas de lnea de base y de seguimiento, dado que pueden
variar en su alcance. Por ejemplo, en una evaluacin de impacto de un pro-
grama de capacitacin cuya poblacin de inters est compuesta por los indi-
viduos que se inscribieron en el curso, la institucin a cargo del curso podra
recopilar los datos de lnea de base cuando los individuos se inscriben.
Sinembargo,es poco probable que la misma agencia tambin sea la mejor
opcin para recopilar informacin de seguimiento, tanto para los grupos de
tratamiento como de comparacin. En este contexto, contratar rondas de
recopilacin de datos por separado tiene sus ventajas, pero se debera hacer
un esfuerzo para no perder informacin entre las rondas, informacin que
ser til para hacer un seguimiento de los hogares o de los individuos, as
como para asegurar que los datos de lnea de base y de seguimiento se midan
de manera consistente.
A n de decidir cul es la mejor institucin para recopilar los datos de la
evaluacin de impacto, deben sopesarse todos estos factores (experiencia en
la recopilacin de datos, capacidad de coordinar con la agencia ejecutora del
programa, independencia, oportunidades para la mejora de capacidades,
adaptabilidad al contexto de la evaluacin de impacto), junto con el costo
previsto y la probable calidad de los datos obtenidos en cada caso. Una
manera efectiva de identicar la organizacin mejor situada para recopilar
datos de calidad consiste en redactar trminos de referencia claros y pedir a
las organizaciones que presenten propuestas tcnicas y nancieras.
Dado que la entrega oportuna y la calidad de los datos suelen ser cruciales
para la abilidad de la evaluacin de impacto, el contrato para la agencia
encargada de la recopilacin de datos debe estructurarse con gran cuidado. El
alcance del trabajo previsto y los productos deben denirse con suma clari-
dad. Adems, se recomienda introducir incentivos en los contratos y vincular
esos incentivos a indicadores claros de la calidad de los datos. Por ejemplo, la
tasa de falta de respuesta es un indicador clave de la calidad de los datos. Para
crear incentivos con el n de que las agencias de recopilacin de datos mini-
micen las no respuestas, el contrato puede estipular un costo unitario para el
primer 80% de la muestra, un costo unitario superior para las unidades de
entre el 80% y el 90% y, una vez ms, un costo unitario superior para las uni-
dades de entre el 90% y el 100%. Como alternativa, se puede redactar un con-
trato por separado para que la empresa encuestadora realice un seguimiento
de los no encuestados. Adems, el contrato de la empresa de recopilacin de
datos puede incluir incentivos o condiciones relacionadas con la vericacin
de la calidad de los datos, como comprobaciones externas o auditoras de cali-
dad de una submuestra de la encuesta de evaluacin de impacto.
La elaboracin del instrumento de recopilacin de datos y las

pruebas piloto
Al contratar la recopilacin de datos, el equipo de evaluacin desempea un

rol clave proporcionando orientacin especca sobre el contenido de los
instrumentos o cuestionarios de la recopilacin de datos. Los instrumentos
de recopilacin de datos deben obtener toda la informacin requerida para
responder a la pregunta de las polticas denida por la evaluacin de
impacto. Como ya se ha sealado, los indicadores deben medirse a lo largo de
la cadena de resultados, lo que incluye los indicadores de los resultados na-
les, los resultados intermedios y las medidas de los benecios y la calidad de
la implementacin del programa.
Es importante ser selectivo acerca de qu indicadores medir. Ser selectivo
contribuye a limitar los costos de recopilacin de datos, simplica la tarea de
la agencia de recopilacin y mejora la calidad de los datos recopilados mini-
mizando las demandas de tiempo para encuestadores y encuestados. La
recopilacin de informacin que es irrelevante o que probablemente no se
utilizar tiene un costo muy alto. Los datos adicionales requieren ms tiempo
de preparacin, capacitacin, recopilacin y procesamiento. Con una dispo-
nibilidad y una capacidad de atencin limitadas, puede que los encuestados
proporcionen informacin de calidad cada vez ms inferior a medida que la
encuesta avanza, y los entrevistadores tendrn incentivos extra para ahorrar
tiempo con el n de cumplir con sus objetivos de la encuesta. Por lo tanto, las
preguntas superuas no son gratis. Tener objetivos claros para la evalua-
cin de impacto, alineados con objetivos del programa bien denidos, puede
ayudar a priorizar la informacin necesaria. Un plan de preanlisis elabo-
rado con antelacin (vanse los detalles en los captulos 12 y 13) contribuir
a asegurar que la encuesta recopile los datos requeridos para el anlisis de
impacto y evitar la inclusin de informacin superua (y costosa).
Es preferible recopilar datos sobre los indicadores de resultado y las
caractersticas de control de manera consistente en la lnea de base y en el
seguimiento. Contar con datos de lnea de base es sumamente recomenda-
ble. Aun cuando se utilice una asignacin aleatoria o un diseo de regresin
discontinua, donde en principio se pueden usar sencillas diferencias des-
pus de la intervencin para estimar el impacto de un programa, los datos de
lnea de base son esenciales para probar si el diseo de la evaluacin de
impacto es adecuado (vase el debate en la segunda parte). Contar con datos
de lnea de base puede servir como pliza de seguro cuando la asignacin
aleatoria no funciona, en cuyo caso se pueden utilizar mtodos de diferen-
cias en diferencias como alternativa. Los datos de lnea de base tambin son
tiles durante la etapa de anlisis del impacto, dado que las variables de con-
trol de lnea de base pueden contribuir a aumentar la potencia estadstica y
permitir analizar impactos en diferentes subpoblaciones. Por ltimo, los
datos de lnea de base pueden utilizarse para mejorar el diseo del pro-
grama. Por ejemplo, los datos de lnea de base a veces permiten analizar la
eciencia focalizada o proporcionan informacin adicional sobre los bene-
ciarios a la agencia que implementa el programa. En algunos casos, la
encuesta de seguimiento puede incluir un conjunto ms amplio de indica-
dores que la encuesta de lnea de base.
Una vez que se han denido los datos centrales que se debe recopilar, el Concepto clave
prximo paso consiste en determinar exactamente cmo medir esos indica- La medicin de los
dores. La medicin es un arte en s misma y es preferible que de ella se ocu- indicadores es un arte
y es necesario que sea
pen los especialistas, entre los cuales se hallan el equipo de investigacin de
gestionada por los
la evaluacin de impacto, la agencia contratada para recopilar datos, los especialistas, entre
expertos de las encuestas y los expertos en la medicin de indicadores com- ellos: el equipo de
plejos especcos. Los indicadores de resultado deberan ser lo ms consis- investigacin de la
tentes posible con las mejores prcticas locales e internacionales. Siempre evaluacin de impacto,
es til tener en cuenta cmo los indicadores de inters han sido medidos en la agencia contratada
para recopilar datos,
encuestas similares, tanto a nivel local como internacional. Utilizar los mis-
los expertos de
mos indicadores (lo que incluye los mismos mdulos o preguntas de las encuestas y los
encuestas) garantiza la comparabilidad entre los datos preexistentes y los expertos en la
datos recopilados para la evaluacin de impacto. Elegir un indicador que no medicin de
sea plenamente comparable o no est bien medido puede limitar la utilidad indicadores especcos
complejos.
de los resultados de la evaluacin. En algunos casos, puede que tenga sen-
tido invertir los recursos necesarios para recopilar el nuevo indicador de
resultado innovador, as como una alternativa ms establecida.
Se debe prestar particular atencin para asegurar que todos los indicado-
res se puedan medir exactamente de la misma manera para todas las unida-
des tanto del grupo de tratamiento como de comparacin. La utilizacin de
diferentes mtodos de recopilacin de datos (por ejemplo, una encuesta
telefnica para un grupo y una encuesta presencial para otro) crea el riesgo
de generar sesgos. Lo mismo sucede con la recopilacin de datos en diferen-
tes momentos para los dos grupos (por ejemplo, recopilar datos para el
grupo de tratamiento durante la estacin de lluvias y para el grupo de com-
paracin durante la estacin seca). Por esto, los procedimientos empleados
para medir cualquier indicador de resultado deberan formularse con suma
precisin. El proceso de recopilacin de datos debe ser exactamente el
mismo para todas las unidades. En un cuestionario, cada mdulo relacio-
nado con el programa debe introducirse sin afectar el ujo o la formulacin
de las respuestas en otras partes del cuestionario. De hecho, cuando sea
posible, es preferible evitar hacer cualquier distincin entre los grupos de
tratamiento y comparacin en el proceso de recopilacin de datos. En la
mayora de los casos, la agencia que lleve a cabo la recopilacin (o al menos
los encuestadores individuales) no debe tener motivos para conocer la con-
dicin de tratamiento o de comparacin de los individuos en la encuesta.
Una decisin crucial que hay que tomar se relaciona con la forma de
medir los indicadores de resultados, es decir: si se hace mediante encuestas
tradicionales basadas en cuestionarios y preguntas auto-reportadas o a tra-
vs de otros mtodos. En los ltimos aos, se han producido varios avances
para medir resultados o conductas clave que son relevantes en las evaluacio-
nes de impacto. Los avances incluyen el perfeccionamiento de los mtodos
para recopilar datos auto-reportados mediante cuestionarios, as como
tcnicas para medir directamente los resultados clave.
El diseo del cuestionario ha sido objeto de importantes investigaciones.
Se han escrito libros enteros sobre la mejor manera de medir indicadores
particulares en contextos especcos, incluyendo cmo redactar las pregun-
tas formuladas en las encuestas de hogares.1 Tambin hay una base de evi-
dencia creciente sobre la mejor manera de disear cuestionarios para
recopilar datos agrcolas, datos sobre el consumo o datos de empleo para
maximizar su precisin.2 Parte de la evidencia reciente proviene de experi-
mentos aleatorios que prueban diferentes maneras de estructurar cuestio-
narios y comparar su abilidad.3 De la misma manera, el diseo del
cuestionario requiere prestar atencin a las mejores prcticas internaciona-
les y a las experiencias locales en materia de medicin de indicadores.
Pequeos cambios en la redaccin o en la secuencia de las preguntas pueden
tener efectos sustanciales en los datos recopilados, de modo que en el desa-
rrollo del cuestionario es esencial prestar atencin a los detalles. Esto es
especialmente importante cuando se intenta asegurar la comparabilidad
entre diferentes encuestas, lo que implica, por ejemplo, medir los resultados
repetidas veces a lo largo del tiempo. El recuadro 16.3 aborda las directrices
relacionadas con el diseo del cuestionario y proporciona otras referencias.
Recuadro 16.3: Diseo y formato de los cuestionarios

Aunque el diseo del cuestionario en las partes interesadas pertinentes, y dedicar
evaluaciones de impacto es una parte inte- tiempo suciente a las iteraciones repetidas
gral de la calidad de los datos, a menudo se y a pruebas rigurosas:
lo ignora. El diseo de un cuestionario es un
1. Contenido. Se determina el contenido de
proceso complejo, extenso e iterativo que
una encuesta empezando por denir los
comprende numerosas decisiones a lo largo
efectos que hay que medir, las unidades
del camino a propsito de lo que se puede
de observacin y las correlaciones con
medir y cmo medirlo. El curso de mtodos
otros factores. Estas deniciones con-
de evaluacin de impacto aplicada de la
ceptuales luego tendrn que ser traduci-
Universidad de California, Berkeley (http://
das en indicadores concretos.
aie.cega.org) proporciona una gua para el
diseo del cuestionario, en el cual destacan 2. Redaccin. Se redactan las preguntas
tres fases: contenido, redaccin y puesta a para medir los indicadores selecciona-
prueba. A lo largo de estas fases, el mdulo dos. Se trata de un paso crucial, dado que
subraya la importancia de involucrar a las la calidad de los datos depende de ello.

Recuadro 16.3: Diseo y formato de los cuestionarios (contina)
El mdulo ofrece recomendaciones ms entrevistador se pueda referir a la denicin

detalladas sobre la redaccin de las pre- durante la entrevista si fuera necesario.
guntas, la organizacin de la encuesta, el
3. Las preguntas deben ser lo ms breves y
formato y otras consideraciones clave.
sencillas posible, y deben utilizar un len-
3. Pruebas. El cuestionario es probado en guaje comn y comprensible.
tres niveles: la pregunta, el mdulo y el
4. Los cuestionarios deben disearse de
conjunto de la encuesta.
manera que las respuestas a casi todas
El formato del cuestionario tambin es las preguntas estn precodicadas.
importante para asegurar datos de calidad.
5. El esquema de la codicacin de las
Dado que diferentes maneras de formular la
respuestas debera ser consistente en
misma pregunta en la encuesta puede
todas las preguntas.
generar respuestas diferentes, tanto el
marco como el formato de las preguntas 6. La encuesta debera incluir patrones
debera ser el mismo para todas las unida- de salto, que indican qu preguntas no
des con el n de evitar sesgos de los deberan formularse, sobre la base de
encuestados o los encuestadores. Naciones las respuestas dadas a las preguntas
Unidas (2005) formula seis recomendacio- anteriores.
nes especcas en relacin con el formato
Una vez que la persona encargada para
de los cuestionarios en las encuestas de
trabajar en el instrumento ha redactado un
hogares. Estas recomendaciones se aplican
cuestionario, este debe presentarse a un
tambin a la mayora de los dems instru-
equipo de expertos para ser debatido. Se
mentos de recopilacin de datos:
debe consultar a todos los que participan en
1. Se debe redactar cada pregunta detallada- el equipo de evaluacin (responsables de las
mente en el cuestionario de manera que polticas, investigadores, analistas de datos y
el entrevistador pueda dirigir la entrevista recopiladores de datos) a propsito de si el
leyendo cada pregunta palabra por palabra. cuestionario recoge toda la informacin que
se desea, de manera adecuada. La revisin
2. El cuestionario debe incluir deniciones
de un equipo de expertos es necesaria pero
precisas de todos los conceptos clave
no suciente, dado que la puesta a prueba
utilizados en la encuesta, de modo que el
intensiva en el terreno siempre es primordial.
Se ha ido desarrollado cada vez ms un conjunto de tcnicas para

obtener la medicin directa de resultados. Por ejemplo, en el sector de la
salud, a veces se utilizan casos clnicos para presentar sntomas concretos
a los trabajadores de la salud y evaluar si el proveedor recomienda el
tratamiento adecuado sobre la base de directrices y protocolos estableci-
dos. Estos casos clnicos proporcionan una medida directa de los
conocimientos de los proveedores de la salud. Las evaluaciones recientes
cuentan con pacientes estandarizados (tambin conocidos como pacien-
tes de incgnito o simulados) que visitan los centros de salud y evalan
directamente la calidad de los servicios prestados.4 En el sector de educa-
cin, numerosas evaluaciones pretenden calcular los impactos de los pro-
gramas en el aprendizaje de los alumnos. Para ello, se utiliza una gama de
evaluaciones del aprendizaje o mediciones directas de las habilidades de
los alumnos. Tambin se han desarrollado varias bateras de pruebas para
medir directamente el desarrollo cognitivo, lingstico o motor de los
nios pequeos en el contexto de las evaluaciones de impacto de las
intervenciones de desarrollo infantil temprano (DIT). Asimismo, se ha
progresado en la obtencin de mediciones directas de las habilidades de
los adultos, incluidas las habilidades socioemocionales o los rasgos de la
personalidad. Adems de la medicin directa de las habilidades, un
nmero creciente de evaluaciones de impacto apunta a obtener medicio-
nes de la calidad de la enseanza a travs de las observaciones directas de
la conducta de los profesores en el aula.
La observacin directa de resultados clave es particularmente importante
cuando se hace difcil obtener verazmente los resultados de inters de parte
de los encuestados. Por ejemplo, para evitar depender de los datos auto-
reportados para medir los resultados relacionados con los delitos o la violen-
cia, algunas evaluaciones de impacto han incorporado investigadores
capacitados en las comunidades de la muestra para que observen directa-
mente la conducta de los sujetos con mtodos etnogrcos. Esta observacin
directa puede eludir los problemas relacionados con conductas auto-repor-
tadas y proporcionar una informacin ms precisa cuando se lleva a cabo
adecuadamente. Los recientes avances tecnolgicos tambin permiten
mediciones directas de toda una gama de conductas humanas y,por lo tanto,
pueden contribuir a limitar el uso de datos auto-reportados. Entre otros
ejemplos, cabe sealar la observacin directa de la programacin en el
tiempo y la intensidad en el uso de cocinas mejoradas, y las mediciones
directas de la calidad del agua, del uso de letrinas y de la temperatura interior
utilizando sensores electrnicos.
Las evaluaciones de impacto suelen depender de una mezcla de encues-
tas basadas en cuestionarios tradicionales y otros mtodos con los que
observar directamente los resultados de inters. Por ejemplo, en el contexto
de la evaluacin de impacto del nanciamiento basado en resultados en el
sector de la salud, se mide una gama de indicadores a travs de fuentes com-
plementarias (Vermeersch, Rothenbhler y Sturdy, 2012). Una encuesta de
un centro de salud comprende una evaluacin del centro para medir sus
principales caractersticas, una entrevista con un trabajador de la salud para
estimar las caractersticas de este, y entrevistas de salida con los pacientes
para valorar los servicios prestados, as como indicadores de la calidad de
los cuidados mediante una mezcla de casos clnicos y observacin directa.
Las encuestas de hogares incluyen datos a nivel de los hogares sobre la
conducta de estos y de los individuos, como la frecuencia de las visitas al
centro, los cuidados recibidos y los gastos en salud, as como tambin mdu-
los a nivel individual de la salud de las mujeres y de los nios. Adems de
mediciones antropomtricas, se realizan pruebas biomdicas para medir
directamente la prevalencia de la anemia, la malaria o el VIH. Por ltimo, los
cuestionarios de las comunidades capturan caractersticas de la comunidad,
los servicios, la infraestructura, el acceso a los mercados, los precios y los
shocks a nivel comunitario.
Adems de desarrollar indicadores y encontrar la manera ms adecuada
para medirlos, otra decisin clave al recopilar nuevos datos es la tecnologa
de recopilacin utilizada. Los mtodos tradicionales recopilan los datos en
papel y luego los digitalizan, a menudo mediante un enfoque de entrada de
datos de doble ciego, que implica la presencia de dos agentes que digitan la
misma informacin por separado antes de comparar los datos para veri-
car las imprecisiones. Con los recientes avances tecnolgicos, los instru-
mentos de recopilacin de datos asistidos por computador se han vuelto
prevalentes. La recopilacin de datos mediante aplicaciones instaladas en
telfonos inteligentes o Tablets puede acelerar el procesamiento de datos,
yal mismo tiempo proporciona oportunidades para realizar vericaciones
de la calidad de los datos y validarlos en tiempo real. En el recuadro 16.4 se
abordan algunas de las ventajas y desventajas de la recopilacin electrnica
de datos.
Es sumamente importante que el instrumento de recopilacin de datos
sea probado en el terreno extensamente antes de nalizar. La realizacin
de pruebas piloto amplias del instrumento pondr a prueba su adecuacin
al contexto local y su contenido, y cualquier formato y opciones de redac-
cin alternativas, as como tambin los protocolos de recopilacin de datos,
incluida la tecnologa. Probar el instrumento de recopilacin de datos en
pruebas en el terreno es crucial para chequear su duracin y para vericar
que su formato sea sucientemente consistente y exhaustivo para producir
mediciones precisas de toda la informacin relevante. Las pruebas en el
terreno constituyen una parte integral de la elaboracin de los instrumen-
tos de recopilacin de datos.
Direccin del trabajo de campo y gestin del control de calidad
Aun cuando se contrate la recopilacin de datos con una entidad externa, es

crucial tener una comprensin clara de todos los pasos involucrados en este
proceso para garantizar que se hayan establecido los mecanismos de control
Recuadro 16.4: Algunas ventajas y desventajas de la recopilacin
electrnica de datos
Las entrevistas personales asistidas por Por ejemplo, Fafchamps et al. (2012)
computador (CAPI, por sus siglas en ingls, estudiaron los benecios del control
computer-assisted personal interviewing) de la consistencia en una encuesta de
brindan una alternativa a las entrevistas tradi- microempresas en Ghana. Observaron
cionales de lpiz y papel (PAPI, pen-and-paper que cuando se introducan los controles
interviewing). En las CAPI, primero se desde consistencia, la desviacin estndar
carga la encuesta en un aparato electrnico, de los datos sobre benecios y ventas
como una Tablet o un telfono inteligente. El era menor. Sin embargo, tambin obser-
entrevistador lee las preguntas en la pantalla varon que la mayor parte del tiempo no
e ingresa inmediatamente las respuestas en se requera una correccin: entre el 85%
el programa. Se han desarrollado diversos y el 97% de las veces, los encuestados
programas y aplicaciones para la recopilacin conrmaban la respuesta original.
de datos en CAPI. No obstante, el equipo de E Las entrevistas pueden ser ms breves y
evaluacin debe considerar detenidamente ms fciles. Cuando se utilizan las CAPI, el
los pros y contras de las CAPI. ujo del cuestionario se puede personalizar
Algunas ventajas: para orientar mejor a los entrevistadores a
E La recopilacin electrnica de datos travs de patrones de salto, y minimizar
puede mejorar la calidad de los datos. En los errores y omisiones en el cuestionario.
un experimento aleatorio diseado para En una encuesta de hogares conducida
comparar CAPI y PAPI para una encuesta en Tanzania, las entrevistas CAPI fueron,
sobre consumo en Tanzania, Caeyers, en promedio, un 10% ms breves que
Chalmers y De Weerdt (2012) observaron los cuestionarios similares recopilados
que los datos de las encuestas en papel en papel, segn las observaciones de
contenan errores que se evitaron en las Caeyers, Chalmers y De Weerdt (2012).
encuestas electrnicas. Los investiga- E La recopilacin electrnica de datos eli-
dores descubrieron que los errores en mina la necesidad del reingreso manual
los datos del PAPI estaban correlacio- de los datos. Esto puede reducir costos y
nados con ciertas caractersticas de los acelerar el procesamiento.
hogares, lo cual puede crear sesgos en E El uso de la tecnologa puede aportar una
algunos anlisis de datos. gama de benecios indirectos. Por ejem-
E Los programas de recopilacin elec- plo, al utilizar Tablets o telfonos inteligen-
trnica de datos pueden incluir sistemas tes, es fcil registrar las coordenadas de
de vericacin de consistencia automa- GPS o tomar fotos. Tambin se pueden
tizados. Ciertas respuestas pueden acti- introducir variaciones experimentales en
var mensajes de alerta de manera que el contenido de la encuesta. Con algunos
los errores de ingreso de los datos se programas, ciertas partes de la entrevista
minimizan y cualquier problema se aclara se pueden grabar con el n de facilitar la
con el encuestado durante la entrevista. calidad y los controles del monitoreo.

Recuadro 16.4: Algunas ventajas y desventajas de la recopilacin electrnica de datos (contina)
Algunas desventajas: a veces esto se torna difcil de conseguir.

E Los costos jos tienden ser ms eleva- Tambin es ms arduo desarrollar pro-
dos en las CAPI que en las PAPI, aunque gramas para cuestionarios que no estn
los costos variables pueden ser ms en ingls o en una lengua romance.
bajos. El costo inicial de comprar y pro- E Los problemas tecnolgicos pueden per-
gramar los aparatos electrnicos puede turbar la recopilacin de datos o daar la
resultar demasiado alto para los presu- consolidacin de datos en un sitio seguro.
puestos ms pequeos de evaluacin Pueden surgir problemas durante la
de impacto. Tambin se necesita ms recopilacin de datos, cuando el aparato
tiempo al comienzo para asegurar una electrnico tiene una pantalla pequea o
programacin y pruebas adecuadas de los una interfaz con la que los entrevistado-
cuestionarios electrnicos, que a menudo res no estn familiarizados. El riesgo de
se producen despus de que ya se han robo tambin es mayor en el caso de los
elaborado los cuestionarios en papel. aparatos electrnicos en comparacin
E Se requieren conocimientos tcnicos con las encuestas en papel. Por ltimo,
expertos especcos para programar la consolidacin y sincronizacin de los
los cuestionarios electrnicos y crear datos en un sitio seguro requiere proto-
procesos para gestionar el ujo de datos colos claros para minimizar el riesgo de
recopilados electrnicamente. En los prdida de datos. La transmisin elec-
pases en desarrollo con baja capacidad en trnica de datos es conveniente pero
materia de tecnologas de la informacin, requiere un nivel mnimo de conectividad.
Fuente: Caeters, Chalmers y De Weerdt (2012); Fafchamps et al. (2012).
de calidad requeridos y los incentivos correctos. La entidad encargada de

recopilar los datos tendr que coordinar el trabajo de un gran nmero
deactores diferentes, entre ellos los encuestadores, supervisores, coordina-
dores en el terreno y personal de apoyo logstico, adems del equipo que
ingresa los datos, compuesto por los programadores, los supervisores y los
operadores del ingreso de datos. Debe establecerse un plan de trabajo claro
para coordinar la labor de todos estos equipos y ese plan de trabajo es un
elemento clave.
Antes de que comience la recopilacin de datos, el plan de trabajo debe
incluir una capacitacin adecuada del equipo de recopilacin de datos. Se
debe elaborar un manual de referencia completo para la capacitacin, el cual
debe utilizarse a lo largo del trabajo de campo. La capacitacin es clave para
asegurar que todos los que participan recopilen los datos de manera consis-
tente. El proceso de capacitacin tambin es una buena oportunidad para
identicar a los mejores encuestadores y para llevar a cabo una ltima prueba
piloto de los instrumentos y los procedimientos en condiciones normales. Una
vez que se haya elaborado la muestra, que los instrumentos hayan sido disea-
dos y probados en pruebas piloto, y que los equipos hayan sido capacitados,
puede comenzar la recopilacin de datos. Es una buena prctica asegurar que
el plan de trabajo de campo que tiene cada equipo de la encuesta recopile
datos sobre el mismo nmero de unidades de tratamiento y comparacin.
Como se seal en el captulo 15, el muestreo adecuado es esencial para
asegurar la calidad de la muestra. Sin embargo, mientras se recopilan los datos
pueden producirse numerosos errores de no muestreo. En el contexto de una
evaluacin de impacto, una preocupacin particular es que aquellos errores
pueden no ser los mismos en los grupos de tratamiento y de comparacin.
Concepto clave La falta de respuesta surge cuando se vuelve imposible recopilar todos los
La no respuesta surge datos para algunas unidades de la muestra. Dado que las muestras reales
cuando faltan datos o utilizadas para el anlisis se limitan a aquellas unidades para las que se pue-
hay datos incompletos den recopilar datos, las unidades que deciden no responder a una encuesta
para algunas unidades pueden volver la muestra menos representativa y crear un sesgo en los
de la muestra. La no
respuesta puede crear
resultados de la evaluacin. El desgaste de la muestra es una forma habitual
sesgos en los de no respuesta que se produce cuando algunas unidades abandonan la
resultados de la muestra entre las rondas de recopilacin de datos; por ejemplo, los migran-
evaluacin. tes, de los que es difcil hacer un seguimiento.
El desgaste de la muestra debido a la no respuesta es especialmente pro-
blemtico en el contexto de las evaluaciones de impacto porque puede crear
diferencias entre el grupo de tratamiento y el grupo de comparacin. Por
ejemplo, el desgaste de la muestra puede ser diferente en los dos grupos: si
los datos se recopilan despus de que el programa ha comenzado a imple-
mentarse, la tasa de respuesta entre las unidades de tratamiento puede ser
ms elevada que entre las unidades de comparacin. Esto puede ocurrir por-
que estas ltimas se muestran descontentas por no haber sido seleccionadas
o porque es ms probable que migren. Las no respuestas tambin se pueden
producir en el propio cuestionario, normalmente porque faltan algunos
indicadores o porque los datos para una unidad particular son incompletos.
Los errores de medicin constituyen otro tipo de problema, que puede
generar sesgos si tiene lugar de forma sistemtica. El error de medicin es la
diferencia entre el valor de una caracterstica tal como la presenta el encuestado
y el valor verdadero (pero desconocido) (Kasprzyk, 2005). Esta diferencia se
explica por la manera en que el cuestionario est redactado o por el mtodo de
recopilacin de datos elegido, o puede producirse debido a los entrevistadores
que estn llevando a cabo la encuesta o al encuestado que responde.
La calidad de la evaluacin de impacto depende directamente de la
calidad de los datos recopilados. Es necesario especicar los estndares de
calidad para todas las partes interesadas en el proceso de recopilacin de
datos; estos estndares deberan subrayarse particularmente durante la
capacitacin de los encuestadores y en los manuales de referencia. Por Concepto clave
ejemplo, es esencial contar con procedimientos detallados para minimizar Las evaluaciones de
la no respuesta o (si es aceptable) reemplazar unidades en la muestra. La impacto con las
agencia de recopilacin de datos debe entender claramente las tasas acepta- mejores prcticas
bles de no respuesta y de desgaste de la muestra. Como referencia, numero- intentan mantener la
no respuesta y el
sas evaluaciones de impacto se proponen mantener la no respuesta y el
desgaste en el nivel
desgaste por debajo del 5%. El objetivo depender de la programacin en el ms bajo posible.
tiempo de la evaluacin de impacto y de la unidad de anlisis: se esperara
que el desgaste fuera menor en una encuesta que se produce poco despus
de la encuesta de lnea de base, y relativamente ms alto para las evaluacio-
nes de impacto de largo plazo que siguen a los individuos muchos aos ms
tarde. Tambin se esperaran tasas de desgaste ms elevadas en las poblacio-
nes muy mviles. Los encuestados a veces son compensados para minimizar
la no respuesta, aunque la introduccin de esa compensacin tiene que ser
estudiada detenidamente. En ocasiones, una vez que se han identicado
todas las unidades que se deben seguir, se selecciona aleatoriamente una
submuestra de estas unidades para un seguimiento muy intensivo, que
puede requerir esfuerzos adicionales o alguna forma de compensacin. En
cualquier caso, el contrato para la agencia recopiladora de datos debe conte-
ner incentivos claros, como una mayor compensacin si la tasa de no res-
puesta se mantiene por debajo de un umbral aceptable.
Se deben establecer procedimientos de garanta de calidad bien denidos
para todas las etapas de la recopilacin de datos, incluyendo el diseo del
procedimiento del muestreo y el cuestionario, las etapas de preparacin,
recopilacin de datos, ingreso de los datos, y limpieza y almacenamiento de
los mismos.
Se debera otorgar una gran prioridad a los controles de calidad durante el
trabajo de campo, con el n de minimizar los errores de cada unidad. Deben
existir procedimientos claros para volver a visitar las unidades que no hanpro-
porcionado informacin o que han proporcionado informacin incompleta.
Deben introducirse mltiples ltros en el proceso de control de calidad, por
ejemplo, contando con encuestadores, supervisores y, si fuera necesario, coor-
dinadores del trabajo de campo para que vuelvan a visitar a las unidades
queno respondieron para vericar su estatus. Los cuestionarios de las entre-
vistas con no respuesta deberan ser codicados con claridad y registrados.
Unavezque los datos han sido completamente digitalizados, las tasas de no
respuesta se pueden resumir y se puede dar cuenta de todas las unidades de
lamuestra.
Tambin deberan realizarse controles de calidad de cualquier dato
incompleto para una unidad encuestada en particular. Una vez ms, el pro-
ceso de control de calidad debe incluir mltiples ltros. El encuestador es el
responsable de vericar los datos inmediatamente despus de que han sido
recopilados. El supervisor y el coordinador del trabajo de campo deben lle-
var a cabo controles aleatorios en una etapa posterior.
Los controles de calidad de los errores de medicin son ms difciles pero
cruciales para evaluar si la informacin se ha recopilado con precisin. Los
controles de consistencia se pueden incorporar en el cuestionario. Adems,
los supervisores o controladores de calidad tienen que llevar a cabo controles
in situ, participando en las entrevistas para asegurar que los encuestadores
recopilen los datos segn los estndares de calidad establecidos. Se pueden
realizar vericaciones externas o auditoras de calidad con una submuestra
de la encuesta de evaluacin de impacto para asegurar que los datos recopi-
lados sean precisos. Esto a veces se lleva a cabo con un controlador de cali-
dad que recoge un subconjunto del cuestionario con un encuestado y
compara las respuestas con aquellas obtenidas anteriormente por un
encuestador con el mismo encuestado.
Los coordinadores del trabajo de campo o los miembros del equipo de
evaluacin tambin deberan contribuir con los controles de calidad para
minimizar los conictos de inters potenciales en la empresa encuestadora.
Puede que tambin sea necesario contratar una agencia externa para audi-
tar la calidad de las actividades de recopilacin de datos. Esto puede limitar
signicativamente la gama de problemas que puedan surgir debido a la falta
de supervisin del equipo de recopilacin de datos, o debido a procedimien-
tos insucientes de control de calidad.
En denitiva, es crucial que todos los pasos que intervienen en el control
de calidad se realicen explcitamente en los trminos de referencia cuando
se contrata la recopilacin de datos.
Procesamiento y almacenamiento de los datos
El procesamiento y la validacin de los datos es una parte integral de la reco-

pilacin de datos de una nueva encuesta. Incluye los pasos para digitalizar la
informacin de las encuestas de papel y lpiz, as como los pasos para validar
los datos tanto de estas ltimas como de la recopilacin electrnica mediante
ordenadores porttiles, telfonos inteligentes, Tablets u otros instrumentos.
Al trabajar con encuestas de papel y lpiz, se debe elaborar un programa de
entrada de datos y se debe instaurar un sistema para gestionar el ujo de
datos que sern digitados. Hay que establecer normas y procedimientos y
capacitar rigurosamente a los operadores de ingreso de datos para garantizar
que dicho ingreso sea consistente. En la medida de lo posible, el ingreso de
datos debera ser integrado en las operaciones de recopilacin de datos
(incluida la fase de prueba piloto), de manera que cualquier problema con los
datos recopilados se pueda identicar rpidamente y vericar en el terreno.
En general, la referencia de calidad para el proceso de entrada de datos
debera ser que los datos fsicos brutos fuesen replicados con exactitud en la
versin digitalizada, sin modicaciones mientras se ingresan. Para minimi-
zar los errores de ingreso de datos, se puede utilizar un procedimiento de
ingreso de datos de doble ciego, de modo de identicar y corregir cualquier
error adicional. Se puede aplicar un enfoque de entrada de campo asistida
por ordenador, que recopila los datos en una encuesta de lpiz y papel y luego
los digitaliza en el terreno y los valida de inmediato para identicar errores e
inconsistencias.
Tanto en las encuestas de papel y lpiz como en las encuestas que depen-
den de la recopilacin electrnica de datos, se pueden desarrollar progra-
mas para llevar a cabo controles automticos de los errores no muestrales
(tanto en las no respuestas como en inconsistencias de las entradas) que se
pueden producir en el terreno, y para validar los datos. Si el proceso de
validacin se integra en los procedimientos del trabajo de campo, se pue-
den devolver los datos incompletos o inconsistentes a los trabajadores en el
terreno para una vericacin in situ. Este tipo de integracin no est exenta
de dicultades en lo que se reere al ujo organizacional de las operacio-
nes del trabajo de campo, pero puede producir importantes mejoras de la
calidad, disminuir el error de medicin y aumentar la potencia estadstica
de la evaluacin de impacto. La posibilidad de utilizar un enfoque inte-
grado de este tipo debe contemplarse explcitamente cuando se planica la
recopilacin de datos. El uso de nuevas tecnologas puede facilitar esos
controles de calidad.
Como ya se ha sealado, la recopilacin de datos comprende un con-
junto de operaciones cuya complejidad no debera ser subestimada. El
recuadro16.5 trata de cmo el proceso de recopilacin de datos para la eva-
luacin de las pruebas piloto de atencin a crisis en Nicaragua produjo
datos de alta calidad con muy bajo desgaste y pocas no respuestas a las pre-
guntas, as como pocos errores de medicin y de procesamiento. Estos
datos de alta calidad se pueden obtener solo cuando se establecen los pro-
cedimientos de calidad de los datos y los incentivos adecuados al contratar
la recopilacin de datos.
Al nal del proceso de recopilacin, los datos deben presentarse con
documentacin detallada, lo que incluye un libro de cdigos completo y un
diccionario de datos, y deben almacenarse en un sitio seguro (vase el
recuadro 16.6). Si los datos estn siendo recopilados para una evaluacin de
impacto, el conjunto de datos tambin debe incluir informacin comple-
mentaria sobre la condicin de tratamiento y la participacin en el pro-
grama. Un paquete completo de documentacin acelerar el anlisis de los
datos de evaluacin de impacto, contribuir a producir resultados que se
pueden utilizar para la elaboracin de las polticas de manera oportuna y
facilitar la distribucin de la informacin y la potencial replicacin.
Recuadro 16.5: Recopilacin de datos para la evaluacin de las
pruebas piloto de atencin a crisis en Nicaragua
En 2005 el gobierno nicaragense lanz el estableci una supervisin en el terreno de
programa piloto Atencin a Crisis. Se ela- modo que todos los cuestionarios fueron revi-
bor un estudio para evaluar el impacto de sados varias veces por los encuestadores,
combinar un programa de transferencias supervisores, coordinadores del trabajo de
condicionadas con transferencias producti- campo y otros expertos. Tercero, se utiliz un
vas, como ayudas para invertir en actividades sistema de ingreso de datos de doble ciego,
no agrcolas o en formacin profesional. La junto con un programa exhaustivo de control
prueba piloto de Atencin a Crisis fue imple- de calidad que poda identicar los cuestiona-
mentada por el Ministerio de la Familia, con rios incompletos o inconsistentes. Los cues-
apoyo del Banco Mundial. tionarios donde faltaba informacin en ciertas
En la evaluacin se utiliz una asignacin preguntas o donde se observaban inconsis-
aleatoria en dos etapas. En primer lugar, se tencias eran devueltos sistemticamente al
asignaron 106 comunidades ya sea al grupo terreno para ser vericados. Estos procedi-
de comparacin o al grupo de tratamiento. mientos y requisitos fueron especicados de
En segundo lugar, en las comunidades de forma explcita en los trminos de referencia
tratamiento los hogares elegibles fueron de la empresa de recopilacin de datos.
asignados aleatoriamente a uno de tres Adems, se establecieron procedimientos
paquetes de benecios: transferencias con- detallados de seguimiento para minimizar el
dicionadas, la transferencia ms una ayuda desgaste. Al comienzo, en 2008, se llev a
que permita a uno de los miembros del cabo un censo de los hogares que residan en
hogar elegir entre diversos cursos de forma- las comunidades de tratamiento y de control,
cin profesional, y transferencias monetarias en estrecha colaboracin con los dirigentes
ms una ayuda para la inversin productiva, comunitarios. Dado que la migracin en el
destinada a estimular a los receptores para pas era habitual, a la empresa encargada de la
el inicio de una actividad no agrcola, con el encuesta se le ofrecieron incentivos para
n de crear activos y diversicar el ingreso hacer un seguimiento de los migrantes
(Macours, Premand y Vakis, 2012). individuales en todo el pas. Como consecuen-
En 2005 se llev a cabo una encuesta de cia, solo el 2% de los 4.359 hogares originales
lnea de base, en 2006 se produjo una pri- no pudieron ser entrevistados en 2009. La
mera encuesta de seguimiento y en 2008 se empresa de la encuesta tambin se encarg
realiz una segunda encuesta de segui- de dar seguimiento a todos los individuos de
miento, dos aos despus de nalizada la los hogares encuestados en 2005. Una vez
intervencin. Se establecieron rigurosos con- ms, solo no se pudo realizar el seguimiento
troles de calidad en todas las etapas del pro- de un 2% de los individuos objeto de las trans-
ceso de recopilacin de datos. Primero, los ferencias del programa (otro 2% haba falle-
cuestionarios fueron sometidos a una cido). El desgaste fue de un 6% para todos los
exhaustiva prueba en el terreno y se capacit nios de los hogares encuestados en 2005 y
a los encuestadores tanto en las aulas como de un 5% para todos los individuos en los
en las condiciones en el terreno. Segundo, se hogares encuestados en ese mismo ao.

Recuadro 16.5: Recopilacin de datos para la evaluacin de las pruebas piloto de atencin a crisis en
Nicaragua (contina)
Las tasas de desgaste y de no respuesta recopilacin de datos. Aun as, en el contexto
proporcionan un buen indicador de la calidad de la prueba piloto de Atencin a Crisis, la
de la encuesta. Las tasas de desgaste muy muestra sigui siendo representativa tanto a
bajas requieren grandes esfuerzos de la nivel de los hogares como de los individuos
empresa de recopilacin de datos, as como tres a cuatro aos despus de la lnea de base;
incentivos explcitos. El costo unitario de un se minimizaron los errores de medicin, y se
hogar o individuo objeto de un seguimiento garantiz la abilidad de la evaluacin. Como
tambin es mucho mayor. Adems, en este consecuencia, los impactos de largo plazo de
caso, los controles de calidad rigurosos aa- las pruebas piloto de Atencin a Crisis pudie-
dieron costos y aumentaron el tiempo de ron ser analizados de manera convincente.
Fuente: Macours, Premand y Vakis (2012).
Recuadro 16.6: Directrices para la documentacin y el

almacenamiento de datos
La prctica clave en la documentacin de E Los archivos de control de identidad
datos consiste en mantener un registro de contienen toda la informacin antes de
todos los datos de la evaluacin de impacto. que se vuelva annima. Deben guardarse
Esto implica los protocolos de recopilacin solo en un servidor seguro y nunca inclu-
de datos, los cuestionarios, los manuales de irse en un catlogo de datos.
formacin y otros. El Banco Mundial, el E Los macrodatos comprenden todos los
Banco Interamericano de Desarrollo (BID) y documentos de apoyo relevantes para la
la Millenium Challenge Corporation, entre interpretacin de los microdatos, el dicciona-
otros organismos, tienen iniciativas de datos rio de datos, el libro de cdigos, la descripcin
abiertos que ponen estos datos a disposicin del diseo del estudio y los cuestionarios.
del pblico mediante un catlogo de datos. La catalogacin de los macrodatos y microda-
El almacenamiento se puede descompo- tos contribuye a proteger la seguridad de los
ner en tres categoras: microdatos, macrodatos y cumple las normas internacionales
datos y archivos de control de identidad. sobre almacenamiento de datos. Los catlo-
E Los microdatos son datos al nivel de la gos de los datos centrales son mucho menos
unidad de observacin, que permanece vulnerables al mal funcionamiento o a la intru-
annima y no incluye ninguna informacin sin que el disco duro de un computador o
que identique a los individuos. Las vari- un instrumento porttil de almacenamiento.
ables de identicacin relevantes guardan el En ciertos catlogos de datos, los datos
anonimato de la identicacin, que est vin- pueden permanecer protegidos por una con-
culada solo a la informacin de los encuesta- trasea durante un perodo determinado
dos en los cheros de control de identidad. antes de estar disponibles al pblico.

Otros recursos

Para una gua del diseo del cuestionario, vase el mdulo sobre Tcnicas del
trabajo de campo aplicadas en el curso de mtodos de evaluacin de impacto
de la Universidad de California (http://aie.cega.org).
Para entradas en los blogs sobre recopilacin de datos, vase la lista docu-
mentada del blog de impacto en el desarrollo del Banco Mundial (http://blogs
.worldbank.org/impactevaluations).
Para ms informacin sobre la recopilacin de datos, vase el siguiente
material:
A. G. Fink y J. Kosecoff (2008), How to Conduct Surveys: A Step by Step
Guide, cuarta edicin. Londres: Sage.
G. Iarossi (2006), The Power of Survey Design: A Users Guide for Managing
Surveys, Interpreting Results, and Inuencing Respondents. Washington,
E. Leeuw, J. Hox y D. Dillman (2008), International Handbook of Survey
Methodology. Nueva York: Taylor & Francis Group.
Para ms informacin sobre las actividades de recopilacin de datos y supervisin
de calidad de los datos, vase el Kit de Herramientas de Evaluacin de Impacto
(Impact Evaluation Toolkit) del Banco Mundial, Mdulo 5 sobre recopilacin de
datos (http://www.worldbank.org/ health/impactevaluationtoolkit). El mdulo
incluye varios ejemplos de informes de progreso de la encuesta, manuales para el
trabajo de campo y programas de capacitacin para los hogares y centros de salud.
Para diversos materiales de orientacin y preparacin de una encuesta, vase
el portal de evaluacin del Banco Interamericano de Desarrollo (http://
www.iadb.org/portalevaluacion). En la seccin de recopilacin de datos,
puede descargarse:
Un manual para el diseo del cuestionario.
Un manual de ingreso de datos.
Formularios de consentimiento, cuestionarios de la muestra, programas de
ingreso de datos y manuales para el trabajo de campo en diferentes tipos
de encuestas, entre ellas encuestas de hogares, de comunidades, de centros
desalud, escuelas y agricultores.
Enlaces con otros ejemplos de preguntas y cuestionarios de las encuestas.
Enlaces con directrices para la recopilacin de datos de calidad.
Enlaces con instrumentos disponibles en el sitio web de International
Household Survey Network (IHSN) para almacenamiento y gestin de
datos.
Para ms informacin sobre las razones de la importancia de la documentacin
de datos, cmo se puede llevar a cabo y quin es el responsable de ello en el
equipo de evaluacin, vase el Kit de Herramientas de Evaluacin de Impacto
(Impact Evaluation Toolkit) del Banco Mundial, Mdulo 6, sobre almacenamiento
de datos (http://www.worldbank.org/ health/impactevaluationtoolkit).
Notas
1. Vanse referencias en Grosh y Glewwe (2000) y Naciones Unidas (2005).

Vanse tambin Muoz (2005); Iarossi (2006); Fink y Kosecoff (2008), y Leeuw,
Hox y Dillman (2008), que proporcionan abundante orientacin prctica sobre
la recopilacin de datos.
2. Consltese McKenzie y Rosenzweig (2012) para una visin general de los
ltimos avances.
3. Para ejemplos de este tipo de experimentos, vanse McKenzie y Rosenzweig
(2012) en temas generales; Beegle, Carletto y Himelein (2012) sobre datos
agrcolas; Beegle et al. (2012) sobre la medicin del consumo de los hogares, y
Bardasi et al. (2011) sobre datos laborales.
4. Para ejemplos de innovaciones en la medicin de resultados, vase Holla (2013);
Das y Hammer (2007), y Planas et al. (2015).
Baird, S. y B. zler. 2012. Examining the Reliability of Self-reported Data on

School Participation. Journal of Development Economics 98 (1): 8993.
Bardasi, E., K. Beegle, A. Dillon, A. y P. Serneels. 2011. Do Labor Statistics
Depend on How and to Whom the Questions Are Asked? Results from a
Survey Experiment in Tanzania. The World Bank Economic Review
25(3):41847.
Beegle, K., C. Carletto y K. Himelein. 2012. Reliability of Recall in Agricultural
Data. Journal of Development Economics 98 (1): 3441.
Beegle, K., J. De Weerdt, J. Friedman y J. Gibson. 2012. Methods of Household
Consumption Measurement through Surveys: Experimental Results from
Tanzania. Journal of Development Economics 98 (1): 318.
Caeyers, B., N. Chalmers y J. De Weerdt. 2012. Improving Consumption
Measurement and Other Survey Data through CAPI: Evidence from a
Randomized Experiment. Journal of Development Economics 98 (1): 1933.
Chetty, R., J. N. Friedman y E. Sez. 2013. Using Differences in Knowledge across
Neighborhoods to Uncover the Impacts of the EITC on Earnings. American
Das, J. y J. Hammer. 2007. Money for Nothing: The Dire Straits of Medical Practice
in Delhi, India. Journal of Development Economics 83 (1): 136.
Fafchamps, M., D. McKenzie, S. Quinn y C. Woodruff. 2012. Using PDA
Consistency Checks to Increase the Precision of Prots and Sales Measurement
in Panels. Journal of Development Economics 98 (1): 5157.
Ferraz, C. y F. Finan. 2008. Exposing Corrupt Politicians: The Effects of Brazils
Publicly Released Audits on Electoral Outcomes. The Quarterly Journal of
Economics 123 (2): 70345.
Fink, A. G. y J. Kosecoff. 2008. How to Conduct Surveys: A Step by Step Guide, cuarta
edicin. Londres: Sage.
Galiani, S., P. Gertler y E. Schargrodsky, E. 2005. Water for Life: The Impact of the
Privatization of Water Services on Child Mortality. Journal of Political Economy
113 (1): 83120.
Galiani, S. y P. McEwan. 2013. The Heterogeneous Impact of Conditional Cash
Transfers. Journal of Public Economics 103: 8596.
Gertler, P., P. Giovagnoli y S. Martnez. 2014. Rewarding Provider Performance
toEnable a Healthy Start to Life: Evidence from Argentinas Plan Nacer.
Documento de trabajo de investigacin de polticas Nm. 6884. Washington,
Glewwe, P. 2005. An Overview of Questionnaire Design for Household Surveys in
Developing Countries. En: Household Sample Surveys in Developing and
Transition Countries. Nueva York: Naciones Unidas.
Glewwe, P. y P. Olinto. 2004. Evaluating the Impact of Conditional Cash Transfers
on Schooling: An Experimental Analysis of Honduras PRAF Program. Informe
nal. University of Minnesota y IFPRI-FCND.
Grosh, M. y P. Glewwe (eds.). 2000. Designing Household Survey Questionnaires for
Developing Countries: Lessons from 15 Years of the Living Standards
Measurement Study. Washington, D.C.: Banco Mundial.
Holla, A. 2013. Measuring the Quality of Health Care in Clinics. Washington, D.C.:
Banco Mundial. Disponible en http://www.globalhealthlearning.org/sites
/default/les/page-les/Measuring%20Quality%20of%20Health%20
Care_020313.pdf.
Iarossi, G. 2006. The Power of Survey Design: A Users Guide for Managing Surveys,
Interpreting Results, and Inuencing Respondents. Washington, D.C.: Banco
Mundial.
Kasprzyk, D. 2005. Measurement Error in Household Surveys: Sources and
Measurement. En: Household Sample Surveys in Developing and Transition
Countries. Nueva York: Naciones Unidas.
Leeuw, E., J. Hox y D. Dillman. 2008. International Handbook of Survey
Methodology. Nueva York: Taylor & Francis Group.
Macours, K., P. Premand y R. Vakis. 2012. Transfers, Diversication and
Household Risk Strategies: Experimental Evidence with Implications for
Climate Change Adaptation. Documento de trabajo de investigacin de
polticas Nm. 6053. Washington, D.C.: Banco Mundial.
McKenzie, D. y M. Rosenzweig. 2012. Symposium on Measurement and Survey
Design. Journal of Development Economics 98 (1, Mayo): 1148.
Morris, S. S., R. Flores, P. Olinto y J. M. Medina. 2004. Monetary Incentives in
Primary Health Care and Effects on Use and Coverage of Preventive Health
Care Interventions in Rural Honduras: Cluster Randomized Trial. Lancet 364:
203037.
Muoz, J. 2005. A Guide for Data Management of Household Surveys. En:
Household Sample Surveys in Developing and Transition Countries. Nueva York:
Naciones Unidas.
Naciones Unidas. 2005. Household Sample Surveys in Developing and Transition
Countries. Nueva York: Naciones Unidas.

Planas, M-E, P. J. Garca, M. Bustelo, C. P. Crcamo, S. Martnez, H. opo,
J.Rodrguez, M. F. Merino y A. Morrison. 2015. Effects of Ethnic Attributes on
the Quality of Family Planning Services in Lima, Peru: A Randomized Crossover
Trial. PLoS ONE 10 (2): e0115274.
Pradhan, M. y L. B. Rawlings. 2002. The Impact and Targeting of Social
Infrastructure Investments: Lessons from the Nicaraguan Social Fund.
WorldBank Economic Review 16 (2): 27595.

CAPTULO 17
Conclusiones
Las evaluaciones de impacto: ejercicios

complejos pero valiosos
La evaluacin de impacto tiene que ver con generar evidencia sobre qu

programas funcionan, qu programas no lo hacen y cmo mejorarlos para
lograr mejores resultados en materia de desarrollo. Esto se puede realizar
en un marco clsico de evaluacin de impacto, contrastando los resultados
entre grupos de tratamiento y comparacin. Las evaluaciones de impacto
tambin se pueden llevar a cabo para explorar alternativas de implementa-
cin de un programa, para probar innovaciones o analizar diferentes pro-
gramas con el n de evaluar el desempeo comparativamente.
La idea que subyace a este trabajo es que las evaluaciones de impacto
constituyen una inversin valiosa para numerosos programas. Junto con el
monitoreo y otras formas de evaluacin, optimizan la comprensin de la
efectividad de determinadas polticas; contribuyen a una rendicin de
cuentas mejorada de los administradores del programa, los gobiernos, los
nanciadores y el pblico en general; fundamentan decisiones acerca de
cmo asignar de manera ms eciente los escasos recursos para el desarro-
llo, y aportan al acervo global de conocimientos sobre lo que funciona y no
funciona en el campo del desarrollo.
355
Lista de vericacin: elementos centrales de una
evaluacin de impacto bien diseada
Las evaluaciones de impacto son ejercicios complejos con numerosas partes

cambiantes. La siguiente lista de vericacin destaca los elementos centra-
les de una evaluacin de impacto bien diseada:
Una pregunta concreta y relevante para las polticas basada en una

teora del cambio a la que se puede responder con una evaluacin de
impacto.
Una metodologa robusta, derivada de las reglas operativas del programa,

para estimar un contrafactual que muestre la relacin causal entre el
programa y los resultados de inters.
Un equipo de evaluacin bien formado que funcione como la

asociacin de un equipo de polticas pblicas y un equipo de
investigacin.
Respeto por las normas ticas y consideracin por los sujetos humanos
en el diseo y la implementacin de la evaluacin y la recopilacin de
datos correspondiente, as como atencin a los principios de ciencia
abierta para asegurar la transparencia.
Una muestra con suciente potencia estadstica para permitir que se

detecten los impactos relevantes para las polticas.
Una metodologa y una muestra que proporcionen resultados generaliza-

bles para la poblacin de inters.
Datos de gran calidad que proporcionen la informacin adecuada reque-

rida para la evaluacin de impacto, incluidos los datos de los grupos de
tratamiento y de comparacin, los datos de lnea de base y de segui-
miento, y la informacin sobre la implementacin y los costos del
programa.
Una estrategia de participacin para fundamentar el dilogo de polticas

a travs de la implementacin de la evaluacin de impacto, as como tam-
bin un informe de evaluacin de impacto y notas informativas de las
polticas relacionadas divulgadas al pblico objetivo en el momento
oportuno.

Lista de vericacin: recomendaciones para
mitigar riesgos habituales al llevar adelante
una evaluacin de impacto
Tambin se destacan algunas recomendaciones que pueden contribuir a

mitigar los riesgos habituales inherentes al proceso de realizacin de una
evaluacin de impacto:
El mejor momento para disear una evaluacin de impacto es temprano

en el ciclo del proyecto, idealmente como parte del diseo del programa,
pero al menos antes de implementar el programa que se evala. Una pla-
nicacin temprana permite un diseo de evaluacin prospectivo basado
en la mejor metodologa disponible, y brindar el tiempo necesario para
planicar e implementar la recopilacin de datos de lnea de base en los
mbitos de la evaluacin antes de que comience el programa.
Los resultados de la evaluacin de impacto deben acompaarse con

evaluaciones complementarias del proceso y datos de monitoreo que
muestren un cuadro claro de la implementacin del programa. Cuando
los programas tienen xito, es importante entender por qu. Cuando los
programas fracasan, es importante poder distinguir entre un programa
mal implementado y un diseo de programa deciente.
Se deben recopilar los datos de lnea de base e incorporar una metodolo-

ga de respaldo en el diseo de la evaluacin de impacto. Si el diseo de la
evaluacin original es invalidado por ejemplo, porque el grupo de com-
paracin original recibe los benecios del programa, contar con un plan
de respaldo puede ayudar a evitar tener que renunciar por completo a la
evaluacin.
Se deben mantener identicadores comunes entre diferentes fuentes de

datos para las unidades de observacin, de modo que se les pueda rela-
cionar fcilmente durante el anlisis. Por ejemplo, un determinado
hogar debe tener el mismo identicador en los sistemas de monitoreo y
en las encuestas de lnea de base y de seguimiento de la evaluacin de
impacto.
Las evaluaciones de impacto son tiles para aprender cmo funcionan

los programas y para probar alternativas de programas, incluso en el caso
de grandes programas en curso. Las evaluaciones de impacto bien
Conclusiones 357
diseadas pueden contribuir a probar innovaciones o a proporcionar
nuevas perspectivas de la efectividad relativa de diversos productos y
servicios prestados como un paquete de programas existentes. Incorporar
una innovacin adicional al programa como un pequeo plan piloto en el
contexto de una evaluacin ms grande puede servir para aprovechar la
evaluacin a n de producir informacin valiosa para la toma de decisio-
nes en el futuro.
Se debe pensar en las evaluaciones de impacto como otro de los compo-
nentes de la operacin de un programa y se les debe dotar de personal
adecuado y de un presupuesto que contemple los recursos tcnicos y
nancieros necesarios. Es preciso ser realista acerca de los costos y la
complejidad de llevar a cabo una evaluacin de impacto. Normalmente,
el proceso de disear una evaluacin y recopilar una lnea de base desde
cero puede tardar un ao o ms. Una vez que el programa comienza, el
grupo de tratamiento necesita un perodo sucientemente largo de expo-
sicin a la intervencin para inuir en los resultados. Dependiendo del
programa, esto puede tardar entre un ao y cinco aos, o ms en el caso
de resultados de largo plazo. Recopilar una o ms encuestas de segui-
miento, llevar a cabo el anlisis y divulgar los resultados tambin reque-
rir un esfuerzo considerable a lo largo de varios meses y aos. En su
conjunto, un ciclo completo de evaluacin de impacto desde el comienzo
hasta el nal suele durar entre tres y cuatro aos de intensivo trabajo y
participacin. Se requieren recursos nancieros y tcnicos adecuados en
cada paso del proceso.
Eventualmente, las evaluaciones de impacto individuales ofrecen res-
puestas concretas a preguntas especcas de polticas pblicas. Aunque
estas respuestas proporcionan informacin hecha a la medida de la enti-
dad especca que encarga y nancia la evaluacin, tambin brindan
informacin valiosa para otros agentes en otras partes del mundo, que
pueden aprender y tomar decisiones sobre la base de la evidencia. Por
ejemplo, los programas de transferencias condicionadas de frica, Asia
y Europa han extrado enseanzas de las evaluaciones originales de
Familias en Accin de Colombia, Progresa de Mxico y otros programas
de transferencias condicionadas de Amrica Latina. De esta manera, las
evaluaciones de impacto constituyen en parte un bien pblico global. La
evidencia que se genera a travs de una evaluacin de impacto se suma al
conocimiento mundial sobre este tema. Esta base de conocimientos luego
puede fundamentar decisiones de polticas de otros pases y contextos,
prestando la atencin adecuada a la validez externa. La comunidad inter-
nacional ha avanzado rpidamente hacia un apoyo de mayor escala de
evaluaciones rigurosas.
A nivel de pas, gobiernos cada vez ms sosticados y exigentes esperan
demostrar resultados y ser ms capaces de rendir cuentas ante sus electores
clave. Se emprenden cada vez ms evaluaciones de impacto de la mano de
los ministerios nacionales y subnacionales pertinentes, y los rganos de
gobierno creados para dirigir una agenda nacional de evaluacin, como el
Consejo Nacional de Evaluacin de la Poltica de Desarrollo Social, en
Mxico, y el Departamento de Monitoreo y Evaluacin del Desempeo
en Sudfrica (Department of Performance Monitoring and Evaluation).
Tambin se utiliza la evidencia de estas evaluaciones para fundamentar las
asignaciones presupuestarias propuestas por el Congreso y el Parlamento a
nivel nacional. En los sistemas donde los programas se juzgan a partir de la
evidencia y los resultados nales, los programas que tienen una slida base
de evidencia para defender resultados positivos podrn salir adelante,
mientras que los que carecen de dichas pruebas tendrn ms dicultades
para encontrar nanciamiento.
Las instituciones multilaterales como el Banco Mundial y el Banco
Interamericano de Desarrollo (BID), as como los organismos nacionales de
desarrollo, los gobiernos donantes y las instituciones lantrpicas tambin
exigen ms y mejor evidencia sobre el uso efectivo de los recursos para el
desarrollo. Esta evidencia se requiere para rendir cuentas a quienes prestan
o donan el dinero, y para la toma de decisiones acerca de dnde es mejor
asignar los escasos recursos para el desarrollo.
Asimismo, est emergiendo un nmero creciente de instituciones
dedicadas principalmente a la produccin de evaluaciones de impacto de
alta calidad, entre ellas las del mbito acadmico como Poverty Action Lab
(J-Pal), Innovations for Poverty Action (IPA), y el Center for Effective
Global Action (CEGA), y organismos independientes que apoyan las eva-
luaciones de impacto, como la Iniciativa Internacional para la Evaluacin
de Impacto (3ie). Hay diversas asociaciones que renen a grupos de profe-
sionales de la evaluacin e investigadores y responsables de las polticas
interesados en el tema, entre ellas la Network of Networks on Impact
Evaluation y asociaciones regionales como la African Evaluation
Association y la Red de Evaluacin de Impacto de la Asociacin Econmica
de Amrica Latina y el Caribe. Todas estas iniciativas reejan la creciente
importancia de la evaluacin de impacto en las polticas internacionales de
desarrollo.
Debido a estos avances, poder comunicarse en el lenguaje de la evaluacin
de impacto es una habilidad cada vez ms indispensable para cualquier pro-
fesional del desarrollo, ya sea para quienes se ganan la vida trabajando en eva-
luaciones, o bien para los que contratan evaluaciones de impacto o utilizan
los resultados de las mismas en la toma de decisiones. La rigurosa evidencia
generada a travs de las evaluaciones de impacto puede ser uno de los
Conclusiones 359
motores del dilogo de polticas para el desarrollo, y proporcionar la base
para apoyar o para oponerse a las inversiones en programas y polticas de
desarrollo. La evidencia de las evaluaciones de impacto permite a los respon-
sables de las polticas y a los administradores de los proyectos tomar decisio-
nes fundamentadas sobre cmo alcanzar resultados de la manera ms
costo-efectiva. Armado con la evidencia de una evaluacin de impacto, el
equipo de polticas pblicas tiene el deber de cerrar el ciclo incorporando
esos resultados en el proceso de toma de decisiones. Este tipo de evidencia
puede respaldar debates, opiniones y, en denitiva, las decisiones de asigna-
cin de recursos humanos y monetarios de los gobiernos, las instituciones
multilaterales y losdonantes.
La elaboracin de polticas basadas en la evidencia tiene que ver esen-
cialmente con fundamentar el diseo de programas y mejorar la asignacin
presupuestaria para ampliar los programas costo-efectivos, eliminar los
inefectivos e introducir mejoras en los diseos sobre la base de la mejor
evidencia disponible. Las evaluaciones de impacto no son una empresa
puramente acadmica. Son el resultado de la necesidad de encontrar
respuestas a las preguntas de polticas que inuyen en la vida diaria de las
personas. Las decisiones sobre cul es la mejor manera de asignar recursos
escasos a los programas de lucha contra la pobreza, o de transporte, energa,
salud, educacin, de redes de proteccin, microcrditos, agricultura, y otras
innumerables iniciativas para el desarrollo, tienen el potencial para mejorar
el bienestar de las personas en todo el mundo. Es vital que esas decisiones se
tomen utilizando la evidencia ms rigurosa posible.

GLOSARIO
Los trminos que llevan cursiva dentro de las deniciones se denen a su vez dentro
del propio glosario.
Actividad. Medidas adoptadas o trabajo realizado a travs del cual los insumos,
como los fondos, la asistencia tcnica y otro tipo de recursos que se movilizan para
generar productos especcos, como el dinero gastado, los libros de texto distribui-
dos o el nmero de participantes en un programa de empleo.
Anlisis de costo-benecio. Estima los benecios totales previstos de un
programa, en comparacin con sus costos totales previstos. Su n es cuanticar
todos los costos y benecios de un programa en trminos monetarios y evaluar si los
benecios superan a los costos.
Anlisis de costo-efectividad. Compara el costo relativo de dos o ms programas
o alternativas de programa en trminos de alcanzar un resultado comn, como la
produccin agrcola o las calicaciones de los alumnos en los exmenes.
Anlisis de regresin. Mtodo estadstico para analizar las relaciones entre una
variable dependiente (la variable que se debe explicar) y variables explicativas. El
anlisis de regresin normalmente no es suciente para capturar los efectos causales.
En la evaluacin de impacto, el anlisis de regresin es una manera de representar la
relacin entre el valor de un indicador de resultado Y (variable dependiente) y una
variable independiente que captura la asignacin al grupo de tratamiento o grupo de
comparacin, mientras se mantienen constantes otras caractersticas. Tanto la asig-
nacin al grupo de tratamiento y de comparacin como las dems caractersticas son
variables explicativas. El anlisis de regresin puede ser univariante (si hay solo una
variable explicativa; en el caso de la evaluacin de impacto, la nica variable explica-
tiva es la asignacin al grupo de tratamiento o de comparacin) o multivariante
(sihay varias variables explicativas).
Anlisis de sensibilidad. Trata de la sensibilidad del anlisis ante los cambios en
los supuestos. En el contexto de los clculos de potencia, contribuye a comprender
361
cunto tendr que aumentar el tamao requerido de la muestra bajo supuestos ms
conservadores (como un menor impacto esperado, una mayor variacin en el
indicador de resultado o un nivel ms alto de potencia).
Asignacin aleatoria o ensayo controlado aleatorio. Mtodo de evaluacin de
impacto por el cual cada unidad elegible (por ejemplo, un individuo, un hogar, una
empresa, una escuela, un hospital o una comunidad) tiene la misma probabilidad
de ser seleccionada para ser tratada en un programa. Con un nmero suciente-
mente grande de unidades, el proceso de asignacin aleatoria garantiza la equiva-
lencia tanto en las caractersticas observables como no observables entre el grupo
de tratamiento y el grupo de comparacin, y as se descarta cualquier sesgo de
seleccin. La asignacin aleatoria se considera el mtodo ms robusto para estimar
los contrafactuales y se le suele considerar como la regla de oro de la evaluacin de
impacto.
Cadena de resultados. Establece la lgica causal del programa explicando cmo se
logra el objetivo de desarrollo. Articula la secuencia de insumos, actividades y
productos que se espera que mejoren los resultados.
Clculos de potencia. Mtodo para determinar cul es el tamao de la muestra
requerida para que una evaluacin de impacto estime con precisin el impacto de un
programa, es decir: la muestra ms pequea que permitir detectar el efecto mnimo
detectable. Los clculos de potencia dependen de parmetros como la potencia (o la
probabilidad de un error de tipo II), el nivel de signicancia, la media, la varianza y la
correlacin intra-clusters de los resultados de inters.
Censo. Empadronamiento total de una poblacin. Los datos censales abarcan todas
las unidades de la poblacin. Comprese con muestra.
Ciencia abierta. Movimiento cuyo n es elaborar mtodos de investigacin ms
transparentes, mediante el registro de los ensayos, la utilizacin de planes de
preanlisis, documentacin de datos y registros.
Comparacin antes y despus. Tambin conocida como comparacin previa-
posterior o comparacin reexiva. Se trata de un seguimiento de los cambios en
los resultados para los beneciarios del programa a lo largo del tiempo, utilizando
mediciones antes y despus de la implementacin del programa o la poltica, sin
utilizar un grupo de comparacin.
Comparaciones de inscritos y no inscritos. Tambin conocidas como compara-
ciones autoseleccionadas. Esta estrategia compara los resultados de las unidades que
decidieron inscribirse y las unidades que decidieron no inscribirse en un programa.
Cluster. Tambin llamado conglomerado. Grupo de unidades que pueden compartir
caractersticas similares. Por ejemplo, los nios que asisten a la misma escuela
pertenecen a un mismo cluster porque comparten el mismo centro escolar, los
mismos profesores y viven en el mismo barrio.
Consentimiento informado. Uno de los fundamentos de la proteccin de los
derechos de los sujetos humanos. En el caso de las evaluaciones de impacto, requiere
que los encuestados comprendan claramente los nes, procedimientos, riesgos y
benecios de la recopilacin de datos en la que se les pide participar.

Contrafactual. Valor que habra tenido el resultado (Y) para los participantes del pro-
grama si no hubieran participado en el programa (P). Por denicin, el contrafactual no
se puede observar. Por lo tanto, debe estimarse utilizando un grupo de comparacin.
Correlacin. Medida estadstica que indica hasta qu punto dos o ms variables
uctan juntas.
Correlacin intra-clusters. Tambin conocida como correlacin intraclase. Se
trata del nivel de similitud en los resultados o caractersticas entre las unidades de los
grupos previamente existentes o clusters en relacin con unidades de otros clusters.
Por ejemplo, los nios que asisten a la misma escuela normalmente seran ms
similares o estaran ms correlacionados en trminos de sus zonas de residencia o
antecedentes socioeconmicos, en comparacin con nios que no asisten a esa escuela.
Cumplimiento. Fenmeno que se produce cuando las unidades adhieren a su
asignacin como parte del grupo de tratamiento o del grupo de comparacin.
Cumplimiento imperfecto. Discrepancia entre el estatus de tratamiento asignado
y la condicin de tratamiento real. Se produce cuando algunas unidades asignadas al
grupo de comparacin participan en el programa, o cuando algunas unidades asigna-
das al grupo de tratamiento no participan.
Datos administrativos. Datos recopilados asiduamente por organismos pblicos o
privados como parte de la administracin de un programa, normalmente con
frecuencia peridica y a menudo en el lugar de la prestacin de servicios, e incluyen
los servicios prestados, los costos y la participacin en el programa. Los datos de
monitoreo constituyen un tipo de datos administrativos.
Datos de encuesta. Datos que cubren una muestra de la poblacin de inters.
Comprese con censo.
Datos de monitoreo. Datos provenientes del monitoreo del programa que proporcio-
nan informacin esencial a propsito de la prestacin de una intervencin, e incluyen
quines son los beneciarios y qu benecios o productos del programa pueden haber
recibido. Los datos de monitoreo constituyen un tipo de datos administrativos.
Desgaste. El desgaste se produce cuando algunas unidades abandonan la mues-
tra entre una ronda de datos y la siguiente. Por ejemplo, cuando las personas
cambian su residencia y no se les puede localizar. El desgaste de la muestra es un
caso de falta de respuesta de la unidad. Puede introducir un sesgo en la estimacin
de impacto.
Diferencias en diferencias. Tambin conocido como doble diferencia o DD.
Las diferencias en diferencias comparan los cambios en los resultados a lo largo del
tiempo entre el grupo de tratamiento y el grupo de comparacin. Esto elimina
cualquier diferencia entre estos grupos que sea constante a lo largo del tiempo.
Diseo cruzado. Tambin denominado diseo transversal. Se produce cuando hay
una asignacin aleatoria con dos o ms intervenciones, lo que permite estimar el
impacto de las intervenciones individuales y combinadas.
Diseo de regresin discontinua (DRD). Mtodo de evaluacin de impacto cuasi
experimental que se puede utilizar en programas que dependen de un ndice
Glosario 363
continuo para clasicar a los participantes potenciales. Dicho ndice tiene un punto
lmite que determina si los participantes potenciales son elegibles para recibir el
programa o no. El umbral de elegibilidad del programa proporciona un punto
divisorio entre el grupo de tratamiento y el grupo de comparacin. Los resultados para
los participantes en un lado del umbral se comparan con los resultados de los no
participantes al otro lado del umbral. Cuando todas las unidades cumplen con la
asignacin que corresponde sobre la base de su ndice de elegibilidad, se dice que el
DRD es ntido. Si hay incumplimiento en el otro lado del umbral, se dice que el
DRD es difuso o borroso.
Efecto causal. Vase impacto.
Efecto de derrame. Tambin denominado efecto de contagio. Ocurre cuando el
grupo de tratamiento inuye directa o indirectamente en los resultados del grupo de
comparacin (o a la inversa).
Efecto mnimo detectable. El efecto mnimo detectable es un insumo en los clcu-
los de potencia, es decir, proporciona el tamao del efecto que una evaluacin de
impacto est diseada para estimar con un determinado nivel de signicancia y
potencia. Las muestras de la evaluacin tienen que ser lo bastante grandes para
distinguir al menos el efecto mnimo detectable. Este efecto se determina teniendo
en cuenta el cambio en los resultados que justicara la inversin que se ha hecho en
una intervencin.
Efecto Hawthorne. Se produce cuando, por el simple hecho de ser observadas, las
unidades se comportan de manera diferente.
Efecto John Henry. Acontece cuando las unidades de la comparacin se
esfuerzan ms para compensar que no se les haya ofrecido el tratamiento.
Cuando se comparan las unidades tratadas con las unidades de la comparacin
que se esfuerzan ms, la estimacin del impacto del programa tiene un sesgo; es
decir, se estima un impacto menor del programa en comparacin con el impacto
real que se obtendra si las unidades de la comparacin no realizaran un
esfuerzo adicional.
Efecto local promedio del tratamiento (LATE, por sus siglas en ingls).
Impacto de un programa estimado para un subconjunto especco de la poblacin,
como las unidades que cumplen con su asignacin al grupo de tratamiento o de
comparacin en presencia de un cumplimiento imperfecto, o en torno al umbral de
elegibilidad cuando se aplica un diseo de regresin discontinua. Por lo tanto, el
LATE proporciona solo una estimacin local del impacto del programa y no debera
generalizarse al conjunto de la poblacin.
Efectos de equilibrio de contexto. Efectos de derrame que se producen cuando
una intervencin inuye en las normas de conducta o sociales en un contexto
determinado, como una localidad tratada.
Efectos de equilibrio general. Estos efectos de derrame se producen cuando las
intervenciones afectan la oferta y demanda de bienes y servicios y, por lo tanto,
cambian el precio de mercado de esos servicios.

Efecto promedio del tratamiento (ATE, por sus siglas en ingls). Impacto del
programa bajo el supuesto de cumplimiento total; es decir, todas las unidades que
hayan sido asignadas a un programa se inscriben realmente en l, y ninguna de las
unidades de comparacin recibe el programa.
Encuesta de seguimiento. Tambin conocida como encuesta posterior a la
intervencin. Se trata de una encuesta realizada despus de que el programa ha
comenzado, una vez que los beneciarios se han beneciado de l durante algn
tiempo. Una evaluacin de impacto puede incluir varias encuestas de seguimiento, a
veces denominadas encuestas intermedias y nales.
Equipo de evaluacin. Equipo que lleva a cabo la evaluacin. Se trata en esencia de
una asociacin entre dos grupos: un equipo de responsables de las polticas pblicas
(equipo de polticas) y un equipo de investigadores (equipo de investigacin).
EMARF (en ingls, SMART). Especco, medible, atribuible, realista y focalizado.
Los buenos indicadores tienen estas caractersticas.
Error de tipo I. Tambin conocido como falso positivo. Este error se comete cuando
se rechaza una hiptesis nula que, en realidad, es vlida. En el contexto de una
evaluacin de impacto, se comete un error de tipo I cuando una evaluacin llega a la
conclusin de que un programa ha tenido un impacto (es decir, se rechaza la hipte-
sis nula de falta de impacto), aunque en realidad el programa no ha tenido impacto
(es decir, la hiptesis nula se mantiene). El nivel de signicancia es la probabilidad de
cometer un error de tipo I.
Error de tipo II. Tambin conocido como falso negativo. Este error se comete
cuando se acepta (no se rechaza) la hiptesis nula, pese a que esta ltima, de hecho,
no es vlida. En el contexto de una evaluacin de impacto, se comete un error de tipo
II cuando se llega a la conclusin de que un programa no ha tenido impacto (es decir
no se rechaza la hiptesis nula de falta de impacto), aunque el programa de hecho
tuvo impacto (es decir, la hiptesis nula no es vlida). La probabilidad de cometer un
error de tipo II es 1 menos el nivel de potencia.
Estimacin de tratamiento en los tratados. La estimacin del impacto del
tratamiento en aquellas unidades que en la prctica se han beneciado del trata-
miento. Comprese con intencin de tratar.
Estimador. En Estadstica, es una regla utilizada para calcular una caracterstica
desconocida de una poblacin a partir de los datos (tcnicamente conocido como
parmetro); una estimacin es el resultado de la aplicacin real de una regla a una
muestra concreta de datos.
Estudio de efectividad. Analiza si un programa funciona en condiciones normales
al aumentar la escala. Cuando estn adecuadamente diseados e implementados, los
resultados de estos estudios pueden ser ms generalizables que en el caso de los
estudios de ecacia.
Estudio de ecacia. Analiza si un programa puede funcionar en condiciones
ideales. Estos estudios se llevan a cabo en circunstancias muy especcas, a menudo
con una fuerte participacin tcnica de los investigadores durante la implementacin
Glosario 365
del programa. Suelen emprenderse para probar la viabilidad de un programa nuevo.
Susresultados no son generalizables ms all del alcance de la evaluacin.
Evaluacin. Valoracin peridica y objetiva de un proyecto, un programa o una
poltica planicados, en curso o nalizados. Las evaluaciones se utilizan para
responder preguntas especcas, a menudo relacionadas con el diseo, la implemen-
tacin o los resultados.
Evaluacin de impacto. Evaluacin que intenta establecer un vnculo causal entre
un programa o intervencin y un conjunto de resultados. Una evaluacin de impacto
procura responder a la pregunta: cul es el impacto (o efecto causal) de un programa
en un resultado de inters?
Evaluacin de proceso. Evaluacin que se centra en cmo se implementa y
funciona un programa, y que evala si se corresponde con su diseo original y docu-
menta su desarrollo y funcionamiento. Comprese con evaluacin de impacto.
Evaluacin prospectiva. Evaluaciones diseadas y aplicadas antes de que se imple-
mente un programa. Las evaluaciones prospectivas estn incorporadas en los planes
de implementacin del programa. Comprese con evaluacin retrospectiva.
Evaluacin retrospectiva. Evaluacin diseada despus de que se ha implemen-
tado un programa (ex post). Comprese con evaluacin prospectiva.
Experimento de mecanismo. Evaluacin de impacto que prueba un mecanismo
causal particular dentro de la teora del cambio de un programa, en lugar de probar el
efecto causal (impacto) del programa como un todo.
Factor invariante en el tiempo. Factor que no vara a lo largo del tiempo; es
constante.
Factor variante en el tiempo. Factor que vara a lo largo del tiempo.
Falta de rango comn. Cuando se utiliza el mtodo de pareamiento, la falta de
rango comn es una falta de superposicin entre los puntajes de propensin del grupo
de tratamiento, o inscrito, y los del grupo de no inscritos.
Falta de respuesta. Se produce cuando faltan datos o los datos son incompletos
para algunas unidades de la muestra. La falta de respuesta de la unidad surge cuando
no hay informacin disponible para algunas unidades de la muestra, es decir, cuando
la muestra real es diferente de la muestra planicada. Una forma de falta de respuesta
a nivel de la unidad es el desgaste. La falta de respuesta de una entrada se produce
cuando los datos son incompletos para algunas unidades de la muestra en un
determinado momento del tiempo. La falta de respuesta puede generar sesgos en los
resultados de una evaluacin si est asociada con la condicin de tratamiento.
Falta de respuesta de la unidad. Surge cuando no hay informacin disponible
para un subconjunto de unidades; es decir, cuando la muestra real es diferente de la
muestra planicada.
Falta de respuesta de una entrada. Ocurre cuando los datos son incompletos
para algunas unidades de la muestra.

Generabilidad. La medida en que los resultados de una evaluacin en un mbito
local sern vlidos en otros contextos y en otros grupos de poblacin.
Grupo de comparacin. Tambin conocido como grupo de control. Un grupo de
comparacin vlido tendr las mismas caractersticas, en promedio, que el grupo de
beneciarios del programa (grupo de tratamiento), con la nica diferencia de que las
unidades del grupo de comparacin no se benecian del programa que se evala. Los
grupos de comparacin se utilizan para estimar el contrafactual.
Grupo de control. Tambin conocido como grupo de comparacin (vase la
denicin).
Grupo de tratamiento. Tambin conocido como grupo tratado o grupo de
intervencin. El grupo de tratamiento es el grupo de unidades que es objeto de una
intervencin versus el grupo de comparacin, que no es objeto de ella.
Hiptesis. Explicacin propuesta de un fenmeno observable. Vase tambin
hiptesis nula e hiptesis alternativa.
Hiptesis alternativa. Suposicin de que la hiptesis nula es falsa. En una evalua-
cin de impacto, la hiptesis alternativa suele ser la hiptesis de que la intervencin
tiene un impacto en los resultados.
Hiptesis nula. Hiptesis que puede ser falsicada sobre la base de los datos
observados. Normalmente, la hiptesis nula propone una posicin general o por
defecto. En la evaluacin de impacto, la hiptesis nula suele ser que el programa no
tiene impacto, es decir: la diferencia entre el resultado del grupo de tratamiento y el
grupo de comparacin es cero.
Impacto. Tambin conocido como efecto causal. En el contexto de las evaluaciones
de impacto, un impacto es un cambio directamente atribuible a un programa, a una
modalidad del programa o a innovaciones de diseo.
Indicador. Variable que mide un fenmeno de inters para el evaluador. El fen-
meno puede ser un insumo, un producto, un resultado, una caracterstica o un
atributo. Vase tambin EMARF.
ndice de elegibilidad. Tambin conocido como variable forzada. Se trata de una
variable que permite clasicar a la poblacin de inters a lo largo de una lnea
continua y tiene un umbral o una puntuacin lmite que determina quin es elegible
y quin no lo es.
Insumos. Los recursos nancieros, humanos y materiales utilizados en la
intervencin.
Intencin de tratar (ITT, por sus siglas en ingls). Las estimaciones de ITT
miden la diferencia en los resultados entre las unidades asignadas al grupo de trata-
miento y las asignadas al grupo de comparacin, independientemente de si las
unidades de cada grupo recibieron en realidad el tratamiento.
Intervencin. En el contexto de la evaluacin de impacto, se trata del proyecto, del
programa o de la poltica que se evala. Tambin conocida como tratamiento.
Glosario 367
Junta de revisin institucional (JRI). Comit nombrado para examinar, aprobar y
monitorear la investigacin con sujetos humanos. Tambin conocido como Comit
de tica independiente o Junta de revisin tica.
Lnea de base. Situacin previa a una intervencin, con respecto a la cual se puede
valorar el progreso o se pueden hacer comparaciones. La lnea de base se recopila en
forma previa a la implementacin de un programa o poltica para observar la
situacin antes. La disponibilidad de datos de lnea de base es fundamental para
documentar el equilibrio en las caractersticas anteriores al programa entre los
grupos de tratamiento y de comparacin. Los datos de lnea de base son necesarios
para algunos diseos cuasi experimentales.
Marco muestral. Lista exhaustiva de las unidades de la poblacin de inters. Se
requiere un marco muestral adecuado para asegurar que las conclusiones a las que se
arribe a partir del anlisis de una muestra se puedan generalizar a toda la poblacin.
Las diferencias entre el marco muestral y la poblacin de inters crea un sesgo de
cobertura. Ante la presencia de dicho sesgo, los resultados de la muestra no tienen
validez externa para toda la poblacin de inters.
Mtodo cuasi experimental. Mtodos de evaluacin de impacto que no dependen de
la asignacin aleatoria del tratamiento. Las diferencias en diferencias, el diseo de
regresin discontinua y el pareamiento son ejemplos de mtodos cuasi experimentales.
Mtodo de control sinttico. Un mtodo de pareamiento especco que permite
estimar el impacto en contextos donde una nica unidad (como un pas, una empresa
o un hospital) es objeto de una intervencin o es expuesto a un suceso. En lugar de
comparar esta unidad tratada con un grupo de unidades no tratadas, el mtodo
utiliza informacin sobre las caractersticas de la unidad tratada y las unidades no
tratadas para construir una unidad de comparacin sinttica o articial, ponderando
cada unidad no tratada de tal manera que la unidad de comparacin sinttica se
parezca todo lo posible a la unidad tratada. Esto requiere una larga serie de observa-
ciones a lo largo del tiempo, tanto de las caractersticas de la unidad tratada como de
las unidades no tratadas. Esta combinacin de unidades de comparacin en una
unidad sinttica proporciona una mejor comparacin para la unidad tratada que
cualquier unidad no tratada individualmente.
Mtodos mixtos. Enfoque analtico que combina datos cuantitativos y cualitativos.
Minera de datos. Prctica de manipular los datos en busca de resultados concretos.
Monitoreo. Proceso continuo de recopilar y analizar informacin para evaluar el
desempeo de un proyecto, un programa o una poltica. El monitoreo suele hacer un
seguimiento de los insumos, actividades y productos, aunque ocasionalmente tambin
incluye los resultados. Se utiliza para fundamentar la gestin y las decisiones diarias.
Tambin se puede emplear para hacer un seguimiento del desempeo en relacin
con los resultados previstos, establecer comparaciones entre programas y analizar
las tendencias a lo largo del tiempo.
Muestra aleatoria. Muestra extrada a partir de un muestreo probabilstico, por lo
cual cada unidad en el marco muestral tiene una probabilidad conocida de ser
extrada. Seleccionar una muestra aleatoria es la mejor manera de evitar una muestra

no representativa. El muestreo aleatorio no debera confundirse con la asignacin
aleatoria.
Muestra conglomerada. Una muestra compuesta de clusters.
Muestra estraticada. Se obtiene dividiendo la poblacin de inters (marco mues-
tral) en grupos (por ejemplo, hombres y mujeres) y luego deniendo una muestra
aleatoria en cada grupo. Una muestra estraticada es una muestra probabilstica:
todas las unidades de cada grupo (o estrato) tienen la misma probabilidad de ser
asignadas. Siempre que todos los grupos sean lo bastante grandes, el muestreo
estraticado permite elaborar inferencias a propsito de los resultados no solo a
nivel de la poblacin sino tambin dentro de cada grupo.
Muestra. En Estadstica, una muestra es un subconjunto de una poblacin de inters.
Normalmente, la poblacin es muy grande, lo cual hace impracticable o imposible
realizar un censo o un registro completo de todos sus valores. En cambio, los investi-
gadores pueden seleccionar un subconjunto representativo de la poblacin (utili-
zando un marco muestral) y recopilar estadsticas sobre la muestra. Estas se pueden
utilizar para hacer inferencias o para extrapolar a la poblacin. Este proceso se
conoce como muestreo. Comprese con censo.
Muestreo. Proceso por el cual las unidades se extraen del marco muestral creado a
partir de la poblacin de inters. Se pueden utilizar diversas alternativas de procedi-
mientos de muestreo. Los mtodos de muestreo probabilstico son los ms rigurosos,
ya que asignan una probabilidad bien denida a cada unidad que ser extrada. El
muestreo aleatorio, el muestreo aleatorio estraticado y el muestreo conglomerado son
mtodos de muestreo probabilstico. El muestreo no probabilstico (por ejemplo, el
muestreo intencional o por conveniencia) puede generar errores de muestreo.
Muestreo probabilstico. Proceso de muestreo que asigna una probabilidad bien
denida a cada unidad que ser extrada de un marco muestral. Incluye el muestreo
aleatorio, el muestreo aleatorio estraticado y el muestreo de clusters.
Pareamiento por puntajes de propensin. Mtodo de pareamiento que depende
de los puntajes de propensin para encontrar el mejor grupo de comparacin posible
para un determinado grupo de tratamiento.
Pareamiento. Mtodo no experimental de evaluacin de impacto que utiliza grandes
bases de datos y tcnicas estadsticas para construir el mejor grupo de comparacin
posible para un determinado grupo de tratamiento sobre la base de caractersticas
observables.
Poblacin de inters. Grupo exhaustivo de todas las unidades (como individuos,
hogares, empresas, centros) elegibles para recibir una intervencin o un tratamiento,
y para los cuales una evaluacin de impacto se propone estimar los impactos del
programa.
Potencia (o potencia estadstica). Probabilidad de que una evaluacin de impacto
detecte un impacto (es decir, una diferencia entre el grupo de tratamiento y el grupo
de comparacin) cuando, de hecho, hay un impacto. La potencia es igual a 1 menos la
probabilidad de un error de tipo II, que oscila entre 0 y 1. Los niveles habituales de
Glosario 369
potencia son 0,8 y 0,9. Los niveles altos de potencia son ms conservadores, lo que
signica que hay una baja probabilidad de no detectar los impactos reales del
programa.
Potencia estadstica. La potencia de una prueba estadstica es la probabilidad de
que la prueba rechace la hiptesis nula cuando la hiptesis alternativa es verdadera
(es decir, que no se cometer un error de tipo II). A medida que la potencia aumenta,
la probabilidad de un error de tipo II disminuye. La probabilidad de un error de tipo
II se denomina tasa negativa falsa (). Por lo tanto, la potencia es igual a 1 - .
Producto. Productos, bienes y servicios tangibles producidos (suministrados)
directamente por las actividades de un programa. La generacin de productos est
directamente bajo el control del organismo ejecutor del programa. El uso de los
productos por parte de los beneciarios contribuye a cambios en los resultados.
Promocin aleatoria. Mtodo de variables instrumentales para estimar los impac-
tos de un programa. El mtodo asigna de forma aleatoria a un subgrupo de unidades
una promocin, o incentivo, para participar en el programa. La promocin aleatoria
busca aumentar la participacin voluntaria en un programa en una submuestra de la
poblacin seleccionada aleatoriamente. La promocin puede adoptar la forma de un
incentivo, estmulo o informacin adicional que motiva a las unidades a inscribirse
en el programa, sin inuir directamente en el resultado de inters. De esta manera, el
programa puede quedar abierto a todas las unidades elegibles.
Prueba de placebo. Prueba falsicada que se utiliza para evaluar si los supuestos
de un mtodo se mantienen. Por ejemplo, cuando se aplica el mtodo de diferencias
en diferencias, se puede implementar una prueba de placebo utilizando un grupo de
tratamiento falso o un resultado falso, es decir: un grupo o resultado que se sabe que
no se ve afectado por el programa. Las pruebas de placebo no pueden conrmar que
los supuestos sean vlidos, pero pueden poner de maniesto los casos en que los
supuestos no se sostienen.
Prueba de signicancia. Prueba de si la hiptesis alternativa alcanza el nivel
predeterminado de signicancia con el n de que esta se acepte de preferencia a la
hiptesis nula. Si una prueba de signicancia da un valor p menor que el nivel de
signicancia estadstica (), la hiptesis nula es rechazada.
Puntaje de propensin. En el contexto de la evaluacin de impacto, el puntaje de
propensin es la probabilidad de que una unidad participe en el programa sobre la
base de las caractersticas observables. Esta puntuacin es un nmero real entre 0 y
1 que resume la inuencia de todas las caractersticas observables en la probabilidad
de inscribirse en el programa.
Resultado. Resultado de inters que se mide a nivel de los beneciarios del pro-
grama. Resultados que deben alcanzarse una vez que la poblacin beneciaria utilice
los productos del proyecto. Los resultados no estn directamente bajo el control de
un organismo ejecutor del programa. En ellos inuye tanto la implementacin de un
programa (las actividades y productos que genera) como las respuestas de las conduc-
tas de los beneciarios expuestos a ese programa (el uso que los beneciarios hacen
de los benecios a los que estn expuestos). Un resultado puede ser intermedio o

nal (de largo plazo). Los resultados nales son resultados ms distantes. La distan-
cia se puede interpretar en trminos de tiempo (se tarda ms en conseguir el resul-
tado) o en trminos de causalidad (se requieren numerosos vnculos causales para
alcanzar el resultado y en ello inuyen mltiples factores).
Seleccin. Se produce cuando la participacin en el programa se basa en las
preferencias, decisiones o caractersticas no observables de los participantes o de los
administradores del programa.
Sesgo. En la evaluacin de impacto, el sesgo es la diferencia entre el impacto que se
calcula y el verdadero impacto del programa.
Sesgo de cobertura. Se produce cuando un marco muestral no coincide exacta-
mente con la poblacin de inters.
Sesgo de seleccin. El impacto estimado sufre un sesgo de seleccin cuando se
desva del impacto verdadero en presencia de la seleccin. Esto suele ocurrir cuando
se correlacionan motivos no observados para participar en el programa con los resul-
tados. Este sesgo normalmente acontece cuando el grupo de comparacin es no elegi-
ble o se autoexcluye del tratamiento.
Sesgo de sustitucin. Efecto no intencionado de la conducta que afecta al grupo de
comparacin. Las unidades que no fueron seleccionadas para recibir el programa
pueden encontrar buenos sustitutos para el tratamiento a travs de su propia
iniciativa.
Signicancia. La signicancia estadstica seala la probabilidad de cometer un
error de tipo I; es decir, la probabilidad de detectar un impacto que en realidad no
existe. El nivel de signicancia suele sealarse con el smbolo griego (alfa). Los
niveles ms habituales de signicancia son del 10%, 5% y 1%. Cuanto menor sea el
nivel de signicancia, mayor ser la conanza de que el impacto estimado es real.
Por ejemplo, si el nivel de signicancia se ja en 5%, se puede tener un 95% de con-
anza al concluir que el programa ha tenido impacto, si de hecho se observa un
impacto signicativo.
Simulaciones ex ante. Evaluaciones que utilizan datos disponibles para simular
los efectos previstos de un programa o de la reforma de una poltica en los resultados
de inters.
Supuesto de estabilidad del valor de la unidad de tratamiento (SUTVA).
Requisito bsico de que el resultado de una unidad no debera verse afectado por la
asignacin del tratamiento a otras unidades. Esto es necesario para asegurar que la
asignacin aleatoria produzca estimaciones de impacto no sesgadas.
Tamao del efecto. Magnitud del cambio en un resultado, que es causado por una
intervencin.
Teora del cambio. Explica los canales a travs de los cuales los programas pueden
inuir en los resultados nales. Describe la lgica causal de cmo y por qu un
programa, una modalidad de programa o una innovacin de diseo en particular
lograr sus resultados deseados. Una teora del cambio es una pieza clave en cualquier
evaluacin de impacto, dada la focalizacin de causa y efecto de la investigacin.
Glosario 371
Tratamiento. Vase intervencin.
Tratamiento en los tratados (TOT, por sus siglas en ingls). Las estimaciones
TOT miden la diferencia en los resultados entre las unidades que en efecto reciben el
tratamiento y el grupo de comparacin.
Unidad. Persona, hogar, comunidad, empresa, escuela, hospital u otra unidad de
observacin que pueda ser objeto de un programa o verse afectada por l.
Validez externa. Una evaluacin es externamente vlida si la muestra de la evalua-
cin representa con precisin a la poblacin de unidades elegibles. Los resultados de
la evaluacin luego se pueden generalizar a la poblacin de unidades elegibles.
Estadsticamente, para que una evaluacin de impacto sea externamente vlida, la
muestra de la evaluacin debe ser representativa de la poblacin de inters. Vase
tambin validez interna.
Validez interna. Una evaluacin es internamente vlida si proporciona una
estimacin precisa del contrafactual mediante un grupo de comparacin vlido.
Variable. En la terminologa estadstica, se trata de un smbolo que representa un
valor que puede variar.
Variable dependiente. Normalmente, es la variable de resultado. Se trata de la
variable que hay que explicar, por oposicin a las variables explicativas.
Variable explicativa. Tambin conocida como variable independiente. Se trata de
una variable utilizada en el lado derecho de una regresin para ayudar a explicar la
variable dependiente en el lado izquierdo de la regresin.
Variable instrumental (VI). Tambin conocida como instrumento. Se basa en el uso
de una fuente externa de variacin para determinar la probabilidad de participacin
en el programa cuando la participacin en el mismo est relacionada con los resulta-
dos potenciales. El instrumento se encuentra fuera del control de los participantes y
no tiene relacin con las caractersticas de los mismos.
Variables no observadas. Se trata de caractersticas no observables. Pueden
incluir particularidades como la motivacin, las preferencias u otros rasgos de la
personalidad que son difciles de medir.

ECO-AUDIT
Declaracin de beneficios ambientales
El Grupo del Banco Mundial est comprometido a reducir su huella

ambiental. En apoyo de este compromiso, la Divisin de Publicaciones
y Conocimiento impulsa las opciones de publicacin electrnica y la
tecnologa de impresin bajo demanda, que funciona en centros regio-
nales de todo el mundo. De forma conjunta, estas iniciativas permiten
disminuir la cantidad de material impreso y acortar las distancias de
envo, lo cual reduce el consumo de papel, el uso de qumicos, las emi-
siones de gases de efecto invernadero y la basura. La Divisin de
Publicaciones y Conocimiento sigue las recomendaciones estndares
para el uso de papel establecidas por la Green Press Initiative. La
mayora de nuestros libros se imprimen en papel certicado Forest
Stewardship Council (FSC), que contiene cerca de un 50%-100% de
material reciclado. Las bras recicladas del papel de nuestros libros
no se blanquean o bien se las blanquea mediante un proceso total-
mente libre de cloro, o con cloro elemental o mejorado. Para ms
informacin sobre la losofa ambientalista del Banco, vistese el
sitiohttp://www.worldbank.org/corporateresponsibility.

2017 La Evaluación de Impacto en La Práctica PDF

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

2017 La Evaluación de Impacto en La Práctica PDF

Transféré par

Droits d'auteur :

Formats disponibles

La evaluacin de

Este libro ha sido posible gracias al generoso

Paul J. Gertler, Sebastin Martnez,

Acerca de los autores xxiii

PRIMERA PARTE. INTRODUCCIN A

Captulo 1. Por qu evaluar? 3

Captulo 2. La preparacin de una evaluacin 35

SEGUNDA PARTE. CMO EVALUAR 51

Captulo 3. Inferencia causal y contrafactuales 53

Captulo 4. La asignacin aleatoria 71

Captulo 5. Las variables instrumentales 99

Captulo 6. Diseo de regresin discontinua 125

Captulo 7. Diferencias en diferencias 143

Captulo 8. Pareamiento 159

vi La evaluacin de impacto en la prctica

Captulo 10. Evaluacin de programas multifacticos 195

TERCERA PARTE. CMO IMPLEMENTAR UNA

Captulo 11. Eleccin de un mtodo de evaluacin de impacto 207

Captulo 12. Gestin de una evaluacin de impacto 223

Captulo 13. La tica y la ciencia en la evaluacin

Captulo 14. Divulgacin de resultados y generacin

CUARTA PARTE. CMO OBTENER DATOS

Captulo 15. La eleccin de una muestra 291

Captulo 16. Encontrando fuentes adecuadas de datos 323

Captulo 17. Conclusiones 355

x La evaluacin de impacto en la prctica

xii La evaluacin de impacto en la prctica

xiv La evaluacin de impacto en la prctica

Este libro ofrece una introduccin accesible al tema de la evaluacin de

Hoja de ruta de los contenidos del libro

En la primera parte, Introduccin a la evaluacin de impacto (captulos 1

xvi La evaluacin de impacto en la prctica

Material complementario en lnea

En el sitio web de la evaluacin de impacto en la prctica se ofrecen mate-

xviii La evaluacin de impacto en la prctica

Desarrollo de La evaluacin de impacto en la

La primera edicin del libro La evaluacin de impacto en la prctica se basaba

xxii La evaluacin de impacto en la prctica

Paul J. Gertler es profesor de economa en la ctedra Li Ka Shing de la

Sebastin Martnez es economista principal en la Ocina de Planicacin

Patrick Premand es economista senior en proteccin social y prctica glo-

Laura B. Rawlings es especialista lder en proteccin social en el Banco

Christel M. J. Vermeersch es economista senior en Prctica Global en

xxiv La evaluacin de impacto en la prctica

Acerca de los autores xxv

3IE Iniciativa Internacional para la Evaluacin de Impacto

xxviii La evaluacin de impacto en la prctica

La primera parte de este libro presenta una visin general de la evaluacin de

La formulacin de polticas basada en evidencia

Los programas y polticas de desarrollo suelen estar diseados para cambiar

Recuadro 1.1: Cmo una evaluacin exitosa puede promover la

El programa de transferencias condicio- impacto y la incorporaran en la ampliacin

Contina en la pgina siguiente.

El recuadro 1.2 ilustra cmo la evaluacin de impacto inuy en la pol-

Desarrollo preescolar y de la primera La evaluacin lleg a la conclusin de que

Fuente: Martnez, Nadeau y Pereira (2012).

La evaluacin de impacto es uno de los numerosos mtodos que existen

Evaluacin de impacto prospectiva versus

Las evaluaciones de impacto se pueden dividir en dos categoras: prospecti-

Estudios de ecacia y estudios de efectividad

La funcin principal de la evaluacin de impacto consiste en producir evi-

Recuadro 1.3: Pruebas de la capacidad generalizable de los

Una evaluacin multisitio del enfoque de haber arrojado resultados impresionantes en

7,+",0 72 0'"',0),0 7 2#+1,"#)+?#/, 7,0/#0'"#+1#0"# 7#+,/-/#3)#+!'

#02)1",0 +

7/#02-2#01,-/ 7'0#=,"#)+2#3, 7-/,$#0,/#0 7,0-/,$#0,/#020+ 7#(,/"#)0100

#02)1",0 +