Académique Documents
Professionnel Documents
Culture Documents
impacto en la
prctica
Segunda edicin
Se recomienda visitar el sitio web del libro
La evaluacin de impacto en la prctica en
http://www.worldbank.org/ieinpractice. El
sitio web contiene materiales de apoyo, e
incluye soluciones para las preguntas del
estudio de caso HISP del libro, as como la
correspondiente base de datos y el cdigo
de anlisis del software Stata; un manual
tcnico que proporciona un tratamiento ms
formal del anlisis de datos; presentaciones de
PowerPoint relacionadas con los captulos; una
versin en lnea del libro con hipervnculos a los
sitios web, y enlaces con otros materiales.
Derechos y permisos
Esta obra est disponible bajo la licencia de atribucin de Creative Commons 3.0 IGO (CC BY 3.0 IGO) http://
creativecommons.org/licenses/by/3.0/igo. En el marco de la licencia de atribucin Creative Commons, se permite
copiar, distribuir, transmitir y adaptar esta obra, incluso para objetivos comerciales, bajo las siguientes condiciones:
Atribucin: se ruega citar la obra de la siguiente manera: Gertler, Paul J., Sebastin Martnez, Patrick Premand, Laura
B. Rawlings y Christel M. J. Vermeersch. 2017. La evaluacin de impacto en la prctica, Segunda edicin. Washington,
DC: Banco Interamericano de Desarrollo y Banco Mundial. doi:10.1596/978-1-4648-0888-3. Licencia de atribucin:
Creative Commons CC BY 3.0 IGO
Traducciones: Si se procede a una traduccin de esta obra, se ruega aadir la siguiente exencin de responsabilidad
con la atribucin: Esta traduccin no es una creacin del Banco Mundial y no se debera considerar una traduccin ocial
del Banco Mundial. El Banco Mundial no ser responsable de ningn contenido o error en esta traduccin.
Adaptaciones: Si se crea una adaptacin de esta obra, se ruega aadir la siguiente exencin de responsabilidad o con la
siguiente atribucin: sta es una adaptacin de una obra original del Banco Mundial. Las ideas y opiniones expresadas en
la adaptacin son responsabilidad exclusiva del autor o de los autores de la adaptacin y no han sido refrendadas por el
Banco Mundial.
Contenidos de terceros: El Banco Mundial no es dueo necesariamente de cada componente del contenido de este
trabajo. Por lo tanto, el Banco Mundial no garantiza que el uso de cualquier componente individual o parte propiedad
de terceros contenido en la obra no vulnerar los derechos de esos terceros. El riesgo de reclamaciones que resulten de
dicha vulneracin incumbe solo a usted. Si quiere reutilizar un componente de la obra, es responsabilidad suya
determinar si se requiere una autorizacin para esa reutilizacin y para obtener permiso del dueo de los derechos de
autor. Los ejemplos de los componentes pueden incluir cuadros, grcos o imgenes, si bien no estn limitados a ellos.
Todas las consultas sobre derechos y licencias debern dirigirse a la Divisin de Publicacin y Conocimiento, Banco
Mundial, 1818 H Street NW, Washington, DC 20433, EE.UU.; fax: 202-522-2625; e-mail: pubrights@worldbank.org.
ISBN (papel): 978-1-4648-0888-3
ISBN (electrnica): 978-1-4648-0989-7
DOI: 10.1596/978-1-4648-0888-3
Ilustracin: C. Andrs Gmez-Pea y Michaela Wieser
Diseo de la tapa: Critical Stages
CONTENIDOS
Prlogo xv
Agradecimientos xxi
Abreviaturas xxvii
v
El contrafactual 55
Dos estimaciones falsas del contrafactual 60
Contenidos vii
Elaboracin a la medida de una estrategia de comunicacin
para diferentes pblicos 279
Divulgacin de los resultados 283
Glosario 361
Recuadros
1.1 Cmo una evaluacin exitosa puede promover la sostenibilidad
poltica de un programa de desarrollo 5
1.2 El impacto de las polticas de un modelo preescolar innovador 7
1.3 Pruebas de la capacidad generalizable de los resultados 13
1.4 Simulacin de posibles efectos del proyecto a travs
del modelado estructural 16
1.5 Un mtodo mixto de evaluacin en accin 17
1.6 Fundamentos para una ampliacin a escala nacional
mediante una evaluacin de procesos en Tanzania 19
1.7 La evaluacin de costo-efectividad 21
1.8 Evaluacin de programas innovadores 25
1.9 La evaluacin de alternativas de diseo de programas 26
1.10 El enfoque de evaluaciones de impacto de clusters 28
viii La evaluacin de impacto en la prctica
2.1 La articulacin de una teora del cambio: de los pisos
de cemento a la felicidad en Mxico 37
2.2 Experimentos de mecanismo 41
2.3 Una reforma de las matemticas en la enseanza secundaria:
elaboracin de una cadena de resultados y una pregunta de la
evaluacin 43
3.1 El problema del contrafactual: la seorita nica y el
programa de transferencias condicionadas 56
4.1 La asignacin aleatoria como un valioso instrumento operativo 73
4.2 La asignacin aleatoria como regla de seleccin de
un programa: las transferencias condicionadas y la
educacin en Mxico 78
4.3 Asignacin aleatoria de donaciones para mejorar las
perspectivas de empleo juvenil en el norte de Uganda 79
4.4 Asignacin aleatoria de intervenciones en abastecimiento
de agua y saneamiento en zonas rurales de Bolivia 79
4.5 Asignacin aleatoria de proteccin del agua de pozos
para mejorar la salud en Kenia 80
4.6 Asignacin aleatoria e informacin a propsito de los riesgos
del VIH para reducir el embarazo adolescente en Kenia 81
5.1 El uso de variables instrumentales para evaluar el impacto
de Plaza Ssamo en la preparacin escolar 101
5.2 Variables instrumentales para lidiar con la falta de cumplimiento
en un programa de vales escolares en Colombia 110
5.3 Promocin de inversiones en infraestructura educativa
en Bolivia 118
6.1 Uso del diseo de regresin discontinua para evaluar el
impacto de la reduccin de las tarifas escolares en los
ndices de matriculacin en Colombia 126
6.2 Redes de proteccin social basadas en un ndice de
pobreza en Jamaica 130
6.3 El efecto en el desempeo escolar de la agrupacin de
alumnos segn sus puntuaciones en las pruebas
educativas en Kenia 133
7.1 Utilizacin del mtodo DD para entender el impacto de
los incentivos electorales en las tasas de abandono
escolar en Brasil 145
7.2 Aplicacin del mtodo de diferencias en diferencias para
estudiar los efectos del despliegue policial en la tasa de
delitos en Argentina 149
7.3 Comprobando el supuesto de tendencias iguales:
privatizacin del agua y mortalidad infantil en Argentina 153
Contenidos ix
7.4 Poniendo a prueba el supuesto de tendencias iguales:
la construccin de escuelas en Indonesia 154
8.1 Diferencias en diferencias pareadas: caminos rurales
y desarrollo del mercado local en Vietnam 165
8.2 Pareamiento de diferencias en diferencias: suelos de
cemento, salud infantil y felicidad de las madres en Mxico 166
8.3 El mtodo de control sinttico: los efectos econmicos
de un conicto terrorista en Espaa 168
9.1 Cuentos tradicionales de la evaluacin de impacto:
el efecto Hawthorne y el efecto John Henry 178
9.2 Externalidades negativas debidas a efectos de equilibrio
general: asistencia para la colocacin laboral y resultados
del mercado de trabajo en Francia 183
9.3 Trabajando con los efectos de derrame: remedios
antiparasitarios, externalidades y educacin en Kenia 184
9.4 Evaluacin de los efectos de derrame: transferencias
condicionadas y derrames en Mxico 187
9.5 El desgaste en estudios con seguimiento a largo plazo:
desarrollo infantil temprano y migracin en Jamaica 189
9.6 Evaluacin de los efectos a largo plazo: subsidios y adopcin
de redes antimosquitos tratadas con insecticidas en Kenia 191
10.1 Prueba de la intensidad de un programa para mejorar la
adhesin a un tratamiento antirretroviral 198
10.2 Pruebas de alternativas de los programas para monitorear
la corrupcin en Indonesia 199
11.1 Programas de transferencias monetarias condicionadas y
el nivel mnimo de intervencin 221
12.1 Principios rectores de la participacin de los equipos de
polticas pblicas y de evaluacin 228
12.2 Descripcin general de un plan de evaluacin de impacto 229
12.3 Ejemplos de modelos de equipos de investigacin
y de polticas pblicas 234
13.1 Registro de pruebas en las ciencias sociales 267
14.1 El impacto en las polticas pblicas de un modelo
innovador de educacin preescolar en Mozambique 277
14.2 Instrumentos de extensin y divulgacin 284
14.3 La divulgacin efectiva de las evaluaciones de impacto 285
14.4 Divulgacin de las evaluaciones de impacto en lnea 286
14.5 Blogs de evaluacin de impacto 287
15.1 El muestreo aleatorio no es suciente para la evaluacin
de impacto 295
Grcos
2.1 Los elementos de una cadena de resultados 39
B2.2.1 Identicacin de un experimento de mecanismo en una
cadena de resultados ms larga 42
B2.3.1 Cadena de resultados para la reforma de la currcula
de matemtica en la escuela secundaria 43
2.2 La cadena de resultados del HISP 45
3.1 El clon perfecto 57
3.2 Un grupo de comparacin vlido 59
3.3 Estimaciones antes-despus de un programa de micronanzas 61
4.1 Caractersticas de los grupos bajo tratamiento con
asignacin aleatoria 76
4.2 Muestra aleatoria y asignacin aleatoria de tratamiento 81
4.3 Pasos para la asignacin aleatoria del tratamiento 85
4.4 Asignacin aleatoria del tratamiento mediante hoja de clculo 87
4.5 Estimacin del impacto con la asignacin aleatoria 90
5.1 Asignacin aleatoria con cumplimiento imperfecto 106
5.2 Estimacin del efecto local promedio del tratamiento bajo
asignacin aleatoria con cumplimiento imperfecto 107
5.3 Proceso de promocin aleatoria 116
5.4 Estimacin del efecto local promedio del tratamiento bajo la
promocin aleatoria 117
6.1 Produccin de arroz, ncas pequeas vs. ncas grandes
(lnea de base) 128
6.2 Produccin de arroz, ncas pequeas vs. ncas grandes
(seguimiento) 129
6.3 Cumplimiento de la asignacin 132
6.4 Manipulacin del ndice de elegibilidad 133
Contenidos xi
6.5 HISP: densidad de los hogares, segn el ndice de
pobreza de lnea de base 135
6.6 Participacin en el HISP, segn el ndice de pobreza
de lnea de base 135
6.7 ndice de pobreza y gastos en salud: el HISP dos aos despus 136
7.1 El mtodo de diferencias en diferencias 146
7.2 Diferencias en diferencias cuando las tendencias de
los resultados son diferentes 151
8.1 Pareamiento exacto en cuatro caractersticas 160
8.2 Pareamiento por puntajes de propensin y rango comn 162
8.3 Pareamiento para el HISP: rango comn 170
9.1 Un ejemplo clsico de efecto de derrame: externalidades
positivas de la administracin de remedios antiparasitarios
a los nios de las escuelas 186
10.1 Pasos para la asignacin aleatoria de dos niveles de tratamiento 197
10.2 Pasos para la asignacin aleatoria de dos intervenciones 200
10.3 Diseo hbrido para un programa con dos intervenciones 201
15.1 Uso de una muestra para inferir las caractersticas promedio
de una poblacin de inters 292
15.2 Un marco muestral vlido cubre el conjunto de la poblacin
de inters 293
B15.1.1 Muestreo aleatorio entre grupos no comparables de
participantes y no participantes 296
B15.1.2 Asignacin aleatoria de los benecios de un programa
entre un grupo de tratamiento y un grupo de comparacin 297
15.3 Una muestra ms grande tiene ms probabilidades de
parecerse a la poblacin de inters 300
Cuadros
3.1 Evaluacin del HISP segn comparacin antes-despus 64
3.2 Impacto del HISP segn comparacin antes-despus
(anlisis de regresin) 64
3.3 Evaluacin del HISP segn comparacin inscritos-no inscritos
(comparacin de medias) 67
3.4 Evaluacin del HISP segn comparacin inscritos-no inscritos
(anlisis de regresin) 68
4.1 Evaluacin del HISP: balance entre los pueblos de
tratamiento y de comparacin en la lnea de base 93
4.2 Evaluacin del HISP segn la asignacin aleatoria
(comparacin de medias) 94
Contenidos xiii
15.3 Evaluacin del HISP+: tamao requerido de la muestra
para identicar diversos efectos mnimos detectables,
potencia = 0,8 310
15.4 Evaluacin del HISP+: tamao requerido de la muestra
para detectar diversos efectos mnimos deseados
(aumento de la tasa de hospitalizacin) 311
15.5 Evaluacin del HISP+: tamao requerido de la muestra
para identicar diversos efectos mnimos detectables
(disminucin de los gastos del hogar en salud) 314
15.6 Evaluacin del HISP+: tamao requerido de la muestra
para detectar un impacto mnimo de US$2 en diversas
cantidades de clusters 315
xv
esto es al comienzo de un programa, mediante el diseo de evaluaciones de
impacto prospectivas que se incluyan en la implementacin de un proyecto.
Sostenemos que alcanzar un consenso entre las principales partes interesa-
das y la denicin de un diseo de evaluacin adecuado al contexto poltico
y operativo es tan importante como el propio mtodo. Tambin creemos que
las evaluaciones de impacto deberan ser claras a propsito de sus limitacio-
nes y sus advertencias. Por ltimo, alentamos encarecidamente a los respon-
sables de las polticas pblicas y a los administradores de los programas a
considerar las evaluaciones de impacto como parte de una teora bien desa-
rrollada del cambio que establece con claridad las vas causales mediante las
cuales un programa funciona para elaborar productos e inuir en los resul-
tados nales, y los alentamos a combinar las evaluaciones de impacto con
enfoques de monitoreo y de evaluacin complementarios con el n de obte-
ner un cuadro completo de los resultados.
Nuestras experiencias y lecciones sobre cmo llevar a cabo evaluaciones
de impacto en la prctica se basan en la enseanza y en el trabajo con cientos
de socios idneos de los mbitos gubernamentales, acadmicos y del desa-
rrollo. El libro se fundamenta colectivamente en dcadas de experiencia en
el trabajo con evaluaciones de impacto en casi todos los rincones del pla-
neta, y est dedicado a las futuras generaciones de profesionales y responsa-
bles de las polticas pblicas.
Esperamos que estas pginas constituyan un valioso recurso para la
comunidad internacional de desarrollo, las universidades y los responsables
de las polticas pblicas que intentan construir evidencia vlida en torno a lo
que funciona en el desarrollo. Ms y mejores evaluaciones de impacto con-
tribuirn a fortalecer la base de evidencia para las polticas y los programas
de desarrollo en todo el mundo. Tenemos la esperanza de que si los gobier-
nos y los profesionales del desarrollo pueden tomar decisiones de polticas
pblicas sobre la base de la evidencia, incluida la evidencia generada a tra-
vs de la evaluacin de impacto, los recursos para el desarrollo se destinarn
de manera ms efectiva para reducir la pobreza y mejorar las vidas de las
personas.
Prlogo xvii
segunda parte es la ms adecuada para un determinado programa, de
acuerdo con sus reglas operativas. En el captulo 12 se aborda la relacin
entre el equipo de investigacin y el equipo de polticas pblicas, y sus
respectivos roles para conformar conjuntamente un equipo de evalua-
cin. Se examina la diferencia entre independencia y ausencia de sesgo, y
se ponen de relieve mbitos que pueden ser delicados para llevar a cabo
una evaluacin de impacto. Se ofrece orientacin sobre cmo gestionar
las expectativas, se destacan algunos de los riesgos habitualmente pre-
sentes en la realizacin de evaluaciones de impacto, y se brindan suge-
rencias sobre cmo manejarlos. El captulo concluye con una visin
general de cmo gestionar las actividades de la evaluacin de impacto, lo
que incluye la creacin de un equipo de evaluacin, la programacin en el
tiempo de la misma, el presupuesto, la captacin de fondos y la recopila-
cin de datos. En el captulo 13 se proporciona una visin general de la
tica y la ciencia de la evaluacin de impacto, lo cual incluye la importan-
cia de no negar benecios a los beneciarios elegibles en aras de la eva-
luacin; en el captulo tambin se resalta el rol de las juntas de revisin
institucional, que aprueban y monitorean la investigacin con sujetos
humanos, y se aborda la importancia de registrar las evaluaciones
siguiendo la prctica de la ciencia abierta, de acuerdo con la cual los datos
se ponen a disposicin del pblico para posteriores investigaciones y
para replicar resultados. El captulo 14 proporciona una visin novedosa
sobre cmo utilizar las evaluaciones de impacto para fundamentar las
polticas pblicas, incluyendo consejos sobre cmo conseguir que los
resultados sean relevantes; un debate sobre el tipo de productos que las
evaluaciones de impacto pueden y deben producir, y orientacin sobre
cmo extraer y divulgar las conclusiones para maximizar el impacto de
las polticas pblicas.
La cuarta parte, Cmo obtener datos para una evaluacin de impacto
(captulos 15 a 17), se ocupa de la forma de recopilar datos, lo que incluye
elegir la muestra y determinar el tamao apropiado de la muestra de la eva-
luacin (captulo 15), as como tambin encontrar fuentes de datos adecua-
dos (captulo 16). El captulo 17 concluye y proporciona algunas listas de
vericacin.
Prlogo xix
AGRADECIMIENTOS
Los materiales didcticos sobre los que se basa este libro han experimen-
tado numerosas versiones, y han sido enseados por diversos y talentosos
profesores, todos los cuales han dejado su impronta en los mtodos y en el
enfoque de la evaluacin de impacto enunciados en el libro. Queremos agra-
decer y reconocer las contribuciones y los aportes sustanciales de diversos
profesores que han participado en los seminarios en los que se basaba la
primera edicin, y que incluyen a Paloma Acevedo Alameda, Felipe Barrera,
Sergio Bautista-Arredondo, Stefano Bertozzi, Barbara Bruns, Pedro
Carneiro, Jishnu Das, Damien de Walque, David Evans, Claudio Ferraz,
Deon Filmer, Jed Friedman, Emanuela Galasso, Sebastin Galiani, Arianna
Legovini, Phillippe Leite, Gonzalo Hernndez Licona, Mattias Lundberg,
Karen Macours, Juan Muoz, Plamen Nikolov, Berk zler, Nancy Qian,
Gloria M. Rubio, Norbert Schady, Julieta Trias, y Sigrid Vivo Guzmn.
Agradecemos los comentarios realizados por nuestros revisores pares en la
primera edicin del libro (Barbara Bruns, Arianna Legovini, Dan Levy y
Emmanuel Skouas) y la segunda edicin (David Evans, Francisco Gallego,
Dan Levy y Damien de Walque), as como tambin las observaciones de
Gillette Hall. Deseamos asimismo expresar nuestro agradecimiento por los
esfuerzos de un talentoso equipo organizador, que incluye a Holly Balgrave,
Theresa Adobea Bampoe, Febe Mackey, Silvia Paruzzolo, Tatyana Ringland,
Adam Ross y Jennifer Sturdy.
Extendemos igualmente nuestro reconocimiento a todos los que partici-
paron en las transcripciones del borrador del seminario de julio de 2009
realizado en Beijing, China, en el que se basan partes de este libro, especial-
mente a Paloma Acevedo Alameda, Carlos Asenjo Ruiz, Sebastian Bauhoff,
Bradley Chen, Changcheng Song, Jane Zhang y Shufang Zhang.
Reconocemos a Garret Christensen y a la Berkeley Initiative for
Transparency in the Social Sciences, as como a Jennifer Sturdy y Elisa
Rothenbhler por sus aportes al captulo 13. Tambin agradecemos a Marina
xxi
Tolchinsky y Kristine Cronin por su excelente apoyo en la investigacin; a
Cameron Breslin y Restituto Crdenas por el respaldo en la programacin; a
Marco Guzmn y Martin Ruegenberg por el diseo de las ilustraciones, y a
Nancy Morrison, Cindy A. Fisher, Fiona Mackintosh y Stuart K. Tucker por
el apoyo editorial durante la produccin de la primera y la segunda edicin
del libro.
Reconocemos y agradecemos el apoyo permanente y el entusiasmo por
este proyecto de nuestros directivos en el Banco Mundial y el Banco
Interamericano de Desarrollo, y especialmente al equipo del SIEF, entre
ellos Daphna Berman, Holly Blagrave, Restituto Crdenas, Joost de Laat,
Ariel Fiszbein, Alaka Holla, Aliza Marcus, Diana-Iuliana Pirjol, Rachel
Rosenfeld y Julieta Trias. Estamos sumamente agradecidos por el apoyo
recibido de la administracin del SIEF, incluyendo a Luis Benveniste, Joost
de Laat y Julieta Trias. Agradecemos igualmente a Andrs Gmez-Pea y
Michaela Wieser del Banco Interamericano de Desarrollo, y a Mary Fisk,
Patricia Katayama, y Mayya Revzina, del Banco Mundial, por su ayuda con
las comunicaciones y el proceso de publicacin.
La produccin de la segunda edicin de este libro en su versin en espa-
ol fue realizada por la Ocina de Planicacin Estratgica y Efectividad en
el Desarrollo del Banco Interamericano de Desarrollo. Reconocemos parti-
cularmente a Carola lvarez y Arturo Galindo por su apoyo en esta inicia-
tiva. Quedamos endeudados con Andrs Gmez-Pea y Michaela Wieser
por su esfuerzo y dedicacin en la coordinacin del proceso de produccin
editorial de este volumen. De igual manera, agradecemos especialmente a
Alberto Magnet por la traduccin del libro al espaol, as como a Claudia M.
Pasquetti, a cargo de la edicin y lectura de pruebas en dicho idioma. Cabe
tambin nuestro reconocimiento del aporte de los revisores tcnicos de
cada uno de los captulos en espaol: Paloma Acevedo, Jorge Marcelo
Franco Quincot, Gastn Gertner y Bibiana Taboada.
Por ltimo, quisiramos brindar nuestro reconocimiento a los partici-
pantes de los numerosos talleres, sobre todo los celebrados en Abiyn,
Accra, Ads Abeba, Amn, Ankara, Beijing, Berkeley, Buenos Aires, Cairo,
Ciudad de Panam, Ciudad del Cabo, Cuernavaca, Dakar, Daca, Fortaleza,
Katmand, Kigali, Lima, Madrid, Managua, Manila, Ciudad de Mxico,
Nueva Delhi, Paipa, Pretoria, Rio de Janeiro, San Salvador, Santiago,
Sarajevo, Sel, Sofa, Tnez y Washington, D.C.
Gracias a su inters, a sus inteligentes preguntas y a su entusiasmo,
hemos sido capaces de aprender paso a paso qu buscan los responsables de
las polticas pblicas en las evaluaciones de impacto. Esperamos que este
libro reeje sus ideas.
xxiii
doctorado en economa de la Universidad de California, Berkeley, con
una especializacin en desarrollo y microeconoma aplicada.
xxvii
RIDIE Registry for International Development Impact Evaluations
SIEF Fondo Estratgico de Evaluacin de Impacto (Banco Mundial)
SUTVA Supuesto de estabilidad del valor de la unidad de tratamiento
TOT Tratamiento en los tratados
USAID Agencia de Estados Unidos para el Desarrollo Internacional
INTRODUCCIN A
LA EVALUACIN DE
IMPACTO
Por qu evaluar?
3
El monitoreo y la evaluacin son fundamentales en la formulacin de
polticas basadas en evidencia. Ofrecen un conjunto central de instru-
mentos que las partes interesadas pueden utilizar para vericar y mejorar
la calidad, eciencia y efectividad de las polticas y de los programas en
diferentes etapas de implementacin o, en otras palabras, para centrarse
en los resultados. A nivel de la gestin del programa, es necesario saber
cules son las opciones de diseo costo-efectivas, o demostrar ante los
responsables de la toma de decisiones que los programas estn logrando
sus resultados previstos con el n de obtener asignaciones presupuesta-
rias para continuarlos o ampliarlos. A nivel nacional, los ministerios
compiten unos con otros para obtener nanciamiento del ministerio de
Finanzas. Y, por ltimo, los gobiernos deben rendir cuentas ante los ciu-
dadanos para informales del resultado de los programas pblicos. La evi-
dencia puede constituir una base slida para la transparencia y la rendicin
de cuentas.
La evidencia robusta generada por las evaluaciones de impacto est sir-
viendo cada vez ms como fundamento para una mayor rendicin de cuen-
tas, innovacin y aprendizaje. En un contexto en que los responsables de las
polticas y la sociedad civil exigen resultados y la rendicin de cuentas de los
programas pblicos, la evaluacin de impacto puede proporcionar eviden-
cia robusta y creble sobre el desempeo y ante todo sobre si un programa
concreto ha alcanzado o est alcanzando sus resultados deseados. Las eva-
luaciones de impacto tambin son cada vez ms utilizadas para probar inno-
vaciones en el diseo de programas o en la prestacin de servicios. A nivel
mundial, estas evaluaciones son fundamentales para construir conocimien-
tos acerca de la efectividad de los programas de desarrollo, iluminando
sobre lo que funciona y no funciona para reducir la pobreza y mejorar el
bienestar.
En pocas palabras, una evaluacin de impacto mide los cambios en el
bienestar de los individuos que se pueden atribuir a un proyecto, un pro-
grama o una poltica especcos. Este enfoque en la atribucin es el sello
distintivo de las evaluaciones de impacto. Por lo tanto, el reto fundamental
en una evaluacin de esta naturaleza consiste en identicar la relacin
causal entre el programa o la poltica y los resultados de inters.
Las evaluaciones de impacto suelen medir el impacto promedio de un
programa, las modalidades del programa o una innovacin en el diseo. Por
ejemplo, el programa de agua y saneamiento aument el acceso a agua
potable y mejor los resultados de salud? Un programa de estudios alterna-
tivo mejor las puntuaciones de las pruebas de los alumnos? La innovacin
de incluir destrezas cognitivas como parte de un programa de formacin de
jvenes ha tenido xito promoviendo la iniciativa empresarial e incremen-
tando los ingresos? En cada uno de estos casos, la evaluacin de impacto
4 La evaluacin de impacto en la prctica
proporciona informacin sobre si el programa provoc los cambios deseados
en los resultados, al compararse con estudios de casos o ancdotas espec-
cas, que solo pueden brindar informacin parcial y que quiz no sean repre-
sentativos de los impactos generales del programa. En este sentido, las
evaluaciones de impacto bien diseadas y bien implementadas son capaces
de proporcionar evidencia convincente y exhaustiva que puede ser utilizada
para fundamentar las decisiones de las polticas, inuir en la opinin pblica
y mejorar el funcionamiento de los programas.
Las evaluaciones de impacto clsicas abordan la efectividad de un pro-
grama en comparacin con la ausencia del mismo. El recuadro 1.1 se reere a
la evaluacin de impacto bien conocida del programa de transferencias con-
dicionadas en Mxico, e ilustra cmo la evaluacin contribuy a los debates
de las polticas pblicas en relacin con la ampliacin del programa.1
Por qu evaluar? 5
Recuadro 1.1: Cmo una evaluacin exitosa puede promover la sostenibilidad poltica de un programa
de desarrollo (contina)
discapacidad decreca en un 19% entre los media-superior y mejor los programas de
adultos. Entre los resultados nutricionales, salud para los adolescentes. Al mismo
Behrman y Hoddinott (2001) hallaron que el tiempo, los resultados fueron utilizados para
programa reduca la probabilidad de retraso modicar otros programas de ayuda social,
en el crecimiento en alrededor de 1 cent- como el subsidio de la tortilla, muy generoso
metro al ao en los nios durante la edad pero no tan bien focalizado, cuya escala se
crtica de 12-36 meses. redujo.
Estos resultados de la evaluacin fueron La exitosa evaluacin de Progresa tam-
el punto de partida de un dilogo sobre las bin contribuy a la rpida adopcin de sis-
polticas basadas en evidencia y contribuye- temas de transferencias condicionadas en
ron a la decisin del nuevo gobierno de seguir todo el mundo, y a la adopcin en Mxico de
con el programa. El gobierno ampli su una legislacin que establece la evaluacin
alcance e introdujo las becas en la enseanza de todos los proyectos sociales.
Fuentes: Behrman y Hoddinott (2001); Fiszbein y Schady (2009); Gertler (2004); Levy y Rodrguez (2005); Schultz
(2004); Skouas y McClafferty (2001).
Qu es la evaluacin de impacto?
Por qu evaluar? 9
laevaluacin de impacto se planique al comienzo, o durante el proceso de
diseo o de implementacin de un programa. El contar con reglas de opera-
cin claras y bien denidas para un programa no solo tiene un valor intrnseco
en las polticas pblicas y en una gestin solvente de los programas: tambin
es esencial para construir buenos grupos de comparacin, lo cual constituye
la base de las evaluaciones de impacto rigurosas. Concretamente, la eleccin
de un mtodo de evaluacin de impacto est determinada por las caractersti-
cas operativas del programa, en particular sus recursos disponibles, los crite-
rios de elegibilidad para seleccionar a los beneciarios y los plazos para la
implementacin del programa. Como se ver en las partes 2 y 3 de este libro,
se pueden formular tres preguntas acerca del contexto operativo de un deter-
minado programa: El programa tiene recursos para servir a todos los bene-
ciarios elegibles? El programa est focalizado o es universal? El programa se
ofrecer a todos los beneciarios de una sola vez o demanera secuencial? La
respuesta a estas tres preguntas determinar cul de los mtodos presentados
en la parte 2 asignacin aleatoria, variables instrumentales, regresin dis-
continua, diferencias en diferencias o pareamiento es el ms adecuado para
un determinado contexto operativo.
Por qu evaluar? 13
Recuadro 1.3: Pruebas de la capacidad generalizable de los resultados (contina)
Si bien el programa se modic para ade- valor de los activos, inclusin nanciera, tiempo
cuarse a los diferentes contextos en cada dedicado a trabajar, ingresos y rentas, salud
pas, los principios clave seguan siendo los mental y participacin poltica. La magnitud de
mismos. El programa se centr en los hoga- los impactos variaba segn los pases, y hubo
res ms pobres en pueblos de las regiones impactos considerables en el valor de los acti-
ms pobres de cada pas. Durante 24 meses, vos en todos los pases excepto uno. No se
los hogares beneciarios recibieron activos registraron impactos estadsticamente signi-
productivos, formacin y apoyo, coaching en cativos en el ndice de salud fsica.
habilidades para la vida, dinero, informacin Los resultados tambin variaban de un
sanitaria y ayuda en la inclusin nanciera. La pas a otro. Las mejoras en el consumo per
evaluacin de impacto meda la efectividad cpita no fueron signicativas en Honduras ni
de proporcionar este paquete de benecios. en Per, y la mejora en el valor de los activos
El estudio evalu los impactos del programa no lo fue en Honduras. Sin embargo, en trmi-
en 10 conjuntos de resultados. Un ao des- nos agregados, la evaluacin apuntaba hacia
pus de que el programa terminara en los seis la promesa de este tipo de intervencin multi-
pases, se produjeron mejoras considerables factica para mejorar las vidas de las familias
en ocho de los 10 conjuntos de resultados: muy pobres en una gama de entornos.
consumo per cpita, seguridad alimentaria,
Enfoques complementarios
El monitoreo
Simulaciones ex ante
Las simulaciones ex ante son evaluaciones que utilizan datos disponibles para
simular los efectos esperados de una reforma de programas o polticas en los
resultados de inters. Pueden ser muy tiles para medir la efectividad espe-
rada relativa de una gama de opciones de diseo de programas alternativos
en los resultados. Se trata de mtodos habitualmente usados que dependen
de la disponibilidad de datos de gran alcance y calidad que se pueden utilizar
para aplicar modelos de simulacin adecuados a la pregunta en cuestin
(vase el recuadro 1.4). Al contrario de las evaluaciones de impacto, estos
mtodos se emplean para simular futuros efectos potenciales, ms que para
medir los impactos reales de los programas implementados. Este tipo de
mtodos puede ser sumamente til para establecer referencias para los pro-
bables efectos del programa y para instituir objetivos realistas, as como para
estimar costos, tasas de retorno y otros parmetros econmicos. Se suelen
utilizar como la base de los anlisis econmicos de los proyectos, especial-
mente antes de que se introduzca una reforma o se implemente un proyecto.
Por qu evaluar? 15
Recuadro 1.4: Simulacin de posibles efectos del proyecto a
travs del modelado estructural
Combinacin de una prueba controlada ms largo plazo. Si bien el RCT encontr que
aleatoria con un estudio etnogrco en la intervencin no tena un impacto estads-
India tico signicativo, el estudio cualitativo pro-
Los enfoques de mtodos mixtos pueden ser porcion visiones novedosas de las causas
especialmente tiles cuando evalan progra- del fracaso de la intervencin. La investi-
mas con resultados que son difciles de medir gacin cualitativa identic diversos facto-
en las encuestas cuantitativas. Los progra- res que obstaculizaron la efectividad de la
mas de los mbitos de democracia y gober- esta ltima: las variaciones en la calidad de
nanza constituyen ejemplos de este tipo. la facilitacin del programa, la falta de apoyo
As, mientras se diseaba una estrategia de arriba hacia abajo y las arraigadas estruc-
de evaluacin para el programa Campaa del turas de poder local.
pueblo que pretenda mejorar la participa- La evidencia cualitativa tambin descubri
cin ciudadana en los gobiernos locales, algunos impactos del programa menos tangi-
Ananthpur, Malik y Rao (2014) integraron un bles e inesperados. En los pueblos del trata-
ensayo controlado aleatorio (RCT, por sus miento, el programa mejor la resolucin de
siglas en ingls, Randomized Control Trial) conictos en la prestacin de servicios y
(vase el glosario) con un estudio etnogrco aument la participacin de las mujeres en
llevado a cabo en un subconjunto del 10% de las actividades de desarrollo de sus comuni-
la muestra de evaluacin utilizada para el RCT. dades. Adems, los investigadores de campo
Se emplearon mtodos de pareamiento para observaron que los gobiernos locales funcio-
asegurar caractersticas similares entre pue- naban mejor en los pueblos de tratamiento.
blos de tratamiento y de comparacin en la Sin la comprensin matizada del con-
muestra para el estudio cualitativo. Se asign texto y de la dinmica local que proporciona
un experimentado investigador de campo el componente cualitativo, los investigado-
para que viviera en cada pueblo y estudiara res no habran podido entender por qu los
los impactos del programa en las estructuras datos cuantitativos no encontraron impac-
sociales y polticas del pueblo. tos. El estudio etnogrco fue capaz de pro-
El estudio etnogrco continu durante porcionar una evaluacin ms rica, con
dos aos despus de que termin el RCT, lo perspectivas novedosas de los elementos
que permiti observaciones de efectos a tiles para mejorar el programa.
Por qu evaluar? 17
desarrollo de un enfoque de mtodo mixto, Creswell (2014) dene tres
aproximaciones bsicas:
1. Convergente paralelo. Se recopilan simultneamente datos cuantitativos
y cualitativos y se utilizan para triangular los hallazgos o para generar los
primeros resultados sobre cmo se est implementando el programa y
cmo lo perciben los beneciarios.
2. Explicativo secuencial. Los datos cualitativos proporcionan contexto y
explicaciones para los resultados cuantitativos, para explorar casos at-
picos de xito y fracaso, y para desarrollar explicaciones sistemticas del
desempeo del programa, como se constat en los resultados cuantitati-
vos. De esta manera, el trabajo cualitativo puede contribuir a determinar
por qu en el anlisis cuantitativo se observan ciertos resultados, y se
pueden usar para entrar en la caja negra de lo que ocurri en el pro-
grama (Bamberger, Rao y Woolcock, 2010).
3. Exploratorio secuencial. El equipo de evaluacin puede utilizar grupos
focales, listas, entrevistas con informantes clave y otros enfoques cualita-
tivos para desarrollar hiptesis a propsito de cmo y por qu el pro-
grama funcionara, y para claricar preguntas acerca de la investigacin
que hay que abordar en el trabajo cuantitativo de evaluacin de impacto,
lo que incluye las alternativas ms relevantes del diseo de programas
que deben ser probadas a travs de la evaluacin de impacto.
Por qu evaluar? 19
Descripcin de las operaciones del programa, incluido cualquier cambio
en las mismas.
Datos bsicos sobre las operaciones del programa, incluidos indicadores
nancieros y de cobertura.
Identicacin y descripcin de eventos que escapan al control del pro-
grama que pueden haber inuido en la implementacin y los resultados.
Documentacin, como notas de concepto, manuales operativos, actas de
las reuniones, informes y memorandos.
Aplicar una evaluacin de impacto a un programa cuyos procesos operati-
vos no han sido validados plantea el doble riesgo de que se malgasten los
recursos de dicha evaluacin, cuando en realidad podra bastar con una eva-
luacin de proceso ms sencilla, o bien el riesgo de que los ajustes necesa-
rios en el diseo del programa se introduzcan una vez que la evaluacin de
impacto ya ha comenzado, lo cual cambia el carcter del programa que se
evala y la utilidad de la mencionada evaluacin.
Por qu evaluar? 21
Recuadro 1.7: La evaluacin de costo-efectividad (contina)
en las evaluaciones. As, encontraron que Por ejemplo, si bien la creacin y formacin de
las reformas pedaggicas y las intervencio- comits de escuelas locales en Indonesia no
nes que mejoran la rendicin de cuentas y tuvo impactos signicativos en las puntuacio-
aumentan los incentivos para los maestros nes de las pruebas, lograr que los comits fue-
tienden a ser las ms costo-efectivas. Por ran ms representativos a travs de las
otro lado, llegaron a la conclusin de que elecciones result sumamente costo-efectivo.
proveer ms de los mismos insumos sin Como ilustra su estudio, comparar las
cambiar la pedagoga o la rendicin de cuen- evaluaciones de intervenciones que tienen
tas tena impactos limitados en las puntua- objetivos similares puede arrojar luz sobre
ciones de las pruebas. Por ejemplo, un la efectividad de diferentes intervenciones
programa aplicado en Kenia que increment en diferentes contextos. Sin embargo, los
el nmero de maestros en las escuelas no investigadores deben reconocer que los con-
tuvo impactos signicativos en las puntua- textos varan de forma considerable segn
ciones de las pruebas de los alumnos. los programas y escenarios. Tambin sigue
Los programas que empoderaban a las siendo relativamente raro contar con abun-
comunidades locales a travs de intervencio- dancia de datos de distintos programas en
nes de gestin basadas en la escuela parecan trminos de mediciones, evaluaciones de
ser los ms exitosos y costo-efectivos, sobre impacto e informacin del costo de resulta-
todo cuando estas reformas se formalizaron. dos comparables.
Recursos adicionales
Notas
Referencias bibliogrcas
Por qu evaluar? 33
Todd, P. y K. Wolpin. 2006. Using Experimental Data to Validate a Dynamic
Behavioral Model of Child Schooling and Fertility: Assessing the Impact of a
School Subsidy Program in Mexico. American Economic Review 96 (5):
13841417.
Zerbe, R. y D. Dively. 1994. Benet Cost Analysis in Theory and Practice. Nueva York:
Harper Collins Publishing.
La preparacin de una
evaluacin
Pasos iniciales
Este captulo resea los pasos iniciales que es preciso ejecutar para congu-
rar una evaluacin. Estos pasos son: i) construir una teora del cambio que
describa cmo se supone que el proyecto lograr los objetivos previstos;
ii)elaborar una cadena de resultados que sirva como instrumento til para
esbozar la teora del cambio; iii) especicar las preguntas de la evaluacin; y
iv) seleccionar los indicadores para evaluar el desempeo.
Los cuatro pasos son necesarios y es preferible implementarlos al inicio, es
decir, cuando comienza a disearse el proyecto de evaluacin del programa o
de las reformas. Esto requiere la participacin de todas las partes interesadas,
desde los responsables de las polticas hasta los implementadores del pro-
yecto, con el n de forjar una visin comn de los objetivos y de cmo sern
alcanzados. Esta participacin permitir crear un consenso sobre el enfoque
de la evaluacin y las principales preguntas a responder, y reforzar los vncu-
los entre la evaluacin, la implementacin del programa y el diseo de polti-
cas pblicas. La aplicacin de estos pasos contribuye a la claridad y la
especicidad, que son tiles tanto para elaborar una buena evaluacin de
impacto como para disear e implementar un programa efectivo. Cada uno de
los pasos est claramente denido y est articulado en el modelo lgico incor-
porado en la cadena de resultados desde la precisin en la determinacin de
35
los objetivos y las preguntas hasta la denicin de las ideas integradas en la
teora del cambio, y los resultados esperados por la implementacin del pro-
grama. Se requiere una especicacin clara de los indicadores concretos que
se utilizarn para medir el xito del programa, no solo para asegurar que la
evaluacin est enfocada sino tambin que el programa tenga objetivos bien
denidos. Esto tambin proporciona una base rme para anticipar los efectos
producidos. Estos parmetros son esenciales para denir los elementos tcni-
cos de la evaluacin, incluyendo el tamao de la muestra requerida para la
evaluacin y los clculos de la potencia, como se analiza en el captulo 15.
En la mayora de las evaluaciones de impacto ser importante incluir una
evaluacin de costo-benecio, o costo-efectividad, como se indica en el
captulo 1. Los formuladores de poltica debern estar atentos para saber
qu programas o reformas son efectivos pero tambin cul es su costo.
Setrata de un aspecto crucial para fundamentar decisiones acerca de si es
viable aumentar la escala de un programa y si es posible replicarlo, dos con-
sideraciones importantes en las decisiones de polticas pblicas.
Una teora del cambio es la descripcin de cmo se supone que una interven-
cin conseguir los resultados deseados. En ese sentido, expone la lgica cau-
sal de cmo y por qu un proyecto, una modalidad de programa o un diseo
de innovacin lograrn los resultados previstos. Debido al enfoque causal de
la investigacin, una teora del cambio es la base de cualquier evaluacin de
impacto. Su construccin es uno de los primeros requisitos para el diseo del
proyecto, ya que contribuye a especicar las preguntas de la investigacin.
Las teoras del cambio describen una secuencia de eventos que generan
resultados: analizan las condiciones y los supuestos necesarios para que
seproduzca el cambio, explicitan la lgica causal inscrita en el programa y
trazan el mapa de las intervenciones del programa a lo largo de las vas lgicas
causales. Congurar una teora del cambio en conjunto con las partes intere-
sadas puede claricar y mejorar el diseo del programa. Esto es especialmente
importante en los programas que pretenden inuir en las conductas, pues las
teoras del cambio pueden ayudar a determinar los insumos y actividades de
la intervencin, qu productos se generan y cules son los resultados nales
derivados de los cambios de comportamiento de los beneciarios.
El mejor momento para desarrollar una teora del cambio es al comienzo
de la fase de diseo, cuando es posible reunir a las partes interesadas con el
n de denir una visin colectiva del programa, sus objetivos y la ruta para
alcanzar esos objetivos. As, las partes interesadas podrn implementar el
programa a partir de un entendimiento comn del mismo, de sus objetivos y
de su funcionamiento.
36 La evaluacin de impacto en la prctica
Por otra parte, es til que los diseadores de programas revisen la
literatura en busca de evidencia que describa experiencias y programas
similares, y comprueben los contextos y los supuestos detrs de las vas
causales de la teora del cambio que conguran. Por ejemplo, en el caso del
proyecto de reemplazo de suelos de tierra por suelos de cemento desarro-
llado en Mxico (que se resea en el recuadro 2.1), la literatura aporta
Una cadena de resultados es una manera de describir una teora del cambio.
Otros enfoques incluyen modelos tericos, modelos lgicos, marcos lgicos
y modelos de resultados. Todos estos modelos integran los elementos bsi-
cos de una teora del cambio, a saber: una cadena causal, una especicacin
de las condiciones e inuencias externas y la determinacin de los supues-
tos clave. En este libro se utilizar el modelo de cadena de resultados porque
es el ms sencillo y claro para describir la teora del cambio en el contexto
Concepto clave operativo de los programas de desarrollo.
Una cadena de Una cadena de resultados establece la lgica causal desde el inicio del
resultados establece la programa, empezando con los recursos disponibles, hasta el nal,
secuencia de insumos,
teniendo en cuenta los objetivos de largo plazo. Fija una denicin lgica
actividades y
productos que y plausible de cmo una secuencia de insumos, actividades y productos
previsiblemente relacionados directamente con el proyecto interacta con el comporta-
mejorarn los miento y dene las vas para lograr los impactos (vase el grco 2.1). Una
resultados y los cadena de resultados bsica esquematizar un mapa con los siguientes
resultados nales.
elementos:
Insumos. Los recursos de que dispone el proyecto, que incluyen el
personal y el presupuesto.
Actividades. Las acciones emprendidas o el trabajo realizado para trans-
formar los insumos en productos.
Productos. Los bienes y servicios tangibles que producen las actividades
del programa (controlados de forma directa por la agencia ejecutora).
Resultados. Los resultados que previsiblemente se lograrn cuando la
poblacin se benecie de los productos del proyecto. En general, estos
resultados se observan entre el corto y el mediano plazo y no suelen estar
controlados de forma directa por la agencia ejecutora.
Resultados nales. Los resultados nales alcanzados sealan si los objeti-
vos del proyecto se cumplieron o no. Normalmente, los resultados nales
dependen de mltiples factores y se producen despus de un perodo
ms largo.
Tanto la implementacin como los resultados forman parte de la cadena
de resultados. La ejecucin tiene que ver con el trabajo efectuado en el
38 La evaluacin de impacto en la prctica
Grco 2.1 Los elementos de una cadena de resultados
RESULTADOS
INSUMOS ACTIVIDADES PRODUCTOS RESULTADOS FINALES
INSUMOS
INSUMOS
INSUMOS
S
Como lista de vericacin nal, una vez que se han seleccionado los indica-
dores es til pensar en las disposiciones para producir los datos con el n de
medir los indicadores. En el captulo 4 se presenta un debate exhaustivo
Recursos adicionales
Referencias bibliogrcas
CMO EVALUAR
La parte 3 comienza indicando cmo usar las reglas de operacin del programa,
esto es: los recursos disponibles de un programa, los criterios para la seleccin
de beneciarios, y el plazo de implementacin, como base para seleccionar
un mtodo de evaluacin de impacto. All se presenta un marco sencillo para
determinar cul de las metodologas de evaluacin de impacto expuestas en la
parte 2 es ms conveniente para un determinado programa, en funcin de sus
normas operativas.
CAPTULO 3
Inferencia causal y
contrafactuales
Inferencia causal
= (Y | P = 1) (Y | P = 0)
Beneciario/a Clon
6 caramelos 4 caramelos
Impacto = 6 4 = 2 caramelos
Tratamiento Comparacin
Impacto = 6 4 = 2 caramelos
1.100 A
Produccin de arroz (kg por ha)
Cambio observado
Contrafactual C C? = 100
Contrafactual B
1.000 B
Contrafactual D
D?
Ao 0 Ao 1
Regresin lineal
Regresin lineal multivariante
Impacto estimado en el
gasto en salud de los 6,65** 6,71**
hogares (en US$) (0,23) (0,23)
Pregunta HISP 1
Con una simple regresin lineal de los gastos en salud en una variable
indicativa de si un hogar se inscribi o no en el programa, es posible
encontrar un impacto estimado de US$ -14,46, es decir, que el programa
ha disminuido el promedio de gastos de salud en US$14,46. Sin embargo,
cuando se controla por todas las dems caractersticas de los datos, se
estima que el programa ha reducido los gastos en salud en US$ 9,98 al ao.
Pregunta HISP 2
A. Este anlisis controla por todos los factores que determinan las dife-
rencias en gastos en salud entre los dos grupos?
B. Sobre la base de los resultados producidos por el mtodo de inscripcin-
no inscripcin, debera ampliarse el HISP al nivel nacional?
Recursos adicionales
Notas
Referencias bibliogrcas
La asignacin aleatoria
La asignacin aleatoria 73
Recuadro 4.1: La asignacin aleatoria como un valioso instrumento operativo (contina)
La asignacin aleatoria 79
Recuadro 4.4: Asignacin aleatoria de intervenciones en abastecimiento de agua y saneamiento en
zonas rurales de Bolivia (contina)
registraron en una lista. Las comunidades misma lista ordenada de forma aleatoria
que quedaron al comienzo de la lista se para asignar un futuro nanciamiento
asignaron al grupo de tratamiento. Cada despus de completar la evaluacin. De
concurso fue monitoreado por un notario esta manera, ninguna comunidad quedara
pblico independiente, que posteriormente marginada de la intervencin debido
registr y certic los resultados, lo que nicamente a los objetivos de la evaluacin,
concedi un nivel adicional de legitimidad al pero existira un grupo de comparacin
proceso. En el caso de las comunidades que mientras las limitaciones presupuestarias
quedaron fuera del programa, los gobiernos restringieran el nmero de proyectos en
municipales se comprometieron a utilizar la cada municipalidad.
Validez
La seleccin aleatoria
externa
conserva las caractersticas
Muestra de evaluacin
La asignacin aleatoria 81
se detall ms arriba, la seleccin de una muestra aleatoria de la poblacin
de unidades elegibles para formar la muestra de evaluacin conserva las
caractersticas de la poblacin de las unidades elegibles. Dentro de la mues-
tra, la asignacin aleatoria de individuos a los grupos de tratamiento y
comparacin tambin conserva dichas caractersticas. En el captulo 15 se
abordarn otros aspectos del muestreo.
Tratamiento
No elegible Elegible
La asignacin aleatoria 87
Deotramanera, puede que el evaluador se vea tentado de usar una regla
basada en los nmeros aleatorios que ve, lo que invalidara la asignacin
aleatoria.
La lgica en que se fundamenta el proceso automatizado no es diferente
de la asignacin aleatoria basada en lanzar una moneda o extraer nombres
de un sombrero. Se trata de un mecanismo que asigna al azar si cada unidad
pertenece al grupo de tratamiento o de comparacin.
Al utilizar un sorteo pblico, dados o nmeros al azar generados por
computador, es importante documentar el proceso para asegurar que sea
transparente. En primer lugar, eso signica que la regla de asignacin debe
decidirse con antelacin y comunicarse al pblico. En segundo lugar, el eva-
luador debe ceirse a la regla una vez que se extraen los nmeros al azar. En
tercer lugar, debe demostrarse que el proceso era realmente aleatorio. En el
caso de los sorteos y el lanzamiento de dados, se puede grabar el proceso en
video; la asignacin mediante nmeros al azar generados por computador
requiere que se presente un registro de los cmputos, de modo que el pro-
ceso pueda ser auditado.5
La asignacin aleatoria 91
requerir identicar un grupo de pueblos que sean lo ms parecidos
posible a los 100 pueblos del tratamiento en todos los sentidos, con la
excepcin de que un grupo particip en el HISP y el otro no. Dado que
el HISP se implement como plan piloto, y que los 100 pueblos de
tratamiento fueron seleccionados de forma aleatoria entre los pueblos
rurales en todo el pas, usted observa que los pueblos del tratamiento
deberan, en promedio, tener las mismas caractersticas que los pue-
blos rurales no tratados en todo el pas. Por lo tanto, se puede estimar
el contrafactual de una manera vlida, midiendo los gastos en salud de
los hogares elegibles en los pueblos rurales que no participaron del
programa.
Afortunadamente, en el momento de las encuestas de lnea de base y
de seguimiento, se recopilaron datos de otros 100 pueblos rurales a los
que no se ofreci el programa. Esos 100 pueblos tambin fueron selec-
cionados de manera aleatoria entre la poblacin de los pueblos rurales
en el pas. Por lo tanto, la manera en que fueron escogidos los dos gru-
pos de pueblos garantiza que tienen caractersticas estadsticamente
idnticas, excepto que los 100 pueblos de tratamiento se inscribieron
en el HISP y los 100 pueblos del grupo de comparacin no fueron
destinatarios del programa. Se ha producido una asignacin aleatoria
del tratamiento.
Dada la asignacin aleatoria del tratamiento, usted confa en que
ningn factor externo, excepto el HISP, explicara las diferencias en los
resultados entre los pueblos de tratamiento y de comparacin. Para
validar este supuesto, usted comprueba si los hogares elegibles en los
pueblos de tratamiento y comparacin tienen caractersticas similares
en la lnea de base, como se muestra en el cuadro 4.1.
Usted observa que las caractersticas promedio de los hogares en los
pueblos de tratamiento y de comparacin son, de hecho, muy similares.
Las nicas diferencias estadsticamente signicativas son las relativas
al nmero de aos de escolarizacin del jefe de hogar y la distancia
al hospital, y esas diferencias son pequeas (solo 0,16 aos, o menos
del6% de los aos de escolarizacin promedio del grupo de compara-
cin, y 2,91 km, o menos del 3% de la distancia promedio al hospital del
grupo de comparacin). Incluso con un experimento aleatorio en una
muestra grande, se puede esperar un pequeo nmero de diferencias
debido al azar y a las propiedades del test estadstico. De hecho, al
utilizar niveles de signicancia estndar del 5%, poda esperarse que
alrededor del 5% de las diferencias en las caractersticas sean estadsti-
camente signicativas, aunque no se esperara que la magnitud de estas
diferencias fuese grande.
Pueblos de Pueblos de
Caractersticas tratamiento comparacin
de los hogares (N = 2964) (N = 2664) Diferencia t-estadstico
Gasto en salud
(dlares de
EE.UU. anuales
per cpita) 14,49 14,57 0,08 0,73
Edad del jefe
de hogar (aos) 41,66 42,29 0,64 1,69
Edad del
cnyuge (aos) 36,84 36,88 0,04 0,12
Nivel de
estudios del
jefe de hogar
(aos) 2,97 2,81 0,16* 2,30
Nivel de
estudios del
cnyuge (aos) 2,70 2,67 0,03 0,43
Jefe de hogar
es mujer = 1 0,07 0,08 0,01 0,58
Jefe de hogar
es indgena = 1 0,43 0,42 0,01 0,69
Nmero de
miembros del
hogar 5,77 5,71 0,06 1,12
Tiene suelo de
tierra 0,72 0,73 0,01 1,09
Tiene bao = 1 0,57 0,56 0,01 1,04
Hectreas de
terreno 1,68 1,72 0,04 0,57
Distancia a un
hospital (km) 109,20 106,29 2,91 2,57
La asignacin aleatoria 93
Cuadro 4.2 Evaluacin del HISP segn la asignacin aleatoria
(comparacin de medias)
Regresin
Regresin lineal lineal multivariante
Impacto estimado sobre
el gasto en salud de los 10,14** 10,01**
hogares (0,39) (0,34)
Pregunta HISP 3
Recursos adicionales
La asignacin aleatoria 95
Para un debate en profundidad sobre cmo encontrar el equilibrio entre
grupos de tratamiento y de comparacin mediante la asignacin aleato-
ria, vase:
M. Bruhn y D. McKenzie (2009), In Pursuit of Balance: Randomization in
Practice in Development Field Experiments. American Economic Journal:
Applied Economics 1(4): 20032.
Notas
Referencias bibliogrcas
La asignacin aleatoria 97
CAPTULO 5
El cumplimiento imperfecto
Grco 5.2 Estimacin del efecto local promedio del tratamiento bajo
asignacin aleatoria con cumplimiento imperfecto
Nunca se
inscribe
Solo se
inscribe
si es
asignado
Siempre se
inscribe
Nota: La estimacin de la intencin de tratar (ITT) se obtiene comparando los resultados de los
individuos asignados al grupo de tratamiento con los de aquellos asignados al grupo de comparacin,
independientemente de la inscripcin en la prctica. La estimacin del efecto local promedio del trata-
miento (LATE) es el impacto del programa en los que se inscriben solo si son asignados al programa
(Inscritos si se lo ofrecen). La estimacin LATE no proporciona el impacto del programa en aquellos
que nunca se inscriben (Nuncas) o en aquellos que siempre se inscriben (Siempres).
= impacto causal; Y = resultado.
Ha dicho promocin?
Concepto clave
La promocin aleatoria pretende aumentar la aceptacin de un programa La promocin aleatoria
voluntario en una submuestra de la poblacin seleccionada aleatoriamente. es un mtodo de
La promocin puede adoptar diversas formas. Por ejemplo, puede que se variables instrumenta-
decida iniciar una campaa de informacin para llegar a aquellas personas les que permite
que no se han inscrito porque no lo saban o porque no entienden cabalmente estimar el impacto de
manera no sesgada.
el contenido del programa. Tambin, se pueden ofrecer incentivos para ins-
Asigna aleatoriamente
cribirse, como pequeos obsequios o premios, o facilitando el transporte. una promocin o
Como se seal de manera ms general en el caso de las VI, para que el incentivo para
mtodo de promocin aleatoria genere una estimacin vlida del impacto participar en el
del programa debe cumplirse una serie de condiciones: programa. Es una
estrategia til para
1. Los grupos que son objeto y no objeto de la promocin deben ser simila- evaluar programas que
res. Es decir, las caractersticas promedio de los dos grupos deben ser estn abiertos a todos
los que sean elegibles.
estadsticamente equivalentes. Esto se consigue asignando de forma
aleatoria las actividades de extensin o promocin entre las unidades de
la muestra de evaluacin.
2. La propia promocin no debera inuir directamente en los resultados de
inters. Este es un requisito crtico, de modo que se pueda saber que los
cambios en los resultados de inters son provocados por el programa
mismo y no por la promocin.
3. La campaa de promocin debe alterar considerablemente las tasas de
inscripcin en el grupo objeto de la promocin en relacin con el grupo
que no ha sido objeto de la misma. Normalmente, se piensa en aumentar
la inscripcin mediante la promocin. Esto se puede vericar consta-
tando que las tasas de inscripcin sean ms altas en el grupo que es objeto
de la promocin que en el grupo que no lo es.
Sin promocin
Promocin
Grco 5.4 Estimacin del efecto local promedio del tratamiento bajo la
promocin aleatoria
Nunca
Inscrito si
es objeto
de la
promocin
Siempre
Nota: Las guras que aparecen con el fondo sombreado corresponden a los que se inscriben.
= impacto causal; Y = resultado.
Pregunta HISP 4
A. Cules son las condiciones clave requeridas para aceptar los resulta-
dos de la evaluacin de promocin aleatoria del HISP?
B. Sobre la base de estos resultados, se debera ampliar el HISP a nivel
nacional?
Recursos adicionales
Referencias bibliogrcas
Angrist, J., E. Bettinger, E. Bloom, E. King y M. Kremer. 2002. Vouchers for Private
Schooling in Colombia: Evidence from a Randomized Natural Experiment.
American Economic Review 92 (5): 153558.
Kearney, M. S. y P. B. Levine. 2015. Early Childhood Education by MOOC: Lessons
from Sesame Street. Documento de trabajo NBER 21229, National Bureau of
Economic Research, Cambridge, MA.
Newman, J., M. Pradhan, L. B. Rawlings, G. Ridder, R. Coa y J. L. Evia. 2002. An
Impact Evaluation of Education, Health, and Water Supply Investments by the
Bolivian Social Investment Fund. World Bank Economic Review 16 (2): 24174.
3. La puntuacin lmite debe ser nica para el programa de inters, es decir, Concepto clave
aparte del programa que se evala, no debera haber otros programas que El diseo de regresin
utilicen la misma puntuacin lmite. Por ejemplo, si un ndice de pobreza discontinua (DRD) es un
por debajo de 50 clasica a un hogar para recibir una transferencia de mtodo de evaluacin de
impacto adecuado para
efectivo, un seguro de salud y transporte pblico gratis, no se podra uti-
programas que utilizan
lizar el mtodo DRD para estimar por s solo el impacto del programa de un ndice continuo para
transferencias de efectivo. clasicar a los
participantes potenciales
4. La puntuacin de un individuo o una unidad particular no puede ser y que tienen una
manipulada por los encuestadores, los beneciarios potenciales, los puntuacin lmite en el
administradores del programa o los polticos. ndice que determina si
los participantes
El DRD estima el impacto en torno a la puntuacin lmite de elegibilidad potenciales tienen
como la diferencia entre el resultado promedio de unidades del lado tratado derecho o no a
de la puntuacin lmite de elegibilidad y el resultado promedio de unidades beneciarse del
en el lado no tratado (comparacin) de la puntuacin lmite. programa.
20
19
18
17
16
15
20 30 40 50 60 70 80
Hectreas de terreno
20
19
A
18
17
B
A
16 = Impacto
B
15
20 30 40 50 60 70 80
Hectreas de terreno
= produccin de las fincas > 50 hectreas
= produccin de las fincas < 50 hectreas
17 aos en una media de 0,5 das al mes, lo de que la magnitud de los impactos que
cual es signicativo, dado que la tasa de hallaron era en general consistente con los
asistencia ya era bastante alta (85%). programas de transferencias condicionadas
Adems, las visitas a los centros de salud de implementados en otros pases. Un aspecto
nios de 0 a 6 aos aumentaron en alrededor nal interesante de esta evaluacin es
de un 38%. Aunque los investigadores no que recopil tanto datos cuantitativos
pudieron encontrar ningn impacto de ms como cualitativos, utilizando sistemas de
largo plazo en los logros escolares ni en la informacin, entrevistas, grupos focales y
condicin de salud, llegaron a la conclusin encuestas de hogares.
Porcentaje de hogares
Porcentaje de hogares
que participan
que participan 100 100
50 50
10 10
30 40 50 60 70 80 30 40 50 60 70 80
ndice de pobreza de la ndice de pobreza de la
lnea de base lnea de base
Porcentaje de hogares
No elegible No elegible
Elegible Elegible
20 30 40 50 60 70 80 90 20 30 40 50 60 70 80 90
ndice de pobreza de la lnea de base ndice de pobreza de la lnea de base
0,04
0,03
Densidad estimada
0,02
0,01
Elegible No elegible
58
0
20 40 60 80 100
ndice de pobreza de la lnea de base (20100)
1,0
Tasa de participacin en el HISP
0,8
0,6
Elegible No elegible
0,4
0,2
0
20 40 60 80 100
ndice de pobreza de la lnea de base (20100)
Grco 6.7 ndice de pobreza y gastos en salud: el HISP dos aos despus
60
Gastos en salud (dlares de EE.UU.)
Elegible No elegible
40
20 A
0 58
20 40 60 80 100
ndice de pobreza de la lnea de base (20100)
Nota: Los errores estndar estn entre parntesis. ** Signicativo al nivel del 1%.
Pregunta HISP 5
Otros recursos
Notas
Diferencias en diferencias
143
El mtodo de diferencias en diferencias
Resultado- Grupo de
tasa de comparacin
empleo
D = 0,81
C = 0,78
B = 0,74
Impacto estimado = 0,11
E = 0,63
A = 0,60
Tiempo
Ao 2 Ao 1 Ao 0 Ao 1
Nota: Todas las diferencias entre los puntos deberan leerse como diferencias verticales de los
resultados en el eje vertical.
Grupo de
Resultado- comparacin
tasa de
D = 0,81
empleo
C = 0,78
Contrafactual
verdadero
B = 0,74
Impacto verdadero < 0,11
A = 0,60 E = 0,63
Tiempo
Ao 2 Ao 1 Ao 0 Ao 1
Nota: El cuadro presenta el gasto medio (en dlares) en salud de los hogares inscritos y no inscri-
tos, antes y despus de la introduccin del HISP.
Aun cuando las tendencias sean iguales antes del comienzo de la inter-
vencin, el sesgo en la estimacin de diferencias en diferencias puede
producirse y pasar inadvertido. Esto se debe a que el mtodo DD atri-
buye a la intervencin cualquier diferencia de las tendencias entre los
grupos de tratamiento y de comparacin que se producen desde el
momento en que la intervencin comienza. Si hay otros factores presen-
tes que inuyen en la diferencia en las tendencias entre los dos grupos, y
la regresin multivariante no rinde cuenta de ellos, la estimacin ser
invlida o sesgada.
Supngase que se intenta estimar el impacto en la produccin de arroz
con la subvencin de los fertilizantes y que esto se lleva a cabo midiendo la
produccin de arroz de los agricultores subvencionados (tratamiento) y de
los agricultores no subvencionados (comparacin) antes y despus de la dis-
tribucin de las subvenciones. Si en el ao 1 tiene lugar una sequa que afecta
solamente a los agricultores subvencionados, la estimacin de diferencias
en diferencias producir una estimacin invlida del impacto de subvencio-
nar los fertilizantes. En general, cualquier factor que afecte a uno de los dos
grupos de forma desproporcionada, y lo hace al mismo tiempo en que el
grupo de tratamiento recibe el tratamiento, sin que esto se tome en cuenta
en la regresin, puede potencialmente invalidar o sesgar la estimacin del
impacto del programa. El mtodo DD supone que no hay factores de este
tipo presentes.
Otros recursos
Referencias bibliogrcas
De Janvry, A., F. Finan y E. Sadoulet. 2011. Local Electoral Incentives and Dec-
entralized Program Performance. The Review of Economics and Statistics 94
(3):67285.
Diferencias en diferencias 157
DiTella, R. y E. Schargrodsky. 2005. Do Police Reduce Crime? Estimates Using the
Allocation of Police Forces after a Terrorist Attack. American Economic Review
94 (1): 11533.
Duo, E. 2001. Schooling and Labor Market Consequences of School Construction
in Indonesia: Evidence from an Unusual Policy Experiment. American
Economic Review 91 (4): 795813.
Galiani, S., P. Gertler y E. Schargrodsky. 2005. Water for Life: The Impact of the
Privatization of Water Services on Child Mortality. Journal of Political Economy
113 (1): 83120.
Pareamiento
El mtodo que se describe en este captulo consiste en tcnicas estadsti- Concepto clave
cas a las que se denominarn pareamiento (matching). Los mtodos de El pareamiento utiliza
pareamiento se pueden aplicar en el contexto de casi todas las reglas de grandes bases de datos
asignacin de un programa, siempre que se cuente con un grupo que no y tcnicas estadsticas
haya participado en el mismo. El pareamiento utiliza tcnicas estadsticas para construir el mejor
grupo de comparacin
para construir un grupo de comparacin. Para cada unidad posible, el tra- posible sobre la base
tamiento intenta encontrar una unidad de no tratamiento (oconjunto de de caractersticas
unidades de no tratamiento) que tengan caractersticas lo ms parecidas observables.
posible. Pinsese en un caso en el que se propone evaluar el impacto de
un programa de capacitacin laboral sobre el ingreso y se cuenta con una
base de datos, como los registros de ingreso y las declaraciones tributarias,
que contiene tanto a los individuos que se inscribieron en el programa
como a los individuos que no lo hicieron. El programa que se intenta eva-
luar no tiene reglas de asignacin claras (como asignacin aleatoria o un
ndice de elegibilidad) que explique por qu ciertos individuos se inscri-
bieron en el programa y otros no lo hicieron. En este contexto, los mto-
dos de pareamiento permitirn identicar el conjunto de individuos no
inscritos que ms se parece a los individuos tratados, a partir de las carac-
tersticas que ya se tienen en la base de datos. Estos individuos no
159
inscritos pareados luego se convierten en el grupo de comparacin que se
emplea para estimar el contrafactual.
La bsqueda de una buena pareja para cada participante del programa
requiere aproximarse todo lo posible a las caractersticas que explican la
decisin del individuo de inscribirse en el programa. Desafortunadamente,
en la prctica esto es ms difcil. Si la lista de caractersticas observables rele-
vantes es muy grande, o si cada caracterstica adopta muchos valores, puede
que sea complicado identicar una pareja para cada una de las unidades del
grupo de tratamiento. A medida que aumenta el nmero de caractersticas o
dimensiones con las que se quiere parear las unidades que se inscribieron en
el programa, puede que uno se encuentre con lo que se denomina la maldicin
de la dimensionalidad. Por ejemplo, si solo se consideran tres caractersticas
importantes para identicar el grupo de comparacin del pareamiento, como
la edad, el sexo y si la persona tiene un diploma de estudios secundarios, es
probable que se encuentren parejas para todos los participantes que se inscri-
bieron en el programa entre el conjunto de aquellos que no se inscribieron
(los no inscritos), pero se corre el riesgo de dejar al margen otras caractersti-
cas potencialmente importantes. Sin embargo, sise aumenta la lista de carac-
tersticas por ejemplo, para incluir el nmero de hijos, el nmero de aos de
estudios, el nmero de meses que el individuo lleva desempleado, el nmero
de aos de experiencia, etc. puede que la base de datos no contenga una
buena pareja para la mayora de los participantes del programa que estn
inscritos, a menos que abarque un nmero muy grande de observaciones. El
grco 8.1 ilustra el pareamiento sobre la base de cuatro caractersticas: edad,
sexo, meses de desempleo, y diploma de estudios secundarios.
Pareamiento 161
tratamiento, o inscrito, y el resultado promedio del subgrupo de unidades
estadsticamente pareadas, donde el pareamiento se basa en caractersticas
observables en los datos disponibles.
Para que el pareamiento por puntajes de propensin produzca estimacio-
nes del impacto de un programa para todas las observaciones tratadas, cada
unidad de tratamiento o inscrita debe parearse con una unidad no inscrita.2
Sin embargo, en la prctica puede ocurrir que, para algunas unidades inscri-
tas, no haya unidades en el conjunto de no inscritos que tengan puntajes de
propensin similares. En trminos tcnicos, puede que se produzca una
falta de rango comn, o falta de superposicin, entre los puntajes de propen-
sin del grupo de tratamiento o inscrito y los del conjunto de no inscritos.
El grco 8.2 representa un ejemplo de la falta de rango comn. En
primer lugar, se estima la probabilidad de que cada unidad de la muestra se
inscriba en el programa a partir de las caractersticas observables de esa
unidad, es decir, el puntaje de propensin. El grco muestra la distribucin
de los puntajes de propensin por separado para los inscritos y no inscritos.
El problema es que estas distribuciones no se superponen perfectamente.
En el medio de la distribucin, es relativamente fcil encontrar las parejas
porque hay tanto inscritos como no inscritos con estos niveles de puntajes
de propensin. Sin embargo, los inscritos con puntajes de propensin cerca-
nos a 1 no se pueden parear con ningn no inscrito porque no hay no inscri-
tos con puntajes de propensin tan altos. Hay tan poca similitud entre las
unidades que tienen muchas probabilidades de inscribirse en el programa y
No inscritos Inscritos
Densidad
Rango comn
0 Puntaje de propensin 1
Pareamiento 165
Recuadro 8.1: Diferencias en diferencias pareadas: caminos rurales y desarrollo del mercado local en
Vietnam (contina)
las estimaciones del efecto de la intencin madres, que declararon un aumento del
de tratar. Con la oferta de un piso de 59% en la satisfaccin con la vivienda, un
cemento como variable instrumental para incremento del 69% en la satisfaccin con
determinar si los hogares tenan realmente la calidad de vida, una reduccin del 52%
suelos de cemento encontraron que el en la escala de evaluacin de la depresin
programa produca una reduccin del y una disminucin del 35% en una escala
18,2% de la presencia de parsitos, una de evaluacin del estrs percibido.
disminucin del 12,4% de la prevalencia Cattaneo et al. (2009) concluyeron que
de casos de diarrea y una baja del 19,4% Piso Firme tiene un impacto absoluto mayor
de la prevalencia de anemia. Adems, en el desarrollo cognitivo infantil con un
pudieron utilizar la variabilidad en el total costo menor que el programa de transferen-
del espacio del suelo realmente recubierto cias condicionadas de efectivo a gran escala
de cemento para predecir que una com- de Mxico, Progresa-Oportunidades, y que
pleta sustitucin de los pisos de tierra por otros programas comparables de suplemen-
pisos de cemento en un hogar producira tos nutricionales y estimulacin cognitiva
una reduccin del 78% de las infecciones temprana. Los pisos de cemento tambin
parasitarias, una disminucin del 59% de evitan mejor la proliferacin de infecciones
los casos de diarrea, una reduccin del parasitarias que el tratamiento habitual de
81% de la anemia y una mejora del 36% al eliminacin de parsitos. Los autores ar-
96% en el desarrollo cognitivo de los man que los programas para reemplazar los
nios. Los autores tambin recopilaron suelos de tierra con suelos de cemento tie-
datos sobre el bienestar de los adultos y nen probabilidades de mejorar la salud de
llegaron a la conclusin de que los pisos los nios de manera costo-efectiva en con-
de cemento hacen ms felices a las textos similares.
Todo el Conjunto
conjunto de limitado de
variables variables
Variable dependiente: inscritos = 1 explicativas explicativas
Nota: Regresin probit. La variable dependiente equivale a 1 si el hogar est inscrito en el HISP y
0 en caso contrario. Los coecientes representan la contribucin de cada variable explicativa a la
probabilidad de que un hogar se inscriba en el HISP.
Nivel de signicancia: * = 5%; ** = 1%.
Pareamiento 169
aumentan la probabilidad de que un hogar se inscriba en el programa.
Por lo tanto, en general, parecera que los hogares ms pobres y con
menor nivel educativo tienen ms probabilidades de inscribirse, lo cual
es una buena noticia para un programa que se focaliza en las personas
pobres.
Ahora que el software ha estimado la probabilidad de que todos los
hogares se inscriban en el programa (el puntaje de propensin), se veri-
ca la distribucin del puntaje de propensin para los hogares de compa-
racin inscritos y pareados. El grco 8.3 muestra que el rango comn
(cuando se utiliza todo el conjunto de variables explicativas) se extiende
por toda la distribucin del puntaje de propensin. De hecho, ninguno de
los hogares inscritos queda marginado de la zona de rango comn. En
otras palabras, se puede encontrar un hogar de comparacin como pareja
para cada uno de los hogares inscritos.
3
Densidad
0
0 ,2 ,4 ,6
Puntaje de propensin
No inscritos Inscritos
Nota: Este cuadro compara los gastos en salud promedio de los hogares en los hogares inscritos
y las parejas de hogares de comparacin.
Pareamiento 171
hogares de comparacin pareados; se computa la diferencia en los gastos
en salud de los hogares en la lnea de base entre los hogares inscritos y las
parejas de comparacin; y luego se calcula la diferencia entre estas dos
diferencias. El cuadro 8.4 muestra el resultado de este enfoque de dife-
rencias en diferencias pareadas.
Comparaciones
pareadas
utilizando el
conjunto de
variables
Inscritos explicativas Diferencia
Gastos en Seguimiento 7,84 17,79 9,95
salud de los Lnea de base 14,49 15,03 0,54
hogares
(US$) Diferencias
en
diferencias
pareadas
=9,41**
(0,19)
Nota: Los errores estndar estn entre parntesis y el clculo se realiz utilizando una
regresin lineal.
Nivel de signicancia: ** = 1%.
Pregunta HISP 7
A. Cules son los supuestos bsicos necesarios para aceptar estos resul-
tados sobre la base del mtodo de pareamiento?
B. Por qu los resultados del mtodo de pareamiento son diferentes si se
utiliza todo el conjunto vs. el conjunto limitado de variables
explicativas?
C. Qu sucede cuando se compara el resultado del mtodo de parea-
miento con el resultado de la asignacin aleatoria? Por qu los resul-
tados son tan diferentes en el pareamiento con un conjunto limitado
de variables explicativas? Por qu el resultado es ms parecido
cuando se realiza el pareamiento en todo el conjunto de variables
explicativas?
D. A partir del resultado del mtodo de pareamiento, debera ampliarse
el HISP a escala nacional?
Pareamiento 173
unidades de la lnea de base y luego emparejar el grupo tratado con un grupo
de comparacin empleando esas caractersticas deducidas, puede empare-
jar involuntariamente basndose en caractersticas que tambin fueron
afectadas por el programa; en ese caso, el resultado de estimacin sera inv-
lido o estara sesgado.
Por el contrario, cuando se dispone de datos de lnea de base, el parea-
miento basado en las caractersticas bsicas puede ser muy til si se
combina con otras tcnicas, como el mtodo de diferencias en diferen-
cias, lo que permite corregir por las diferencias entre los grupos que son
jas a lo largo del tiempo. El pareamiento tambin es ms able cuando
se conocen las reglas de asignacin del programa y las variables funda-
mentales, en cuyo caso el pareamiento se puede llevar a cabo con esas
variables.
A estas alturas, es probable que quede claro que las evaluaciones de
impacto se disean mejor antes de que un programa comience a ser imple-
mentado. Una vez que el programa ha comenzado, si hay que inuir en cmo
se asigna y no se han recopilado datos de lnea de base, habr pocas o ninguna
opcin rigurosa para la evaluacin de impacto.
Vericacin: el pareamiento
Notas
Referencias bibliogrcas
Pareamiento 175
Heinrich, C., A. Maffioli y G. Vzquez. 2010. A Primer for Applying Propensity-
Score Matching. Impact-Evaluation Guidelines. Nota tcnica del BID-TN-161.
Washington, D.C.: BID.
Jalan, J. y M. Ravallion. 2003. Estimating the Benet Incidence of an Antipoverty
Program by Propensity-Score Matching. Journal of Business & Economic
Statistics 21 (1): 1930.
Mu, R. y D. Van de Walle. 2011. Rural Roads and Local Market Development in
Vietnam. Journal of Development Studies 47 (5): 70934.
Rosenbaum, P. 2002. Observational Studies (2da. edicin), Springer Series in
Statistics. Nueva York: Springer-Verlag.
Rosenbaum, P. y D. Rubin. 1983. The Central Role of the Propensity Score in
Observational Studies of Causal Effects. Biometrika 70 (1): 4155.
1. Desde un punto de vista tcnico, no es deseable que una gran parte del
grupo de comparacin se inscriba en el programa. A medida que
aumenta la proporcin del grupo de comparacin que se inscribe en el
programa, la fraccin de cumplidores en la poblacin disminuir, y el
efecto local promedio del tratamiento estimado con el mtodo de varia-
ble instrumental ser vlido solo para una fraccin cada vez ms
pequea de la poblacin de inters. Si esto se extiende demasiado, puede
que los resultados pierdan toda relevancia para las polticas, dado que ya
no seran aplicables a una parte sucientemente grande de la poblacin
de inters.
2. Tampoco es deseable que una parte grande del grupo de tratamiento
siga sin inscribirse. Una vez ms, a medida que la fraccin del grupo
de tratamiento que se inscribe en el programa disminuye, tambin lo
hace la fraccin de cumplidores de la poblacin. El efecto prome-
dio del tratamiento estimado con el mtodo de variable instrumental
ser vlido solo para una fraccin cada vez menor de la poblacin de
inters.
3. Como ya se trat en el captulo 5, el mtodo de variables instrumentales
es vlido solo en ciertas circunstancias; decididamente no es una solu-
cin universal.
El efecto de derrame
Los derrames (o efectos de derrame) son otro problema habitual a los que se
enfrentan las evaluaciones, sea que se aplique el mtodo de asignacin alea-
toria, el de diseo de regresin discontinua o el de diferencias en diferen-
cias. Un derrame se produce cuando una intervencin afecta a un no
Cmo abordar las dicultades metodolgicas 181
participante, y puede ser positivo o negativo. Hay cuatro tipos de efectos de
derrame, segn Angelucci y Di Maro (2015):
nta
de co gio esc
ona ola
Z r
ontagio es
de c co
ona lar
Z Escuela
Escuela B
Zona de externalidades
del tratamiento
antiparasitario
ntagio e
e co sco
nad la
o
r
Z
Escuela
las unidades que reciben el tratamiento? Se trata del impacto directo que
el programa tiene en los grupos tratados.
2. Una segunda pregunta sobre la evaluacin del impacto indirecto. Cul es
el impacto (o efecto causal) de un programa en un resultado de inters en
las unidades que no reciben el tratamiento? Se trata del impacto indirecto
que el programa tiene en los grupos no tratados.
Para estimar el impacto directo en los grupos tratados, habr que elegir el
grupo de comparacin de tal manera que no se vea afectado por los derra-
mes. Por ejemplo, puede ponerse como condicin que los pueblos, clnicas u
hogares de tratamiento y comparacin estn situados lo sucientemente
lejos unos de otros de manera que los derrames sean poco probables.
Para estimar el impacto indirecto en los grupos no tratados, debera iden-
ticarse para cada grupo no tratado un grupo de comparacin adicional que
186 La evaluacin de impacto en la prctica
pueda verse afectado por los derrames. Por ejemplo, los trabajadores comu-
nitarios de la salud pueden realizar visitas domiciliarias para proporcionar
informacin a los padres acerca de los benecios de una dieta variada mejo-
rada para los nios. Supngase que los trabajadores comunitarios de la salud
solo visitan algunos hogares de un pueblo determinado. Uno puede estar
interesado en los efectos de derrame sobre los nios de los hogares no visita-
dos, en cuyo caso necesitara hallar un grupo de comparacin para estos
nios. Al mismo tiempo, puede ser que la intervencin tambin afecte la
variedad de la dieta de los adultos. Si tal efecto indirecto es de inters para la
evaluacin, se necesitara tambin un grupo de comparacin para los adul-
tos. A medida que aumente el nmero de canales potenciales de derrame, el
diseo puede complicarse con relativa rapidez.
Las evaluaciones con efectos de derrame plantean ciertos problemas
especcos. Por ejemplo, cuando los efectos de derrame son probables, es
importante entender el mecanismo de derrame, ya sea biolgico, social,
ambiental o de otro tipo. Si no se sabe cul es el mecanismo de derrame, no
ser posible elegir con precisin los grupos de comparacin que son y no son
afectados por los derrames. En segundo lugar, una evaluacin con efectos de
derrame requiere una recopilacin de datos ms amplia que una evaluacin
en la cual esa preocupacin no existe: hay un grupo de comparacin adicio-
nal (en el ejemplo anterior, los pueblos vecinos). Puede que tambin tengan
que recopilarse datos sobre las otras unidades (en el ejemplo anterior, los
adultos de los hogares objetivo para visitas relacionadas con la nutricin de
los nios). En el recuadro 9.4 se analiza cmo los investigadores manejaron
los efectos de derrame en una evaluacin de un programa de transferencias
condicionadas en Mxico.
El desgaste
El sesgo del desgaste es otro problema habitual que afecta a las evaluaciones,
ya sea con el mtodo de asignacin aleatoria, de regresin discontinua o de
diferencias en diferencias. El desgaste se produce cuando partes de la mues-
tra desaparecen a lo largo del tiempo y los investigadores no pueden
encontrar a todos los miembros iniciales de los grupos de tratamiento y
comparacin en las encuestas o en los datos de seguimiento. Por ejemplo, de
los 2.500 hogares encuestados en la lnea de base, los investigadores pueden
encontrar solo 2.300 en una encuesta de seguimiento dos aos despus. Si
intentan volver a realizar la encuesta al mismo grupo, por ejemplo, 10 aos
despus, puede que encuentren incluso menos hogares originales.
El desgaste se puede producir por diferentes motivos. Por ejemplo, puede
que los miembros de los hogares o incluso familias enteras se muden a otro
pueblo, ciudad, regin, o incluso pas. En un ejemplo reciente, una encuesta de
seguimiento realizada 22 aos despus en Jamaica indic que el 18% de la
188 La evaluacin de impacto en la prctica
muestra haba emigrado (vase el recuadro 9.5). En otros casos, los encues-
tados ya no estaban dispuestos a responder a una segunda encuesta. Tambin
ocurri que los conictos y la falta de seguridad en la zona impidieron que
el equipo de investigacin llevara a cabo una encuesta en algunas localida-
des incluidas en la lnea de base.
Un ao despus, todos los hogares en un sub- ITN se ofreci gratis, la tasa de adopcin
conjunto de pueblos tuvieron la oportunidad de aument al 98%. A largo plazo, las tasas de
comprar la misma red. Esto permiti a los adopcin ms altas se tradujeron en una
investigadores medir la disponibilidad de los mayor disponibilidad a pagar, dado que los
hogares a pagar por las ITN y cmo esta dispo- hogares vieron los benecios de tener una
nibilidad cambiaba en funcin del subsidio reci- ITN. Aquellos que recibieron uno de los
bido en la primera fase del programa. subsidios ms grandes en la primera fase
En general, los resultados indicaron tenan tres veces ms probabilidades de
que un subsidio nico tena impactos comprar otra ITN en la segunda fase a ms
signicativamente positivos en la adopcin del doble del precio.
de ITN y la disponibilidad para pagar a largo Los resultados de este estudio implican
plazo. En la primera fase del experimento, que se produce un efecto de aprendizaje en
Dupas observ que los hogares que reciban las intervenciones en ITN. Esto seala que
un subsidio que reduca el precio de la ITN es importante considerar los impactos de
de US$3,80 a US$0,75 tenan un 60% ms las intervenciones a largo plazo, as como
de probabilidades de comprarla. Cuando la dar a conocer la persistencia de los efectos.
Otros recursos
Nota
Referencias bibliogrcas
Evaluacin de programas
multifacticos
Hasta ahora, se han analizado programas con un solo tipo de tratamiento. Sin
embargo, muchas cuestiones relevantes relacionadas con las polticas se plan-
tean en programas multifacticos, es decir, que combinan varias opciones de
tratamiento.1 Los responsables de formular polticas pueden estar interesa-
dos en saber no solo si el programa funciona o no, sino tambin si funciona
mejor o tiene un costo menor que otro programa. Por ejemplo, si se quiere
aumentar la asistencia a la escuela, es ms ecaz orientar las intervenciones
a la demanda (como las transferencias condicionadas a las familias) o a la
oferta (como mayores incentivos para los profesores)? Y si se introducen las
dos intervenciones conjuntamente, funcionan mejor que cada una por su
cuenta?, son complementarias? Si la costo-efectividad es una prioridad,
puede preguntarse perfectamente cul es el nivel ptimo de los servicios que
debe prestar el programa. Por ejemplo, cul es la duracin ptima de un pro-
grama de capacitacin para el empleo? Un programa de seis meses contri-
buye ms que un programa de tres meses a que los participantes encuentren
empleo? De ser as, la diferencia es lo sucientemente grande para justicar
los recursos adicionales necesarios para un programa de seis meses? Por
ltimo, a los responsables de polticas les puede interesar cmo alterar un
195
programa existente para hacerlo ms efectivo, y quiz quieran probar diversos
mecanismos con el n de encontrar cul(es) funciona(n) mejor.
Adems de estimar el impacto de una intervencin sobre un resultado de
inters, las evaluaciones de impacto pueden ayudar a responder preguntas
ms generales, como las siguientes:
Cul es el impacto de un tratamiento en comparacin con otro? Por
ejemplo, cul es el impacto en el desarrollo cognitivo de los nios de un
programa que ofrece capacitacin a los padres, en comparacin con una
intervencin sobre nutricin?
El impacto conjunto de un primer y un segundo tratamiento es mayor que
la suma de los dos impactos? Por ejemplo, el impacto de la intervencin de
capacitacin de padres y la intervencin sobre nutricin es mayor, menor o
igual que la suma de los efectos de cada una de las intervenciones?
Cul es el impacto de un tratamiento de alta intensidad en comparacin
con un tratamiento de menor intensidad? Por ejemplo, cul es el efecto
en el desarrollo cognitivo de nios con retraso en el crecimiento si un
trabajador social los visita en su casa cada dos semanas, en lugar de visi-
tarlos una vez al mes?
Este captulo ofrece ejemplos de diseos de evaluaciones de impacto para dos
tipos de programas multifacticos: los que tienen mltiples niveles del mismo
tratamiento y los que tienen mltiples tratamientos. Primero se analiza cmo
disear una evaluacin de impacto de un programa con varios niveles de tra-
tamiento. Despus, se examinan los diferentes tipos de impactos de un pro-
grama con mltiples tratamientos. Para este anlisis se supone que se usar un
mtodo de asignacin aleatoria, aunque puede generalizarse a otros mtodos.
No elegible Elegible
Frecuencia del
Grupo Tipo de mensaje mensaje N de pacientes
1 Solo recordatorio Semanal 73
2 Recordatorio + aliento Semanal 74
3 Solo recordatorio Diario 70
4 Recordatorio + aliento Diario 72
5 Ninguno (grupo de comparacin) Ninguna 139
No elegible Elegible
Intervencin 1
Tratamiento Comparacin
Grupo A Grupo C
Tratamiento
Intervencin 2
Grupo B Grupo D
Comparacin
Notas
Referencias bibliogrcas
Banerjee, A. y E. Duo. 2009. The Experimental Approach to Development
Economics. Annual Review of Economics 1: 15178.
Olken, B. 2007. Monitoring Corruption: Evidence from a Field Experiment in
Indonesia. Journal of Political Economy 115 (2): 200249.
Pop-Eleches, C., H. Thirumurthy, J. Habyarimana, J. Zivin, M. Goldstein, D. de
Walque, L. MacKeen, J. Haberer, S. Kimaiyo, J. Sidle, D. Ngare y D. Bangsberg.
2011. Mobile Phone Technologies Improve Adherence to Antiretroviral
Treatment in a Resource-Limited Setting: A Randomized Controlled Trial of
Text Message Reminders. AIDS 25 (6): 82534.
CMO IMPLEMENTAR
UNA EVALUACIN DE
IMPACTO
En el captulo 11 se describe cmo usar las reglas operativas del programa como
base para elegir un mtodo de evaluacin de impacto, a saber: los recursos
de que dispone un programa, el criterio para seleccionar a los beneciarios y
el calendario de la implementacin. Se establece un marco de trabajo sencillo
para determinar cul de las metodologas de evaluacin de impacto presenta-
das en la segunda parte es la ms adecuada para un determinado programa, de
acuerdo con sus reglas operativas. El captulo tambin trata de cmo el mejor
mtodo es el que requiere los supuestos ms dbiles y tiene la menor cantidad
de requisitos de datos en el contexto de las reglas operativas.
Eleccin de un mtodo de
evaluacin de impacto
207
causados por la intervencin. En general, se preere el mtodo que
requiere los supuestos ms dbiles y tiene la menor cantidad de requisi-
tos de datos en el contexto de las reglas operativas.
Por ltimo, se examina cmo elegir la unidad de intervencin. Por
ejemplo, el programa se asignar a nivel individual, o a un nivel superior,
como las comunidades o los distritos? En general, conviene elegir la uni-
dad de intervencin factible ms pequea dentro de las limitaciones
operativas.
Concepto clave Uno de los principales mensajes de este libro es que se pueden usar las
Las reglas operativas reglas operativas de un programa para encontrar grupos de comparacin
de un programa vlidos, en la medida en que las reglas operativas del programa estn bien
determinan qu denidas. De hecho, dichas reglas brindan orientacin en cuanto al mtodo
mtodo de evaluacin
ms adecuado para evaluar ese programa concreto. Las reglas operativas del
de impacto es el ms
adecuado para evaluar programa son las que pueden y deben regir en el mtodo de evaluacin, no a
el programa, no a la la inversa. La evaluacin no debera cambiar drsticamente elementos clave
inversa. de las reglas de asignacin del programa bien denidas en aras de un diseo
de evaluacin ms claro.
Las reglas operativas ms pertinentes para el diseo de la evaluacin son
aquellas que identican quines son elegibles para el programa y cmo se
seleccionan para que participen. Los grupos de comparacin provienen de
aquellos sujetos elegibles pero que no pueden incorporarse al programa en
un determinado momento (por ejemplo, cuando los recursos son limitados
y hay exceso de demanda), o de aquellos que se encuentran cerca de un
umbral de elegibilidad para participar en el programa.
Concepto clave
Cuando se disean
Principios de las reglas de asignacin al programa bien denidas
evaluaciones de
impacto, casi siempre Al disear las evaluaciones de impacto, siempre se pueden encontrar grupos
se pueden encontrar
de comparacin vlidos si las reglas operativas para seleccionar a los
grupos de comparacin
vlidos si las reglas beneciarios son equitativas, transparentes y estn sujetas a rendicin de
operativas para cuentas:
seleccionar a los
beneciarios son Las reglas equitativas de asignacin al programa clasican o priorizan la
equitativas, elegibilidad en funcin de un indicador de las necesidades acordado
transparentes y estn comnmente, o estipulan que a todos se les ofrezcan los benecios del
sujetas a rendicin de programa, o que al menos tengan iguales posibilidades de que les ofrez-
cuentas. can los benecios.
208 La evaluacin de impacto en la prctica
Las reglas de asignacin al programa se divulgan y son transparentes, de
modo que las partes externas las acepten implcitamente y puedan com-
probar que en efecto hay un seguimiento. Las reglas transparentes debe-
ran ser cuanticables y fcilmente observables.
Las reglas sujetas a rendicin de cuentas son responsabilidad de los fun-
cionarios del programa y su implementacin es la base del desempeo en
el trabajo o de las recompensas de esos funcionarios.
Las reglas operativas de elegibilidad son transparentes y estn sujetas
arendicin de cuentas cuando los programas utilizan criterios cuanti-
cables que pueden ser vericados por organizaciones externas y cuando
hacen pblicos dichos criterios. La equidad, la transparencia y la rendi-
cin de cuentas aseguran que los criterios de elegibilidad sean verica-
bles cuantitativamente y estn realmente implementados segn su
diseo. Como tales, estos principios de buena gobernanza mejoran la
probabilidad de que el programa realmente benecie a la poblacin foca-
lizada y tambin constituyen la clave de una evaluacin exitosa. Si las
reglas no son cuanticables y vericables, el equipo de evaluacin tendr
dicultades para asegurar que la asignacin a los grupos de tratamiento
y comparacin se produzca siguiendo el diseo o, como mnimo, docu-
mentando cmo sucedi en la prctica. Si los miembros del equipo de
evaluacin no pueden vericar la asignacin en la prctica, no pueden
analizar correctamente los datos para calcular los impactos. Entender
las reglas de asignacin del programa es fundamental para seleccionar
un mtodo de evaluacin adecuado.
Cuando las reglas operativas incumplen cualquiera de estos tres prin-
cipios de buena gobernanza, surgen dicultades tanto para crear un pro-
grama bien diseado como para llevar a cabo la evaluacin. Es difcil
encontrar grupos de comparacin vlidos si las reglas que determinan la
elegibilidad y la seleccin de los beneciarios no son equitativas ni trans-
parentes, ni estn sujetas a rendicin de cuentas. En este caso, el diseo
de una evaluacin de impacto puede requerir aclaraciones y ajustes en el
funcionamiento del programa. Sin embargo, si las reglas estn bien de-
nidas, el mtodo de evaluacin de impacto se puede elegir sobre la base
de las reglas existentes de asignacin del programa, como se explica a
continuacin con ms detalle.
Las reglas operativas suelen denir cules son los benecios del programa,
cmo se nancian y se distribuyen estos benecios y de qu modo el
programa selecciona a los beneciarios. Las reglas que gobiernan
Eleccin de un mtodo de evaluacin de impacto 209
los programas y la seleccin de los beneciarios son clave para encontrar
grupos de comparacin vlidos. Las reglas que gobiernan la seleccin de los
beneciarios comprenden la elegibilidad, las reglas de asignacin en el caso
de recursos limitados y el orden de incorporacin de los beneciarios a lo
largo del tiempo. Ms especcamente, las reglas clave que generan una hoja
de ruta para encontrar grupos de comparacin corresponden a tres pregun-
tas operativas fundamentales en relacin con los recursos de los que dis-
pone un programa, los criterios de elegibilidad y el calendario de la
implementacin:
Cuadro 11.1 Relacin entre las reglas operativas de un programa y los mtodos de
evaluacin de impacto
Criterios de ndice continuo y Sin ndice continuo ndice continuo Sin ndice continuo y
elegibilidad umbral de y umbral de y umbral de umbral de
elegibilidad elegibilidad elegibilidad elegibilidad
Las tres preguntas operativas clave guardan relacin con el tema fundamen-
tal de cmo se seleccionan los beneciarios, lo cual es crucial para encontrar
grupos de comparacin vlidos. En ocasiones, los grupos de comparacin se
hallan entre las poblaciones no elegibles, y con mayor frecuencia entre las
poblaciones que son elegibles pero que se incorporan al programa ms
tarde. La manera de priorizar entre los beneciarios depende en parte de los
objetivos del programa Se trata de un programa de jubilaciones para las
personas de edad avanzada, un programa de alivio de la pobreza focalizado
en los pobres o un programa de inmunizacin disponible para todos?
Para priorizar entre los beneciarios sobre la base de la necesidad, el pro-
grama debe encontrar un indicador que sea a la vez cuanticable y verica-
ble. En la prctica, la viabilidad de la priorizacin depende en gran parte de
la capacidad del gobierno para medir y clasicar las necesidades. Si el
gobierno puede clasicar adecuadamente a los beneciarios en funcin de
sus necesidades relativas, puede que est ticamente obligado a implemen-
tar el programa de acuerdo con las necesidades. Sin embargo, clasicar en
funcin de la necesidad requiere no solo una medida cuanticable sino tam-
bin la capacidad y los recursos para medir ese indicador para cada unidad
que participa en el programa.
Algunos programas utilizan criterios de seleccin que, en principio,
podran usarse para clasicar necesidades relativas y determinar la elegibili-
dad. Por ejemplo, numerosos programas quieren llegar a las personas pobres.
Sin embargo, los indicadores de pobreza adecuados que clasican a los hoga-
res de manera able a menudo son difciles de medir y costosos de recopilar.
La recopilacin de datos de los ingresos o del consumo de todos los bene-
ciarios potenciales para clasicarlos segn el nivel de pobreza es un proceso
complejo y oneroso que, adems, sera difcil de vericar. Al contrario,
muchos programas utilizan algn tipo de proxy mean test para estimar los
niveles de pobreza. Se trata de ndices de medidas observables sencillas
como los activos y las caractersticas sociodemogrcas (Grosh et al., 2008).
Los proxy mean tests pueden ayudar a determinar razonablemente bien si un
Eleccin de un mtodo de evaluacin de impacto 213
hogar se sita por encima o por debajo de un umbral, pero pueden ser menos
precisos en una clasicacin detallada de la situacin socioeconmica o de
las necesidades.
En lugar de enfrentarse al costo y a la complejidad de clasicar a los
potenciales beneciarios individuales, numerosos programas han decidido
clasicar en un nivel superior de agregacin, como el nivel de la comunidad.
Determinar la asignacin del programa a un nivel agregado tiene benecios
operativos evidentes, pero a menudo es difcil encontrar indicadores para
producir una clasicacin de las necesidades en un nivel ms agregado.
En los casos en que un programa no puede asignar benecios de manera
able sobre la base de la necesidad, ya sea porque no hay indicadores de
clasicacin cuanticables y vericables, o porque es demasiado caro y pro-
penso a errores, se tienen que usar otros criterios para decidir cmo secuen-
ciar la implementacin del programa. Un criterio coherente con la buena
gobernanza es la equidad. Una regla equitativa sera dar a todos aquellos que
son elegibles la misma oportunidad de ser el primero en tener acceso, y asig-
nar de forma aleatoria un lugar en la secuencia a los beneciarios potencia-
les. En la prctica, dadas las dicultades para clasicar las necesidades, una
regla de asignacin al programa que suele usarse es la asignacin aleatoria
de los benecios del programa. Tambin produce un diseo de evaluacin
aleatoria que puede proveer buena validez interna si se implementa bien, y
puede depender de supuestos ms dbiles en comparacin con los otros
mtodos, como se trata en la seccin siguiente.
Quin est en el
grupo de
Metodologa Descripcin comparacin? Supuesto clave Datos requeridos
Asignacin aleatoria Las unidades elegibles se Las unidades elegibles se La aleatorizacin produce Datos de seguimiento de
asignan de forma aleatoria asignan aleatoriamente al dos grupos estadsticamente los resultados en los
a un grupo de tratamiento grupo de comparacin. idnticos con respecto a las grupos de tratamiento y
o de comparacin. Cada caractersticas observables y comparacin; datos de
unidad elegible tiene una no observables a lo largo del lnea de base y otras
probabilidad conocida de tiempo en ausencia de la caractersticas para los
ser seleccionada. Tiende a intervencin (en la lnea de grupos de tratamiento y
generar estimaciones de base y a lo largo del comparacin con el n
impacto internamente seguimiento). de vericar el equilibrio.
vlidas con los supuestos
ms dbiles.
Variables instrumentales Un instrumento aleatoriza- Las unidades que El instrumento afecta la Datos de seguimiento de
(concretamente la do (como una campaa de cumplen con los participacin en el programa, los resultados de todas
promocin aleatoria) promocin) induce requisitos para participar pero no afecta directamente las unidades; datos sobre
cambios en la participacin pero cuya participacin los resultados (es decir, el la participacin efectiva
en el programa que se se ve afectada por el instrumento inuye en los en el programa; datos de
evala. El mtodo utiliza el instrumento (participa- resultados solo cambiando la los resultados de lnea de
cambio en los resultados ran si se exponen al probabilidad de participar en base y otras caractersti-
inducido por el cambio en instrumento pero no lo el programa). cas.
las tasas de participacin haran en caso contrario).
para estimar los impactos
del programa.
Contina en la pgina siguiente.
215
Cuadro 11.2 Comparacin de mtodos de evaluacin de impacto (contina)
216
Quin est en el
grupo de
Metodologa Descripcin comparacin? Supuesto clave Datos requeridos
Diseo de regresin Las unidades se clasican Las unidades situadas Para identicar impactos no Datos de seguimiento de
discontinua a partir de criterios cerca del umbral, pero sesgados en el programa los resultados; ndice de
cuantitativos especcos que no son elegibles para la poblacin cercana al clasicacin y umbral de
y continuos, como un para recibir el programa. umbral, las unidades que se elegibilidad; datos sobre
ndice de pobreza. Un encuentran inmediatamente los resultados de lnea de
umbral determina si una por debajo e inmediatamente base y otras caractersti-
unidad es elegible para por encima del umbral son cas.
participar en un programa. estadsticamente idnticas.
Los resultados de los Para identicar los impactos
participantes en una parte no sesgados en el programa
del umbral se comparan para toda la poblacin, la
con los resultados de los poblacin cercana al umbral
no participantes al otro debe ser representativa de
lado del umbral. toda la poblacin.
Diferencias en diferencias El cambio en el resultado Las unidades que no Si el programa no exista, los Datos de lnea de base y
a lo largo del tiempo en participaron en el resultados de los grupos de de seguimiento de los
un grupo de no participan- programa (por cualquier participantes y no participan- resultados y otras
tes se utiliza para estimar motivo) y para las cuales tes habran evolucionado caractersticas tanto para
cul habra sido el cambio se recopilaron datos paralelamente a lo largo del los participantes como
en los resultados de un antes y despus del tiempo. para los no participantes.
grupo de participantes en programa.
ausencia de un programa.
Paramiento (en particular, Para cada participante del Para cada participante, la No hay ninguna caractersti- Seguimiento de los datos
pareamiento por puntajes programa, el mtodo unidad no participante ca que inuya en la participa- de los resultados de los
de propensin) busca la unidad ms que, segn las prediccio- cin en el programa ms all participantes y no
similar en el grupo de no nes sobre la base de de las caractersticas participantes; datos
participantes (el parea- caractersticas observa- observables utilizadas para sobre la participacin
miento ms estrecho se bles, tiene la misma el pareamiento. efectiva en el programa;
basa en caractersticas probabilidad de haber caractersticas de lnea
observables). participado en el de base para llevar a
programa. cabo el pareamiento.
Fuente: Adaptado del sitio web de Abdul Latif Jameel Poverty Action Lab (J-PAL).
para cada mtodo, un supuesto clave es que la media del grupo de compara-
cin de la que depende el mtodo sea una estimacin vlida del contrafac-
tual. En cada uno de los captulos sobre los mtodos, que se presentan en la
segunda parte de este volumen, se han expuesto algunas consideraciones
sobre cmo probar si un mtodo es vlido en un contexto particular. Algunos
mtodos dependen de supuestos ms fuertes que otros.
Ceteris paribus, el mtodo preferido es el que mejor se adecua al contexto Concepto clave
operativo y el que requiere los supuestos ms dbiles y la menor cantidad de El mtodo de
datos. Estos criterios explican por qu los investigadores consideran la asig- evaluacin de impacto
nacin aleatoria la regla de oro, y por qu a menudo es el mtodo preferido. preferido es aquel que
La asignacin aleatoria se adecua a numerosos contextos operativos y tiende se adecua mejor al
contexto operativo,
a generar estimaciones de impacto internamente vlidas con los supuestos
requiere los supuestos
ms dbiles. Cuando se implementa de manera adecuada, genera compara- ms dbiles y la menor
bilidad entre los grupos de tratamiento y comparacin en caractersticas cantidad de datos.
observables y no observables. Adems, la asignacin aleatoria tiende a
requerir muestras ms pequeas que las necesarias para implementar mto-
dos cuasi-experimentales (vase el debate en el captulo 15). Dado que la
asignacin aleatoria es relativamente intuitiva, el mtodo tambin facilita la
comunicacin de resultados a los responsables de las polticas.
Puede que los mtodos cuasi-experimentales sean ms adecuados en
algunos contextos operativos, pero requieren ms supuestos con el n de
que el grupo de comparacin provea una estimacin vlida del contrafac-
tual. Por ejemplo, el mtodo de diferencias en diferencias depende del
supuesto de que los cambios en los resultados en el grupo de comparacin
proporcionen una estimacin vlida del cambio del contrafactual en los
resultados del grupo de tratamiento. Este supuesto de que los resultados en
los grupos de tratamiento y comparacin evolucionan paralelamente a lo
largo del tiempo no es siempre posible de probar sin mltiples rondas de
datos antes de la intervencin. La regresin discontinua depende de la com-
parabilidad de las unidades justo por encima y justo por debajo del umbral
de elegibilidad. El pareamiento tiene los supuestos ms fuertes de todos los
mtodos, y esencialmente descarta cualquier caracterstica no observable
entre los participantes del programa y los no participantes. En general,
cuanto ms fuertes sean los supuestos, mayor ser el riesgo de que no se
cumplan en la prctica.
Otros recursos
223
Roles y responsabilidades de los equipos de
investigacin y de polticas pblicas
El modelo de externalizacin
Para los encargados del programa, siempre atareados gestionando operacio-
nes complejas, a menudo es atractivo contar con un equipo externo encargado
Gestin de una evaluacin de impacto 231
de disear e implementar la evaluacin de impacto. Los modelos de externali-
zacin pueden adoptar diferentes formas. Los administradores de programa a
veces intentan externalizar el diseo de la evaluacin de impacto, as como la
realizacin de diversas encuestas (normalmente, una encuesta de lnea de
base y de seguimiento) con una sola entidad en el marco de un contrato amplio.
En otros casos, los administradores de programa primero externalizan el
diseo y siguen con contratos de diversas fases de la recopilacin y del anlisis
de datos.
La externalizacin separa en cierta medida el diseo de la implementa-
cin de la evaluacin de impacto, por lo cual una evaluacin se puede consi-
derar ms independiente. Sin embargo, externalizar totalmente la evaluacin
de impacto puede implicar riesgos considerables. Establecer este tipo de
relacin contractual puede limitar la colaboracin entre los equipos de
implementacin y de investigacin (o la entidad contratada para llevar a
cabo la evaluacin de impacto) del programa.
En algunos casos, se entrega al equipo contratado un conjunto de par-
metros del programa previamente denidos, con escaso margen para deba-
tir sobre los planes de diseo y de implementacin, o sobre el alcance, para
dar forma a la investigacin. En otros casos, puede que no estn denidas las
reglas del programa y las modalidades de implementacin necesarias para
disear una buena evaluacin de impacto. En esos casos, el equipo contra-
tado encargado de dicha evaluacin tiene una inuencia limitada para ase-
gurar que se denan estos elementos.
En otros casos, puede que el programa ya haya sido diseado o que la
implementacin haya comenzado, lo cual puede limitar seriamente las
opciones metodolgicas de la evaluacin. A menudo se pide al equipo con-
tratado que se ajuste ex post a cambios en la implementacin del programa,
sin participar estrechamente ni recibir informacin durante la implementa-
cin. Estas situaciones pueden conducir a diseos de evaluacin subptimos
o a dicultades durante la implementacin, dado que el equipo contratado
puede tener motivaciones diferentes de las de los investigadores y los res-
ponsables de las polticas que han dirigido el diseo de la evaluacin.
Por ltimo, la seleccin y supervisin del equipo contratado puede ser
problemtica para la unidad de implementacin del programa. Se deben
tener en cuenta atentamente y desde el comienzo las reglas de adquisiciones
para asegurar que la externalizacin sea eciente y que no presente conic-
tos de inters. Ciertas reglas pueden limitar la posibilidad de que un equipo
que ha sido contratado para contribuir al diseo de una evaluacin de
impacto pueda ms tarde presentar una oferta para ejecutarla.
Para mitigar estos riesgos, normalmente es preferible que el equipo de
polticas pblicas ya tenga hecho un diseo de evaluacin de impacto, que
incluya una estrategia de identicacin, indicadores de resultados clave,
232 La evaluacin de impacto en la prctica
clculos de potencia iniciales y tamaos aproximados de la muestra. Esto
contribuir a orientar las adquisiciones y la contratacin, dado que dichos
elementos inuyen claramente en los presupuestos de la evaluacin. El
equipo de polticas pblicas tambin debera establecer mecanismos para
asegurar una supervisin tcnica slida del diseo y de la ejecucin de la
evaluacin de impacto. Esto podra realizarse a travs de un comit de super-
visin o mediante una revisin tcnica y cientca regular de los productos
de la evaluacin. En su conjunto, estas medidas de mitigacin sealan que es
probable que el modelo ms efectivo no sea totalmente externalizado.
El modelo de alianza
La colaboracin entre los equipos de investigacin y de polticas pblicas no
se basa nica ni necesariamente en relaciones contractuales. Se pueden
establecer alianzas mutuamente beneciosas cuando los investigadores tie-
nen inters en llevar a cabo investigaciones sobre una pregunta de polticas,
y cuando los responsables de polticas y los encargados del programa procu-
ran asegurar que su proyecto cuente con una evaluacin de impacto de
buena calidad. Los investigadores tienen incentivos para abordar nuevas
preguntas que se aadirn a la base de evidencia global, y para ampliar el
alcance de la evaluacin de impacto y contribuir a que sea ms visible. El
equipo de investigacin puede movilizar parte del nanciamiento para la
evaluacin de impacto si los objetivos de los nanciadores estn estrecha-
mente alineados con el objeto de investigacin de la evaluacin.
Otro tipo de modelo integrado que est adquiriendo ms relevancia,
sobre todo en las instituciones ms grandes, como el Banco Mundial y el
Banco Interamericano de Desarrollo (BID), utiliza una capacidad de inves-
tigacin de evaluacin de impacto interna para apoyar a los equipos de pol-
ticas pblicas y del programa.
No obstante, el enfoque de la alianza presenta ciertos riesgos. En deter-
minados momentos, puede que los investigadores procuren incorporar ele-
mentos novedosos en la investigacin de la evaluacin de impacto que quiz
no estn totalmente alineados con los objetivos inmediatos de las polticas a
nivel local, aunque puedan aadir valor en trminos ms globales. Por su
parte, los responsables de las polticas y los encargados del programa quiz
no siempre sepan apreciar el rigor cientco necesario para emprender eva-
luaciones de impacto rigurosas, y quiz tengan una mayor tolerancia que el
equipo de investigacin a los riesgos potenciales de la evaluacin de impacto.
Para mitigar esos riesgos, los objetivos del equipo de investigacin y de
los equipos de polticas pblicas deben estar estrechamente alineados.
Porejemplo, ambos equipos pueden trabajar juntos en un plan de evalua-
cin exhaustivo, deniendo una estrategia detallada, as como los roles y
responsabilidades de los respectivos equipos (vase el recuadro 12.2).
Gestin de una evaluacin de impacto 233
El plan de evaluacin de impacto tambin es una instancia para resaltar
reglas operativas clave, as como los riesgos operativos potenciales para
implementar la evaluacin de impacto.
Un compromiso mutuo con una evaluacin de impacto recogido en un
plan de evaluacin claro es esencial para que la alianza funcione uida-
mente, aun en ausencia de una relacin contractual. Corresponde a las bue-
nas prcticas que este compromiso mutuo adopte la forma de un acuerdo
por escrito por ejemplo, bajo la forma de trminos de referencia o un
memorando de entendimiento para establecer los roles, responsabilidades
y productos de la evaluacin de impacto. Estos aspectos tambin se pueden
incluir en el plan de evaluacin de impacto.
externos. Durante los primeros aos de ope- se concibe, los investigadores aliados a
raciones de la MCC, en ocasiones la separa- IPA, provenientes de una red global de uni-
cin entre el equipo del programa y los versidades, trabajan con los directores de
investigadores externos contratados para la pas en las representaciones relevantes para
evaluacin cre problemas. Por ejemplo, en crear un diseo de evaluacin y un plan de
Honduras, los investigadores disearon un implementacin. Los directores de pas son
ensayo controlado aleatorio de un programa los encargados de gestionar las relaciones
de capacitacin agrcola. Sin embargo, dado entre los socios y emparejar a los principales
que el contrato de implementacin se basaba investigadores del equipo de investigacin
en el desempeo, el implementador tena un con los socios del programa en el equipo de
fuerte incentivo para encontrar agricultores polticas pblicas para desarrollar una pro-
con un alto desempeo para el programa. Los puesta para una evaluacin. Una vez apro-
agricultores elegibles no fueron asignados de bada una propuesta, contratan al personal
forma aleatoria al programa, lo que invalida el de gestin del proyecto para dirigir la recopi-
diseo de evaluacin. Con la divulgacin de lacin de datos en el terreno, todos traba-
las primeras cinco evaluaciones de los progra- jando en la ocina local de IPA. La
mas de capacitacin agrcola, la MCC coordinacin entre los investigadores y los
reexion sobre las experiencias como esta y encargados del programa suele ser estre-
lleg a la conclusin de que la colaboracin cha, y en algunos casos las ocinas de IPA
entre los implementadores y los evaluadores tambin son responsables de implementar
es crucial a lo largo del diseo y de la imple- la intervencin que est siendo evaluada.
mentacin. La organizacin adapt su modelo
para que sea ms selectivo al aplicar las eva- Modelos mixtos en el Banco Mundial
luaciones de impacto con el n de encontrar En la ltima dcada, el Banco Mundial ha
un equilibrio entre la rendicin de cuentas y el ampliado rpidamente el uso de las evalua-
aprendizaje. ciones de impacto prospectivas para esti-
mar los impactos de algunos de los
La integracin en Innovations for Poverty proyectos de desarrollo que nancia. Varios
Action grupos entre ellos Development Impact
En Innovations for Poverty Action (IPA), una Evaluation (DIME), Strategic Impact
organizacin sin nes de lucro de Estados Evaluation Fund (SIEF) y Gender Innovation
Unidos, los equipos de investigacin y de Lab (GIL) proporcionan nanciamiento y
polticas pblicas trabajan juntos desde el apoyo tcnico a las evaluaciones de impacto.
comienzo del diseo de la evaluacin, y a Cuando se implementa un proyecto particu-
menudo desde el momento en que se gesta larmente innovador o donde hay grandes
el programa. El modelo de IPA cuenta con intereses en juego, se denen las activida-
una amplia red de ocinas en el terreno, des de evaluacin de impacto, ya sea incor-
muchas de las cuales estn en contacto con poradas en el proyecto y gestionadas por los
organismos del gobierno y otros socios. gobiernos contrapartes o como actividades
Desde el momento en que una evaluacin independientes manejadas por el Banco
Fuentes: Bertrand et al. (2015); IPA (2014); Sturdy, Aquino y Molyneaux (2014).
Los responsables de las polticas y los encargados del programa tambin tienen
que decidir con quin asociarse. Las preguntas clave son si el equipo de inves-
tigacin o partes del mismo puede ser un equipo local, y qu tipo de ayuda
externa se requerir. La capacidad de investigacin vara en gran medida de un
pas a otro. A menudo se contrata a las empresas internacionales cuando se
requieren habilidades concretas, y tambin pueden asociarse con empresas
locales. Las funciones de recopilacin de datos generalmente son gestionadas
por estas ltimas, debido a su profundo conocimiento del contexto y del
entorno local. Tambin hay una marcada tendencia mundial a asegurar la
plena participacin de los investigadores locales en la evaluacin de impacto.
A medida que aumenta la capacidad de evaluacin, es ms habitual que
los gobiernos, las empresas privadas y las instituciones multilaterales imple-
menten evaluaciones de impacto en asociacin con equipos de investigacin
locales. La participacin de los investigadores locales puede aportar un valor
fundamental a la evaluacin de impacto gracias a su conocimiento
236 La evaluacin de impacto en la prctica
del contexto local. En algunos pases, la autorizacin de la investigacin se
concede solo a los equipos que incluyen a investigadores locales. En general,
el administrador de la evaluacin es el que evala la capacidad local y deter-
mina quin ser responsable de qu aspectos del trabajo de evaluacin. Las
redes acadmicas internacionales de evaluacin de impacto (como JPAL o
IPA), las empresas privadas de investigacin o grupos de evaluacin de
impacto de instituciones internacionales (como DIME y SIEF en el Banco
Mundial; o SPD o RES en el BID) pueden ayudar a los equipos de polticas
pblicas a tomar contacto con investigadores internacionales que tengan los
conocimientos tcnicos expertos para colaborar en la evaluacin de impacto.1
Otra pregunta es si trabajar con una empresa privada o con un organismo
pblico. Las empresas privadas o los institutos de investigacin pueden ser
ms ables para proporcionar resultados de manera oportuna pero, una vez
que se ha rmado un contrato, las empresas privadas a menudo estn menos
dispuestas a incorporar en la evaluacin elementos que podrn encarecerla.
El equipo de investigacin tambin puede trabajar con instituciones de inves-
tigacin y universidades, cuya reputacin y conocimientos tcnicos expertos
garantizan que las partes interesadas aceptarn los resultados de la evalua-
cin. Sin embargo, en ocasiones esas instituciones carecen de la experiencia
operativa o de la capacidad para ejecutar ciertos aspectos de la evaluacin,
como la recopilacin de datos. Por lo tanto, puede que sea necesario subcon-
tratar algunos aspectos con otro socio. El desarrollo de capacidades en el sec-
tor pblico tambin puede ser un objetivo y se puede incluir como parte de
los trminos de referencia de la evaluacin de impacto. Cualquiera sea la
combinacin de contrapartes a la que nalmente se llegue, ser esencial efec-
tuar un anlisis slido de las actividades de evaluacin de los colaboradores
potenciales en el pasado para tomar una decisin bien fundamentada.
Particularmente, cuando se trabaja con un organismo pblico con mlti-
ples responsabilidades, la capacidad y disponibilidad de un equipo de inves-
tigacin interno para emprender las actividades de evaluacin de impacto
tienen que ser estimadas a la luz de otras actividades por las que deben ren-
dir cuentas. Es importante tener conciencia de la carga de trabajo para valo-
rar no solo cmo inuir en la calidad de la evaluacin que se lleve a cabo,
sino tambin en el costo de oportunidad de la evaluacin con respecto a
otras iniciativas de las cuales es responsable el organismo pblico.
Los cuadros 12.1 y 12.2 proporcionan referencias tiles sobre los costos aso-
ciados con la realizacin de evaluaciones de impacto rigurosas. Contienen
datos sobre los costos de las evaluaciones de impacto de diversos proyectos
realizados con el apoyo del Fondo Estratgico para la Evaluacin de Impacto
(SIEF, por sus siglas en ingls), administrado por el Banco Mundial. La
muestra del cuadro 12.1 proviene de un estudio exhaustivo de programas
que reciben el respaldo de los grupos de investigacin sobre DIT y educa-
cin en SIEF. La muestra del cuadro 12.2 se seleccion en funcin de la dis-
ponibilidad de estadsticas actuales sobre presupuestos del conjunto de
evaluaciones de impacto nanciadas por SIEF.4
Los costos directos de las actividades de la evaluacin analizados en las
muestras que se presentan en los cuadros 12.1 y 12.2 oscilan entre US$130.000
y US$2,78 millones, con un costo promedio cercano a US$1 milln. Aunque
estos costos varan en gran medida y pueden parecer elevados en trminos
240 La evaluacin de impacto en la prctica
Cuadro 12.1 Costo de las evaluaciones de impacto de una seleccin de proyectos con apoyo del
Banco Mundial
Costos de la
Costo total EI como
de la porcentaje
evaluacin de Costo total del del total de
impacto programaa los costos del
Evaluacin de impacto (EI) Pas (US$) (US$) programa
Proyecto de redes de proteccin Burkina Faso 750.000 38.800.000 1,9
Desarrollo de destrezas y empleo China 220.000 50.000.000 0,4
para migrantes
Proyecto de proteccin social Colombia 130.000 86.400.000 0,2
Plan piloto de nutricin integrada/ Yibuti 480.000 5.000.000 8,8
sistema de seguridad social
asistencial
Programa de inversin en sectores Repblica 600.000 19.400.000 3,1
sociales Dominicana
Incentivos para los maestros Guinea 2.055.000 39.670.000 4,9
basados en el desempeo
Fuente: Una muestra de evaluaciones de impacto nanciadas por los grupos de investigacin sobre desarrollo infantil temprano (DIT)
y educacin del Fondo Estratgico para la Evaluacin de Impacto del Banco Mundial (SIEF).
EI = evaluacin de impacto.
a. Los costos totales del programa no incluyen los costos asociados con la evaluacin de impacto.
Cuadro 12.2 Costos desagregados de una seleccin de proyectos con apoyo del Banco Mundial
Cuadro 12.2 Costos desagregados de una seleccin de proyectos con apoyo del Banco Mundial (contina)
Cuadro 12.2 Costos desagregados de una seleccin de proyectos con apoyo del Banco Mundial (contina)
Fuente: Una muestra de evaluaciones de impacto nanciada por el Fondo Estratgico para la Evaluacin de Impacto (SIEF) del Banco Mundial.
a. Los costos estimados no siempre capturan todos los costos de la evaluacin, lo que incluye el tiempo del equipo de polticas pblicas.
b. Es el porcentaje de los costos totales de la evaluacin por categora. Este costo no incluye los costos del personal local del proyecto, que a menudo participaba intensamente
en el diseo y la supervisin de la evaluacin, dado que los datos precisos de estos costos no se registran de manera regular.
247
Concepto clave absolutos, las evaluaciones de impacto suelen constituir solo un pequeo
Las evaluaciones de porcentaje de los presupuestos generales del programa. Adems, el costo de
impacto suelen llevar a cabo una evaluacin de impacto debe compararse con los costos de
constituir solo un
oportunidad de no efectuar una evaluacin rigurosa y, por lo tanto, de imple-
pequeo porcentaje de
los presupuestos
mentar potencialmente un programa inefectivo. Las evaluaciones permiten
generales del a los investigadores y a los responsables de las polticas identicar qu pro-
programa. Adems, el gramas o caractersticas del programa funcionan, cules no funcionan y qu
costo de llevar a cabo estrategias pueden ser las ms efectivas y ecientes para alcanzar los objeti-
una evaluacin de vos del programa. En este sentido, los recursos necesarios para implementar
impacto debe
una evaluacin de impacto constituyen una inversin relativamente
compararse con los
costos de oportunidad pequea pero importante.
de no efectuar una El cuadro 12.2 desagrega los costos de la muestra de evaluaciones de
evaluacin rigurosa y, impacto nanciadas por el SIEF. Los costos totales de una evaluacin inclu-
por lo tanto, de yen el tiempo del personal del Banco Mundial, los consultores nacionales e
implementar
internacionales, los viajes, la recopilacin de datos y las actividades de
potencialmente un
programa inefectivo.
divulgacin.5 En estas evaluaciones, como en casi todas en las que no se pue-
den usar los datos existentes, el costo ms importante corresponde a la reco-
pilacin de nuevos datos, que equivale, en promedio, al 63% del costo de la
evaluacin, como se muestra en el cuadro.
Estas cifras reejan diferentes tamaos y tipos de evaluaciones. El costo
relativo de la evaluacin de un programa piloto suele ser superior al costo
relativo de la evaluacin de un programa a nivel nacional o universal.
Adems, algunas evaluaciones solo requieren una encuesta de seguimiento
o pueden usar las fuentes de datos existentes, mientras que otras necesitan
llevar a cabo mltiples rondas de recopilacin de datos. Los costos de
recopilacin de datos dependen sobre todo de las capacidades del equipo
local, de los recursos disponibles y de la duracin del trabajo de campo.
Para saber ms sobre cmo determinar los costos de una encuesta en un
contexto particular, se recomienda al equipo de evaluacin que primero
entre en contacto con el organismo nacional de estadstica y que busque
informacin entre los equipos que hayan llevado a cabo un trabajo de
encuestas en el pas.
Etapa de datos de
Etapa del diseo lnea de base
Unidad Costo por Nmero de Costo Unidad Costo por Nmero de Costo
unidad unidades total unidad unidades total
(US$) (US$) (US$) (US$)
A. Salarios del personal Semanas 7.500 2 15.000 Semanas 7.500 2 15.000
B. Honorarios de los consultores 14.250 41.900
Consultor internacional (1) Das 450 15 6.750 Das 450 0 0
Consultor internacional (2) Das 350 10 3.500 Das 350 10 3.500
Investigador asistente/Coordinador Das 280 0 0 Das 280 130 36.400
de trabajo de campo
Experto estadstico Das 400 10 4.000 Das 400 5 2.000
C. Viajes y dietas
Personal: Vuelos internacionales Viajes 3.350 1 3.350 Viajes 3.350 1 3.350
Personal: Hotel y viticos Das 150 5 750 Das 150 5 750
Personal: Transporte terrestre local Das 10 5 50 Das 10 5 50
Consultores internacionales: Vuelos Viajes 3.500 2 7.000 Viajes 3.500 2 7.000
internacionales
Consultores internacionales: Hotel Das 150 20 3.000 Das 150 20 3.000
y viticos
Consultores internacionales: Das 10 5 50 Das 10 5 50
Transporte terrestre local
Coordinador de trabajo de campo: Viajes 0 0 Viajes 1.350 1 1.350
Vuelos internacionales
Coordinador de trabajo de campo: Das 0 0 Das 150 3 150
Hotel y viticos
Etapa de datos de
Etapa del diseo lnea de base
Unidad Costo por Nmero de Costo Unidad Costo por Nmero de Costo
unidad unidades total unidad unidades total
(US$) (US$) (US$) (US$)
Coordinador de trabajo de campo: Das 0 0 Das 10 3 30
Transporte terrestre local
D. Recopilacin de datos 126.000
Tipo de datos 1: Consentimiento Escuela 120 100 12.000
Tipo de datos 2: Resultados Nio/a 14 3.000 42.000
educativos
Tipo de datos 3: Resultados de Nio/a 24 3.000 72.000
salud
E. Anlisis y divulgacin de datos
Taller(es)
Divulgacin/informes
Costos totales por etapa Etapa de diseo 43.450 Etapa de lnea de base 198.630
Notas
1. El acrnimo JPAL corresponde al Abdul Latif Jameel Poverty Action Lab; SPD
es la Ocina de Planicacin Estratgica y Efectividad en el Desarrollo, y RES es
el Departamento de Investigacin del BID.
2. Vase King y Behrman (2009) para un anlisis detallado de las cuestiones de
programacin con respecto a la evaluacin de programas sociales.
3. Hay diversos motivos por los que la implementacin no es ni inmediata
niperfecta, por qu la duracin de la exposicin al tratamiento diere
nosolo entre diferentes mbitos del programa sino tambin en los diferen-
tesbeneciarios ltimos, y por qu las diferentes exposiciones pueden
generardiferentes estimaciones del impacto de un programa (King y
Behrman,2009).
254 La evaluacin de impacto en la prctica
4. Si bien los cuadros 12.1 y 12.2 proporcionan referencias tiles, no son representa-
tivos de todas las evaluaciones emprendidas por el programa SIEF o el Banco
Mundial.
5. En este caso, el costo se calcula como porcentaje de la parte del proyecto
nanciado por el Banco Mundial.
Referencias bibliogrcas
La tica y la ciencia en la
evaluacin de impacto
Cuadro 13.1 Asegurar informacin able y creble para las polticas mediante la ciencia abierta
Soluciones de prevencin y
Implicaciones para las mitigacin mediante la
Problemas de la investigacin polticas pblicas ciencia abierta
Sesgo de la publicacin. Solo se Las decisiones de poltica se Registros de ensayos.
publican los resultados positivos. basan en un acervo distorsionado
Las evaluaciones que muestran de conocimiento. Los responsa-
impactos limitados o nulos no se bles de la poltica pblica tienen
divulgan ampliamente. escasa informacin sobre lo que
no funciona y siguen probando/
adoptando polticas que no
tienen impacto alguno.
Minera de datos. Los datos se Las decisiones de poltica para Planes de preanlisis.
fragmentan cada vez ms hasta adoptar intervenciones pueden
que aparece un resultado positivo estar basadas en estimaciones
en la regresin, o la hiptesis se positivas no justicadas de los
reajusta a los resultados. impactos.
Pruebas de hiptesis mltiples, Las decisiones de poltica Planes de preanlisis y tcnicas
anlisis de subgrupo. Los investiga- pblica para adoptar intervencio- de ajustes estadsticos especia-
dores fragmentan cada vez ms los nes pueden estar basadas en lizadas, como las pruebas de
datos hasta que encuentran un estimaciones positivas no ndices, la tasa prudente de
resultado positivo para algn grupo. justicadas de los impactos. error relacionada con la familia
Concretamente: (1) las mltiples y el control de la tasa de falsos
pruebas conducen a la conclusin descubrimientos.a
de que algunos impactos existen
cuando en realidad no existen; o (2)
solo se informa sobre los impactos
que son signicativos.
Soluciones de prevencin y
Implicaciones para las mitigacin mediante la
Problemas de la investigacin polticas pblicas ciencia abierta
Falta de replicacin. No se pueden La poltica puede basarse en La documentacin y el registro
replicar los resultados porque el resultados manipulados de los datos, incluidos los
protocolo de investigacin, los datos (positivos o negativos), dado protocolos de proyecto, los
y los mtodos de anlisis no estn que los resultados pueden cdigos de organizacin, la
sucientemente documentados. deberse a errores de clculo. publicacin de los cdigos, y la
Los errores y las manipulaciones Los resultados entre diferentes publicacin de datos.
pueden pasar inadvertidos. estudios no se pueden comparar. Cambios en las polticas de las
revistas arbitradas y de
A los investigadores no les interesa La validez de los resultados
nanciamiento para requerir
replicar los estudios, y a las revistas en otro contexto no se puede
documentacin acerca de los
arbitradas no les interesan los probar.
datos y promover la replicacin.
resultados yo tambin.
No se pueden replicar las interven- Los responsables de la poltica
ciones porque el protocolo de pueden ser incapaces de
intervencin no est sucientemente replicar la intervencin en un
documentado. contexto diferente.
a. Para una introduccin bsica al problema de las comparaciones mltiples y las correcciones estadsticas potenciales, se
recomienda consultar https://en.wikipedia.org/wiki/Multiple_comparisons_problem.
Falta de replicacin
Otros recursos
Notas
Referencias bibliogrcas
Divulgacin de resultados y
generacin de impacto en las
polticas pblicas
Hay al menos tres pblicos primarios para las conclusiones de una evalua-
cin de impacto: el personal del programa y los administradores involucra-
dos en el programa especco que se evala; los responsables de las polticas
de alto nivel que utilizarn la evaluacin para fundamentar las decisiones de
nanciamiento y de diseo de las polticas; y la comunidad de prctica, que
en trminos amplios abarca la comunidad acadmica, los responsables del
desarrollo, la sociedad civil (incluidos los medios de comunicacin) y los
participantes en el programa. Cada uno de estos pblicos tendr diferentes
intereses en los resultados de la evaluacin y requerir estrategias de comu-
nicacin elaboradas a su medida cuando se trata de conseguir el objetivo de
servir de fundamento e inuir en las polticas (cuadro 14.1).
Tcnicos y administradores. El primer pblico clave son los miembros del
personal tcnico y operativo, y los administradores que disearon e imple-
mentaron el programa, as como los representantes de instituciones (como
los ministerios o una institucin de nanciamiento) estrechamente asocia-
dos con el proyecto. Estas personas normalmente sern las primeras en
conocer los resultados de la evaluacin, y elaborar comentarios sobre las
interpretaciones y recomendaciones de la evaluacin.
Dado que esta suele ser la primera vez que los resultados ven la luz del da,
es clave programar la divulgacin de informacin entre estos interesados. Por
un lado, es importante compartir los resultados de forma temprana, de modo
que los responsables de las decisiones del programa puedan incorporar cam-
bios y adoptar decisiones de polticas, como aumentar la escala de la inter-
vencin (o disminuirla) o ajustar los componentes del programa para mejorar
el uso de los recursos y alcanzar un mayor impacto. Por otro lado, hay que
hacer una advertencia contra el riesgo de compartir resultados demasiado
preliminares basados en un anlisis parcial o incompleto, dado que dichos
resultados podran estar sujetos a cambios. Su divulgacin podra crear
expectativas entre el personal del programa y precipitar decisiones de las
polticas an no maduras que podran ser caras de revertir en el futuro. Por lo
tanto, debera buscarse un equilibrio adecuado de puntualidad y completitud
Divulgacin de resultados y generacin de impacto en las polticas pblicas 279
Cuadro 14.1 Participacin de grupos clave en el impacto en las polticas: por qu, cundo y cmo
puede transmitir una clara seal a los responsables de las polticas sobre la
calidad y credibilidad de los resultados de una evaluacin.
Sobre la base de la estrategia de divulgacin acordada, los informes y
documentos se pueden publicar en diversos medios, entre ellos, el sitio web
del programa, el sitio web de la institucin evaluadora, como parte de una
serie de documentos de trabajo, revistas acadmicas arbitradas y libros.
Si bien los informes de evaluacin y los documentos acadmicos sirven
como fundamento para la estrategia de divulgacin, su alcance entre un
pblico ms amplio fuera de la comunidad profesional y acadmica puede ser
limitado debido a su extensin y a su lenguaje tcnico. Puede que el equipo de
evaluacin, quizs en colaboracin con los expertos en comunicacin, consi-
dere til producir artculos breves, escritos al estilo de un relato o con un estilo
periodstico, con un lenguaje claro y sencillo para llegar a pblicos ms amplios.
Se pueden dar a conocer artculos breves bajo la forma de notas informativas
de polticas, boletines e infografas. En estas publicaciones, ser particular-
mente til eliminar la jerga tcnica y traducir los resultados en representacio-
nes visualmente atractivas, con imgenes, esquemas y grcos (recuadro 14.3).
Los equipos de evaluacin pueden generar un conjunto de presentacio-
nes que acompaen a los informes escritos y los artculos breves. Las
presentaciones deberan elaborarse a la medida del pblico especco. Un
buen punto de partida es producir una presentacin tcnica para el equipo
del proyecto y el pblico acadmico, y otra presentacin ms breve y menos
284 La evaluacin de impacto en la prctica
Recuadro 14.3: La divulgacin efectiva de las evaluaciones de
impacto
Diversas publicaciones exponen los resultados de las evaluaciones de impacto en un
formato accesible y sencillo. Entre ellos se incluyen dos actualizaciones con un foco regional.
Los resultados de la evaluacin de impacto de programas en Amrica Latina y el Caribe
se recogen en el Panorama de la efectividad en el desarrollo (DEO, por sus siglas en
ingls), publicado anualmente por la Ocina de Planicacin Estratgica y Efectividad en
el Desarrollo del Banco Interamericano de Desarrollo (BID). Los resultados se resumen
en artculos breves, de fcil lectura, que incluyen resmenes infogrcos de una pgina
que explican la pregunta fundamental de la evaluacin de impacto, los mtodos, resulta-
dos y recomendaciones de polticas, utilizando grcos e conos que permiten que los
lectores entiendan los mensajes clave de forma muy rpida e intuitiva. El DEO de 2014
incluye los resultados de evaluaciones de impacto de programas tan diversos como el
turismo en Argentina, la capacitacin laboral en Repblica Dominicana, la productividad
agrcola en Bolivia y las orquestas juveniles en Per.
Africa Impact Evaluation Update, del Banco Mundial, recoge la ltima evidencia de la regin.
En 2013, esta publicacin se centr en el gnero y en 2014, en la agricultura y la tierra.
tcnica para los responsables de las polticas y la sociedad civil. Si bien las
principales conclusiones y recomendaciones para las polticas sern las mis-
mas, la estructura y el contenido de estas dos presentaciones tendrn dife-
rencias importantes. La presentacin tcnica debera centrarse en aanzar
la credibilidad de los resultados mediante una exposicin de los mtodos de
evaluacin, los datos y el anlisis, antes de llegar a los resultados y recomen-
daciones. Una presentacin dirigida a los responsables de las polticas debe-
ra poner de relieve el problema del desarrollo que la intervencin se
propone abordar y las implicaciones prcticas de las conclusiones, y tratar
de forma ms supercial los detalles tcnicos.
Para aprovechar el cada vez mayor acceso a Internet de los pases en
desarrollo y las alternativas de bajo costo para producir multimedia, los
equipos de evaluacin tambin pueden contemplar una gama de medios
para divulgar las conclusiones de la evaluacin, entre ellos: los sitios web o
las grabaciones en audio y video. Los videoclips de corta duracin pueden
ser un medio poderoso para transmitir ideas complejas a travs de imge-
nes y sonido, dejando que la historia de la evaluacin se despliegue de una
manera que sea ms rpida y ms plenamente comprensible que la que
utilizan los tpicos medios impresos (recuadro 14.4).
Divulgacin de resultados y generacin de impacto en las polticas pblicas 285
Por ltimo, armado con una variedad de productos de divulgacin, el
equipo de evaluacin debe mostrarse proactivo en la divulgacin de estos
productos a los consumidores dentro del programa, del gobierno y de la
comunidad profesional ms amplia, de modo que la informacin llegue a los
usuarios previstos y pueda ser asimilada en el proceso de toma de decisiones
y el debate de polticas pblicas. El proceso de divulgacin se lleva a cabo
mediante reuniones presenciales entre el equipo de evaluacin y el adminis-
trador del programa, a travs del cabildeo con responsables de las polticas
de alto nivel, as como tambin de presentaciones en seminarios y conferen-
cias donde los acadmicos y miembros de la comunidad profesional se
renen para informarse acerca de los ltimos avances en la investigacin y
la evaluacin del desarrollo, mediante entrevistas y programas de noticias
en la radio y la televisin y, actualmente cada vez ms, a travs de Internet.
Los blogs y las redes sociales en particular pueden ser maneras costo-
efectivas de llegar a grandes cantidades de usuarios potenciales y para
orientar a los lectores hacia un conjunto de productos disponibles relacio-
nados con una determinada evaluacin (recuadro 14.5). Si bien las estrate-
gias particulares variarn segn cada caso, se recomienda una vez ms
planicar y presupuestar los medios y las actividades de divulgacin con
antelacin, de modo que los resultados de la evaluacin puedan llegar a sus
pblicos previstos de manera rpida y efectiva, de modo que as se pueda
maximizar el impacto en las polticas.
Otros recursos
CMO OBTENER
DATOS PARA UNA
EVALUACIN DE
IMPACTO
La cuarta parte de este libro proporciona orientacin sobre cmo obtener datos
para una evaluacin de impacto, lo que comprende la eleccin de la muestra y
cmo encontrar fuentes de datos adecuadas.
Grco 15.1 Uso de una muestra para inferir las caractersticas promedio de
una poblacin de inters
Poblacin de inters
Inferir caractersticas
de la poblacin sobre
la base la muestra
Muestra
Marco muestral
vlido
Marco muestral
no vlido
Poblacin
de inters
Como debera quedar claro a partir del comparacin que no lo ser. El proceso de
debate que se desarrolla en la segunda aleatorizacin de un programa que se exhibe
parte, la asignacin aleatoria de los benecios en el grco B15.1.2 es diferente del proceso
de un programa es diferente del muestreo de muestreo aleatorio descrito en el grco
aleatorio. El proceso de asignacin aleatoria B15.1.1. Como se seal en la segunda
parte de una poblacin de inters elegible y parte, cuando la asignacin aleatoria est
utiliza un procedimiento de aleatorizacin bien implementada, contribuye a la validez
para asignar las unidades (que normalmente interna de la evaluacin de impacto. El
son personas o grupos de personas, como muestreo aleatorio puede ser til para
nios en una escuela) de la poblacin asegurar la validez externa, en la medida en
elegible a un grupo de tratamiento que ser que la muestra se extrae aleatoriamente de
objeto de una intervencin, y a un grupo de la poblacin de inters.
Poblacin elegible
Comparacin
miento
Grupo de tratamiento G
Grupo de comparacin
(participantes del programa) (no participantes del programa)
Una muestra
pequea
Poblacin de inters
Una muestra
grande
Una vez que se haya estimado el resultado promedio (el peso) del grupo
de tratamiento (los nios que participan seleccionados por asignacin
aleatoria) y el grupo de comparacin (los nios que no participan seleccio-
nados por asignacin aleatoria), se puede proceder a determinar si los dos
resultados son diferentes. Esta parte est clara: se restan los promedios y
se calcula la diferencia. En trminos estadsticos, la evaluacin de impacto
pone a prueba la hiptesis nula (o por defecto) en contraste con la hiptesis
alternativa.
300 La evaluacin de impacto en la prctica
La hiptesis nula es la hiptesis de que el programa no tiene un impacto.
Se expresa como:
H0: impacto o diferencia entre el resultado en el grupo de tratamiento y
comparacin = 0.
Nota: El efecto mnimo detectable describe la reduccin mnima de los gastos directos en salud de
los hogares que puede detectar la evaluacin de impacto. Potencia = 0,9; sin clusters.
Nota: El efecto mnimo detectable describe la reduccin mnima de los gastos directos en salud de
los hogares que puede detectar la evaluacin de impacto. Potencia = 0,8; sin clusters.
Efecto mnimo
detectable Grupo de Grupo de
(porcentaje) tratamiento comparacin Total muestra
1 7.257 7.257 14.514
2 1.815 1.815 3.630
3 807 807 1.614
Nota: El efecto mnimo deseado describe el cambio mnimo en la tasa de utilizacin de servicios
hospitalarios (expresado en puntos porcentuales) que puede detectar la evaluacin de impacto.
Pregunta HISP 8
Nota: El efecto mnimo detectable describe la reduccin mnima de los gastos directos en salud de
los hogares que puede detectar la evaluacin de impacto. El nmero de clusters es el nmero total
de clusters, la mitad de los cuales ser el nmero de clusters del grupo de comparacin, y la otra
mitad ser el nmero de clusters del grupo de tratamiento.
Nota: El nmero de clusters es el nmero total de clusters, la mitad de los cuales ser el nmero
de clusters del grupo de comparacin, y la otra mitad ser el nmero de clusters del grupo de
tratamiento. Si el diseo no tuviera clusters, se necesitaran 251 unidades en cada grupo para
identicar un efecto mnimo detectable de US$2 (vase el cuadro 15.3).
Pregunta HISP 9
Notas
s2
var( y ) =
n
Referencias bibliogrcas
En este captulo se analizan las diversas fuentes de datos que pueden utilizar
las evaluaciones de impacto. En primer lugar, se estudian las fuentes de
datos existentes, sobre todo los datos administrativos, y se proporcionan
algunos ejemplos de evaluaciones de impacto que han aprovechado datos
existentes. Dado que muchas evaluaciones requieren la recopilacin de
datos nuevos, tambin se examinan los pasos en la recopilacin de nuevos
datos de las encuestas. Una comprensin clara de estos pasos contribuir a
asegurar que la evaluacin de impacto se base en datos de calidad que no
comprometan el diseo de evaluacin. Como primer paso, habr que con-
tratar la elaboracin de un cuestionario adecuado. Paralelamente, se necesi-
tar ayuda de una empresa o un organismo del gobierno especializado en
recopilacin de datos. La entidad de recopilacin de datos reclutar y
capacitar al personal de campo y realizar una prueba piloto del cuestiona-
rio. Despus de introducir los ajustes necesarios, la empresa o el organismo
podrn proceder con el trabajo de campo, recopilar los datos, digitalizarlos
y procesarlos antes de que puedan ser entregados, almacenados y analiza-
dos por el equipo de evaluacin.
Para evaluar el impacto de la intervencin en los resultados de inters, se
requieren datos de buena calidad. La cadena de resultados que se expone en
323
el captulo 2 proporciona una base para denir qu indicadores deberan
medirse y cundo. Los indicadores son necesarios en toda la cadena de
resultados.
Datos sobre los resultados. La primera y principal necesidad son los datos
sobre los indicadores de resultado directamente afectados por el programa.
Los indicadores de resultado estn vinculados con los objetivos que el pro-
grama pretende alcanzar. Como se seal en el captulo 2, los indicadores de
resultado deben seleccionarse preferiblemente para que sean especcos,
medibles, atribuibles, realistas y focalizados (EMARF). No obstante, la
evaluacin de impacto no debe medir solo aquellos resultados de los que el
programa rinde directamente cuentas. Los datos sobre los indicadores de
resultados que el programa afecta indirectamente, o los indicadores que
capturan los efectos no intencionados del programa, maximizarn el valor
de la informacin que genera la evaluacin de impacto, as como la com-
prensin de la efectividad general del programa.
Datos sobre los resultados intermedios. Por otro lado, los datos sobre los
resultados intermedios son tiles para ayudar a entender los canales a tra-
vs de los cuales el programa evaluado ha tenido impacto o no lo ha
tenido en los resultados nales de inters. Normalmente, las evaluaciones
de impacto se llevan a cabo a lo largo de diversos perodos y se debe denir
cundo medir los indicadores de resultados. Siguiendo esta cadena de
resultados, se puede establecer una jerarqua de indicadores de resultado,
que abarca desde los indicadores de corto plazo, que se pueden medir
mientras los participantes todava estn en el programa, como la asistencia
escolar registrada en una encuesta de seguimiento de corto plazo en el
contexto de un programa educativo, hasta las encuestas de seguimiento de
ms largo plazo, como el aprendizaje escolar o la insercin en el mercado
laboral, que se pueden medir en una encuesta de seguimiento a ms largo
Concepto clave plazo despus de que los participantes han dejado el programa. Para medir
Los indicadores son el impacto a lo largo del tiempo de manera convincente es necesario contar
necesarios en toda la con datos de la lnea de base antes de implementar el programa o la innova-
cadena de resultados. cin que se evala. La seccin del captulo 12 que versa sobre la programa-
Constituyen la cin en el tiempo de la evaluacin arroja luz sobre cmo denir el momento
vericacin para medir
en que se recopilan los datos.
los resultados nales y
los resultados Como se seal en el captulo 15, en el contexto de los clculos de poten-
intermedios, as como cia, cuando las muestras son relativamente pequeas, algunos indicadores
los benecios y la pueden no ser adecuados para la evaluacin de impacto. Detectar el impacto
calidad de implemen- de una intervencin cuyos indicadores son extremadamente variables, se
tacin del programa.
reeren a sucesos poco frecuentes o solo se ven afectados de forma margi-
nal por la intervencin, puede requerir muestras demasiado grandes. Por
ejemplo, solo ser posible determinar el impacto de una intervencin sobre
las tasas de mortalidad materna si se dispone de una muestra de decenas de
324 La evaluacin de impacto en la prctica
miles de mujeres embarazadas, dado que la mortalidad es (afortunadamente)
un hecho excepcional. En ese caso, puede que sea necesario replantear la
evaluacin de impacto y focalizarla en indicadores ms intermedios,
relacionados con los resultados nales, pero para los cuales hay suciente
potencia como para detectar efectos. En el caso de una intervencin cuyo
n es reducir la mortalidad materna, un indicador intermedio podra estar
vinculado con la utilizacin de los servicios de salud durante el embarazo, y
con los partos en los centros de salud, que estn asociados con la mortali-
dad. Los clculos de potencia analizados en el captulo 15 pueden contri-
buir a arrojar luz sobre los indicadores en los que se detectan impactos y
aquellos en los que puede ser ms difcil detectar impactos sin muestras
muy grandes.
Datos sobre las actividades y productos del programa. Tambin se requie-
ren indicadores para la parte de la cadena de resultados que describe las
actividades y productos del programa. Concretamente, los datos de monito-
reo del programa pueden proporcionar informacin esencial sobre las pres-
taciones de la intervencin. En particular, los datos de monitoreo incluyen
deniciones sobre quines son los beneciarios y qu benecios o produc-
tos del programa pueden haber recibido. Como mnimo, se necesitan datos
de monitoreo para saber cundo comienza un programa y quin recibe
benecios, as como para proporcionar una medida de la intensidad o cali-
dad de la intervencin. Esto es particularmente importante en los casos en
que un programa puede no llegar a todos los beneciarios con el mismo
contenido, calidad o duracin. Es esencial tener una comprensin adecuada
de la medida en que la intervencin se ha implementado siguiendo el diseo,
para interpretar los resultados de la evaluacin de impacto, lo que incluye
saber si destacan la efectividad del programa puesto en marcha segn el
diseo o si hay deciencias en su implementacin.
Datos adicionales. Puede que se precisen otros datos para la evaluacin
de impacto, lo cual depende de la metodologa usada. Los datos sobre otros
factores que pueden inuir en el resultado de inters pueden ser necesarios
para controlar por inuencias externas. Este aspecto es particularmente
importante cuando se utilizan mtodos de evaluacin que dependen de ms
supuestos que los mtodos aleatorios. A veces tambin es necesario tener
datos sobre los resultados y otros factores a lo largo del tiempo para calcular
tendencias, como sucede con el mtodo de diferencias en diferencias. Dar
cuenta de otros factores y tendencias anteriores tambin contribuye a
aumentar la potencia estadstica. Incluso con la asignacin aleatoria, los
datos sobre otras caractersticas pueden ayudar a estimar los efectos del tra-
tamiento con ms precisin. Tambin pueden ser utilizados para incluir
controles adicionales o analizar la heterogeneidad de los efectos del pro-
grama en caractersticas relevantes.
Encontrando fuentes adecuadas de datos 325
El diseo seleccionado para la evaluacin de impacto tambin afectar a
los requisitos de datos. Por ejemplo, si se elige el mtodo de pareamiento o
de diferencias en diferencias, habr que recolectar datos sobre una gama
muy amplia de caractersticas para los grupos tanto de tratamiento como de
comparacin, lo que hace posible ejecutar una serie de pruebas de robustez,
como se explic en la segunda parte o en el captulo 11 (vase el cuadro 11.2).
Para cada evaluacin, resulta til desarrollar una matriz que enumere las
preguntas de inters, los indicadores de resultado para cada pregunta y la
fuente de los datos, como se describe en el grco 2.1 del captulo 2 sobre la
cadena de resultados. La elaboracin de un plan de evaluacin de impacto y
el contar con un plan de preanlisis constituyen otras oportunidades esen-
ciales para denir una lista precisa de indicadores clave requeridos en las
evaluaciones de impacto.
Una de las primeras cuestiones que se debe considerar cuando se disea una
evaluacin de impacto es qu fuente de datos se utilizar. Una considera-
cin fundamental es si la evaluacin de impacto depender de datos exis-
tentes o si requerir la recopilacin de datos nuevos.
Casi siempre se necesitan datos existentes al comienzo de una evaluacin
de impacto para estimar los valores de referencia de los indicadores o para
efectuar clculos de potencia, como se analiz en el captulo 15. Despus de
la fase de planicacin, la disponibilidad de datos existentes puede dismi-
nuir de forma considerable el costo de una evaluacin de impacto. Si bien es
probable que los datos existentes y, en particular los datos administrativos,
sean subutilizados en la evaluacin de impacto en general, la viabilidad de
usar datos existentes en la evaluacin de impacto tiene que ser valorada con
detenimiento.
De hecho, como se seal en el captulo 12, la recopilacin de datos suele
representar el mayor costo de una evaluacin de impacto. Sin embargo, para
determinar si los datos existentes se pueden utilizar en una determinada
evaluacin de impacto, debe tenerse en cuenta una serie de preguntas:
El muestreo. Se dispone de datos existentes tanto para el grupo de trata-
miento como para el grupo de comparacin? Las muestras existentes se
han extrado de un marco muestral que coincide con la poblacin de
inters? Las unidades del marco muestral, se han obtenido mediante un
procedimiento de muestreo probabilstico?
Tamao de la muestra. Las series de datos son sucientemente grandes
para detectar cambios en los indicadores de resultado con suciente
326 La evaluacin de impacto en la prctica
potencia? La respuesta a esta pregunta depende de la eleccin de los
indicadores de resultado, as como de los resultados de los clculos de
potencia tratados en el captulo 15.
Disponibilidad de datos de lnea de base. Los datos existentes disponibles
tanto para los grupos de tratamiento como de comparacin son anterio-
res a la implementacin del programa o de la innovacin que se evala?
La disponibilidad de datos en lnea de base es esencial para documentar
el equilibrio en las caractersticas previas del programa entre los grupos
de tratamiento y de comparacin cuando se utilizan mtodos aleatorios, y
son esenciales para la implementacin de diseos cuasi experimentales.
Frecuencia. Los datos existentes son recopilados con suciente fre-
cuencia? Se dispone de ellos para todas las unidades de la muestra a lo
largo del tiempo, incluyendo los momentos en que hay que medir los
indicadores de resultado segn la cadena de resultados y la lgica de la
intervencin?
Alcance. Los datos existentes contienen todos los indicadores necesa-
rios para responder a las preguntas de inters de las polticas, incluyendo
los principales indicadores de resultado y los resultados intermedios de
inters?
Vnculos con la informacin de monitoreo del programa. Los datos exis-
tentes se pueden vincular a datos del monitoreo de la implementacin
del programa, lo que implica observar qu unidades pertenecen a los gru-
pos de tratamiento y de comparacin, y si todas las unidades asignadas al
grupo de tratamiento reciben los mismos benecios?
Identicadores nicos. Existen identicadores nicos que vinculen dife-
rentes fuentes de datos?
Como lo subrayan las preguntas anteriores, los requisitos para los datos
existentes son bastante importantes, y no es habitual que los datos existen-
tes resulten sucientes para las evaluaciones de impacto. Aun as, con el
rpido crecimiento en el alcance y la cobertura de los sistemas de informa-
cin, y con la evolucin general hacia un mundo en que los datos digitales de
una amplia gama de fuentes se almacenan de manera peridica, cada vez
ms evaluaciones de impacto pueden contemplar el uso de datos existentes.
Se puede utilizar una gama de fuentes potenciales de datos existentes en las
evaluaciones de impacto, lo cual abarca datos censales, encuestas nacionales
o datos administrativos.
Los datos del censo de poblacin pueden proporcionar informacin
exhaustiva sobre toda la poblacin. Se pueden utilizar para las evaluacio-
nes de impacto cuando estn disponibles en un nivel sucientemente
Encontrando fuentes adecuadas de datos 327
desagregado e incluyen detalles para saber qu unidades pertenecen al
grupo de tratamiento o de comparacin, como los identicadores geogr-
cos o personales. Los datos censales no se recopilan a menudo, y normal-
mente incluyen solo un pequeo conjunto de indicadores clave. Sin
embargo, en ocasiones dichos datos se recopilan para incluirse en sistemas
de informacin o registros que proporcionan la base para denir los obje-
tivos de los programas pblicos, lo que incluye identicadores nicos que
pueden servir de soporte a vnculos con otras bases de datos existentes.
Las encuestas representativas a nivel nacional, como las encuestas de
hogares, las encuestas de medicin de los niveles de vida, las encuestas de la
fuerza laboral, las encuestas demogrcas y de salud, las encuestas de
empresas o las encuestas de instalaciones tambin se pueden contemplar.
Estas pueden contener un conjunto exhaustivo de variables de resultado,
pero rara vez cuentan con sucientes observaciones, tanto del grupo de
tratamiento como de comparacin, para llevar a cabo una evaluacin de
impacto. Supngase, por ejemplo, que se desea evaluar un programa nacio-
nal de gran alcance que llega al 10% de los hogares en un determinado pas.
Si una encuesta representativa a nivel nacional se lleva a cabo en 5.000
hogares cada ao, esta puede contener alrededor de 500 hogares que reciben
el programa en cuestin. Es la muestra lo bastante grande para llevar a cabo
una evaluacin de impacto? Los clculos de potencia pueden responder a
esta pregunta, pero en muchos casos la respuesta es negativa.
Adems de determinar si se pueden utilizar las encuestas existentes,
tambin se debe averiguar si se estn planicando nuevas iniciativas de
recopilacin de datos nacionales. Si se planica una encuesta que cubrir
la poblacin de inters, quiz tambin se pueda introducir una pregunta
o una serie de preguntas como parte de esa encuesta. Si ya se ha pla-
neado una encuesta que mide los indicadores requeridos, existe la
posibilidad de sobre muestrear una determinada poblacin para asegu-
rar una cobertura adecuada en los grupos de tratamiento y comparacin
y acomodar la evaluacin de impacto. Por ejemplo, la evaluacin del
Fondo Social de Nicaragua complement un estudio nacional de medi-
cin de los niveles de vida con una muestra adicional de beneciarios
(Pradhan y Rawlings, 2002).
Los datos administrativos suelen ser recopilados por organismos pblicos
o agencias privadas como parte de sus operaciones regulares, normalmente
con cierta frecuencia, y a menudo para monitorear los servicios prestados o
registrar interacciones con los usuarios. En algunos casos, los datos admi-
nistrativos contienen los indicadores de resultado necesarios para una eva-
luacin de impacto. Por ejemplo, los sistemas educativos cuentan con
registros de la matriculacin y asistencia de los alumnos y de las calicacio-
nes de las pruebas, y tambin pueden recopilar informacin sobre los
328 La evaluacin de impacto en la prctica
insumos escolares y los maestros. De la misma manera, los sistemas de salud
pueden reunir datos sobre las caractersticas y localizacin de los centros de
salud, la oferta de servicios de salud y la asignacin de recursos. Tambin
pueden consolidar datos recopilados en centros de salud sobre los historia-
les mdicos de los pacientes, datos antropomtricos, historiales de vacuna-
ciones y, de manera ms amplia, datos sobre la incidencia de las enfermedades
y estadsticas vitales. Las empresas de servicios pblicos renen datos sobre
el consumo de agua o electricidad. Las agencias tributarias pueden recoger
datos sobre los ingresos y los impuestos. Los sistemas de transporte recopi-
lan datos sobre los pasajeros y los tiempos de viaje. Las empresas del sistema
nanciero recopilan datos sobre las transacciones o el historial crediticio de
los clientes. Todas estas fuentes de datos existentes pueden ser potencial-
mente utilizadas en las evaluaciones de impacto. A veces incluyen series
temporales extensas, que pueden contribuir a seguir a las unidades a lo largo
del tiempo.
Es crucial realizar un diagnstico de la disponibilidad y calidad de los
datos cuando se considera la posibilidad de utilizar datos administrativos.
En algunos casos, los datos de las fuentes administrativas pueden ser ms
ables que los datos de las encuestas. Por ejemplo, un estudio en Malawi
revel que los encuestados daban informacin falsa sobre la asistencia y
matriculacin escolar en una encuesta de hogares, en comparacin con los
registros administrativos obtenidos en las escuelas; por lo tanto, los resul-
tados de la evaluacin de impacto eran ms ables si se basaban en los
datos administrativos (Baird y zler, 2012). Al mismo tiempo, en numero-
sos contextos, los datos administrativos son recopilados por un gran
nmero de proveedores y pueden ser de calidad desigual. Por lo tanto, su
abilidad debe valorarse detenidamente antes de tomar la decisin de tra-
bajar con datos administrativos en la evaluacin de impacto. Un aspecto
crucial consiste en asegurar que existan identicadores nicos para vin-
cular los datos administrativos con otras fuentes de datos, incluyendo
datos sobre el monitoreo del programa que documentan qu unidades han
recibido los benecios del programa. Cuando estos identicadores exis-
ten, como los nmeros de identicacin nacional usados de manera
consistente, se puede evitar una gran cantidad de trabajo para preparar y
limpiar los datos. En todos los casos, la proteccin de la condencialidad
es una parte importante de la preparacin de los datos y del protocolo de
gestin de datos. Los principios ticos que rigen la proteccin de sujetos
humanos (vase el debate en el captulo 13) tambin rigen el uso que se
hace de datos existentes.
Algunas evaluaciones retrospectivas inuyentes han trabajado con
registros administrativos: Galiani, Gertler y Schargrodsky (2005), sobre
lapoltica de aguas en Argentina; Ferraz y Finan (2008) sobre auditoras y
Encontrando fuentes adecuadas de datos 329
desempeo de los polticos, y Chetty, Friedman y Sez (2013) sobre los crdi-
tos scales en Estados Unidos. En el recuadro 16.1 se presenta un ejemplo de
evaluacin de impacto de salud en Argentina. Por su parte, el recuadro 16.2
ilustra el uso de datos administrativos en la evaluacin de impacto de un
programa de transferencias monetarias en Honduras.
En algunos casos, los datos requeridos para la evaluacin de impacto se
pueden recopilar implementando nuevos sistemas de informacin o de
datos administrativos. Esta implementacin se puede coordinar con la de un
diseo de evaluacin, de modo que los indicadores de resultado se recopilen
para un grupo de tratamiento y un grupo de comparacin en mltiples
Los datos existentes son sucientes para toda una evaluacin de impacto
solo en casos relativamente raros. Si los datos administrativos no son
sucientes para la evaluacin, muy posiblemente habr que depender de
datos de encuestas. Como consecuencia, lo ms probable es que se tenga que
presupuestar la recopilacin de nuevos datos. A pesar de que la recopilacin
de datos suele implicar el mayor costo de una evaluacin de impacto, tam-
bin puede ser una inversin de alto retorno de la que a menudo depende la
calidad de la evaluacin. La recopilacin de nuevos datos proporciona la e-
xibilidad para garantizar que se midan todos los indicadores necesarios para
una evaluacin integral del desempeo del programa.
La mayora de las evaluaciones de impacto requieren recopilar datos de
encuestas, incluyendo al menos una encuesta de lnea de base antes de la
intervencin o innovacin que se evala, y una encuesta de seguimiento
despus de que se ha implementado la intervencin. Los datos de las encues-
tas pueden ser de diversos tipos, en funcin del programa que se evala y de
la unidad de anlisis. Por ejemplo, las encuestas de empresas utilizan a las
rmas como la principal unidad de observacin, las encuestas de instalacio-
nes utilizan los centros de salud o las escuelas como la principal unidad de
observacin, y las encuestas de hogares utilizan los hogares como la princi-
pal unidad de observacin. La mayora de las evaluaciones dependen de
encuestas individuales o de hogares como fuente primaria de datos. En esta
seccin, se revisan algunos principios generales de la recopilacin de datos
de las encuestas. Aunque estos se reeren sobre todo a las encuestas de
hogares, los mismos principios son vlidos para la mayora de otros tipos de
datos de encuestas.
El primer paso para decidir si utilizar los datos existentes o recopilar
nuevos datos mediante encuestas ser determinar el enfoque del muestreo,
as como el tamao necesario de la muestra (como se analiz en el
captulo 15). Una vez que se decida recopilar datos de encuestas para la
evaluacin, habr que:
332 La evaluacin de impacto en la prctica
Determinar quin recopilar los datos.
Desarrollar y poner a prueba el instrumento de recopilacin de datos.
Llevar a cabo un trabajo de campo y realizar el control de calidad.
Procesar y almacenar los datos.
La implementacin de estos diversos pasos se suele contratar, pero es esen-
cial que se comprendan su alcance y sus componentes clave para poder
gestionar efectivamente una evaluacin de impacto de calidad.
Referencias bibliogrcas
Conclusiones
355
Lista de vericacin: elementos centrales de una
evaluacin de impacto bien diseada
Respeto por las normas ticas y consideracin por los sujetos humanos
en el diseo y la implementacin de la evaluacin y la recopilacin de
datos correspondiente, as como atencin a los principios de ciencia
abierta para asegurar la transparencia.
Conclusiones 357
diseadas pueden contribuir a probar innovaciones o a proporcionar
nuevas perspectivas de la efectividad relativa de diversos productos y
servicios prestados como un paquete de programas existentes. Incorporar
una innovacin adicional al programa como un pequeo plan piloto en el
contexto de una evaluacin ms grande puede servir para aprovechar la
evaluacin a n de producir informacin valiosa para la toma de decisio-
nes en el futuro.
Se debe pensar en las evaluaciones de impacto como otro de los compo-
nentes de la operacin de un programa y se les debe dotar de personal
adecuado y de un presupuesto que contemple los recursos tcnicos y
nancieros necesarios. Es preciso ser realista acerca de los costos y la
complejidad de llevar a cabo una evaluacin de impacto. Normalmente,
el proceso de disear una evaluacin y recopilar una lnea de base desde
cero puede tardar un ao o ms. Una vez que el programa comienza, el
grupo de tratamiento necesita un perodo sucientemente largo de expo-
sicin a la intervencin para inuir en los resultados. Dependiendo del
programa, esto puede tardar entre un ao y cinco aos, o ms en el caso
de resultados de largo plazo. Recopilar una o ms encuestas de segui-
miento, llevar a cabo el anlisis y divulgar los resultados tambin reque-
rir un esfuerzo considerable a lo largo de varios meses y aos. En su
conjunto, un ciclo completo de evaluacin de impacto desde el comienzo
hasta el nal suele durar entre tres y cuatro aos de intensivo trabajo y
participacin. Se requieren recursos nancieros y tcnicos adecuados en
cada paso del proceso.
Eventualmente, las evaluaciones de impacto individuales ofrecen res-
puestas concretas a preguntas especcas de polticas pblicas. Aunque
estas respuestas proporcionan informacin hecha a la medida de la enti-
dad especca que encarga y nancia la evaluacin, tambin brindan
informacin valiosa para otros agentes en otras partes del mundo, que
pueden aprender y tomar decisiones sobre la base de la evidencia. Por
ejemplo, los programas de transferencias condicionadas de frica, Asia
y Europa han extrado enseanzas de las evaluaciones originales de
Familias en Accin de Colombia, Progresa de Mxico y otros programas
de transferencias condicionadas de Amrica Latina. De esta manera, las
evaluaciones de impacto constituyen en parte un bien pblico global. La
evidencia que se genera a travs de una evaluacin de impacto se suma al
conocimiento mundial sobre este tema. Esta base de conocimientos luego
puede fundamentar decisiones de polticas de otros pases y contextos,
prestando la atencin adecuada a la validez externa. La comunidad inter-
nacional ha avanzado rpidamente hacia un apoyo de mayor escala de
evaluaciones rigurosas.
358 La evaluacin de impacto en la prctica
A nivel de pas, gobiernos cada vez ms sosticados y exigentes esperan
demostrar resultados y ser ms capaces de rendir cuentas ante sus electores
clave. Se emprenden cada vez ms evaluaciones de impacto de la mano de
los ministerios nacionales y subnacionales pertinentes, y los rganos de
gobierno creados para dirigir una agenda nacional de evaluacin, como el
Consejo Nacional de Evaluacin de la Poltica de Desarrollo Social, en
Mxico, y el Departamento de Monitoreo y Evaluacin del Desempeo
en Sudfrica (Department of Performance Monitoring and Evaluation).
Tambin se utiliza la evidencia de estas evaluaciones para fundamentar las
asignaciones presupuestarias propuestas por el Congreso y el Parlamento a
nivel nacional. En los sistemas donde los programas se juzgan a partir de la
evidencia y los resultados nales, los programas que tienen una slida base
de evidencia para defender resultados positivos podrn salir adelante,
mientras que los que carecen de dichas pruebas tendrn ms dicultades
para encontrar nanciamiento.
Las instituciones multilaterales como el Banco Mundial y el Banco
Interamericano de Desarrollo (BID), as como los organismos nacionales de
desarrollo, los gobiernos donantes y las instituciones lantrpicas tambin
exigen ms y mejor evidencia sobre el uso efectivo de los recursos para el
desarrollo. Esta evidencia se requiere para rendir cuentas a quienes prestan
o donan el dinero, y para la toma de decisiones acerca de dnde es mejor
asignar los escasos recursos para el desarrollo.
Asimismo, est emergiendo un nmero creciente de instituciones
dedicadas principalmente a la produccin de evaluaciones de impacto de
alta calidad, entre ellas las del mbito acadmico como Poverty Action Lab
(J-Pal), Innovations for Poverty Action (IPA), y el Center for Effective
Global Action (CEGA), y organismos independientes que apoyan las eva-
luaciones de impacto, como la Iniciativa Internacional para la Evaluacin
de Impacto (3ie). Hay diversas asociaciones que renen a grupos de profe-
sionales de la evaluacin e investigadores y responsables de las polticas
interesados en el tema, entre ellas la Network of Networks on Impact
Evaluation y asociaciones regionales como la African Evaluation
Association y la Red de Evaluacin de Impacto de la Asociacin Econmica
de Amrica Latina y el Caribe. Todas estas iniciativas reejan la creciente
importancia de la evaluacin de impacto en las polticas internacionales de
desarrollo.
Debido a estos avances, poder comunicarse en el lenguaje de la evaluacin
de impacto es una habilidad cada vez ms indispensable para cualquier pro-
fesional del desarrollo, ya sea para quienes se ganan la vida trabajando en eva-
luaciones, o bien para los que contratan evaluaciones de impacto o utilizan
los resultados de las mismas en la toma de decisiones. La rigurosa evidencia
generada a travs de las evaluaciones de impacto puede ser uno de los
Conclusiones 359
motores del dilogo de polticas para el desarrollo, y proporcionar la base
para apoyar o para oponerse a las inversiones en programas y polticas de
desarrollo. La evidencia de las evaluaciones de impacto permite a los respon-
sables de las polticas y a los administradores de los proyectos tomar decisio-
nes fundamentadas sobre cmo alcanzar resultados de la manera ms
costo-efectiva. Armado con la evidencia de una evaluacin de impacto, el
equipo de polticas pblicas tiene el deber de cerrar el ciclo incorporando
esos resultados en el proceso de toma de decisiones. Este tipo de evidencia
puede respaldar debates, opiniones y, en denitiva, las decisiones de asigna-
cin de recursos humanos y monetarios de los gobiernos, las instituciones
multilaterales y losdonantes.
La elaboracin de polticas basadas en la evidencia tiene que ver esen-
cialmente con fundamentar el diseo de programas y mejorar la asignacin
presupuestaria para ampliar los programas costo-efectivos, eliminar los
inefectivos e introducir mejoras en los diseos sobre la base de la mejor
evidencia disponible. Las evaluaciones de impacto no son una empresa
puramente acadmica. Son el resultado de la necesidad de encontrar
respuestas a las preguntas de polticas que inuyen en la vida diaria de las
personas. Las decisiones sobre cul es la mejor manera de asignar recursos
escasos a los programas de lucha contra la pobreza, o de transporte, energa,
salud, educacin, de redes de proteccin, microcrditos, agricultura, y otras
innumerables iniciativas para el desarrollo, tienen el potencial para mejorar
el bienestar de las personas en todo el mundo. Es vital que esas decisiones se
tomen utilizando la evidencia ms rigurosa posible.
Los trminos que llevan cursiva dentro de las deniciones se denen a su vez dentro
del propio glosario.
Actividad. Medidas adoptadas o trabajo realizado a travs del cual los insumos,
como los fondos, la asistencia tcnica y otro tipo de recursos que se movilizan para
generar productos especcos, como el dinero gastado, los libros de texto distribui-
dos o el nmero de participantes en un programa de empleo.
Anlisis de costo-benecio. Estima los benecios totales previstos de un
programa, en comparacin con sus costos totales previstos. Su n es cuanticar
todos los costos y benecios de un programa en trminos monetarios y evaluar si los
benecios superan a los costos.
Anlisis de costo-efectividad. Compara el costo relativo de dos o ms programas
o alternativas de programa en trminos de alcanzar un resultado comn, como la
produccin agrcola o las calicaciones de los alumnos en los exmenes.
Anlisis de regresin. Mtodo estadstico para analizar las relaciones entre una
variable dependiente (la variable que se debe explicar) y variables explicativas. El
anlisis de regresin normalmente no es suciente para capturar los efectos causales.
En la evaluacin de impacto, el anlisis de regresin es una manera de representar la
relacin entre el valor de un indicador de resultado Y (variable dependiente) y una
variable independiente que captura la asignacin al grupo de tratamiento o grupo de
comparacin, mientras se mantienen constantes otras caractersticas. Tanto la asig-
nacin al grupo de tratamiento y de comparacin como las dems caractersticas son
variables explicativas. El anlisis de regresin puede ser univariante (si hay solo una
variable explicativa; en el caso de la evaluacin de impacto, la nica variable explica-
tiva es la asignacin al grupo de tratamiento o de comparacin) o multivariante
(sihay varias variables explicativas).
Anlisis de sensibilidad. Trata de la sensibilidad del anlisis ante los cambios en
los supuestos. En el contexto de los clculos de potencia, contribuye a comprender
361
cunto tendr que aumentar el tamao requerido de la muestra bajo supuestos ms
conservadores (como un menor impacto esperado, una mayor variacin en el
indicador de resultado o un nivel ms alto de potencia).
Asignacin aleatoria o ensayo controlado aleatorio. Mtodo de evaluacin de
impacto por el cual cada unidad elegible (por ejemplo, un individuo, un hogar, una
empresa, una escuela, un hospital o una comunidad) tiene la misma probabilidad
de ser seleccionada para ser tratada en un programa. Con un nmero suciente-
mente grande de unidades, el proceso de asignacin aleatoria garantiza la equiva-
lencia tanto en las caractersticas observables como no observables entre el grupo
de tratamiento y el grupo de comparacin, y as se descarta cualquier sesgo de
seleccin. La asignacin aleatoria se considera el mtodo ms robusto para estimar
los contrafactuales y se le suele considerar como la regla de oro de la evaluacin de
impacto.
Cadena de resultados. Establece la lgica causal del programa explicando cmo se
logra el objetivo de desarrollo. Articula la secuencia de insumos, actividades y
productos que se espera que mejoren los resultados.
Clculos de potencia. Mtodo para determinar cul es el tamao de la muestra
requerida para que una evaluacin de impacto estime con precisin el impacto de un
programa, es decir: la muestra ms pequea que permitir detectar el efecto mnimo
detectable. Los clculos de potencia dependen de parmetros como la potencia (o la
probabilidad de un error de tipo II), el nivel de signicancia, la media, la varianza y la
correlacin intra-clusters de los resultados de inters.
Censo. Empadronamiento total de una poblacin. Los datos censales abarcan todas
las unidades de la poblacin. Comprese con muestra.
Ciencia abierta. Movimiento cuyo n es elaborar mtodos de investigacin ms
transparentes, mediante el registro de los ensayos, la utilizacin de planes de
preanlisis, documentacin de datos y registros.
Comparacin antes y despus. Tambin conocida como comparacin previa-
posterior o comparacin reexiva. Se trata de un seguimiento de los cambios en
los resultados para los beneciarios del programa a lo largo del tiempo, utilizando
mediciones antes y despus de la implementacin del programa o la poltica, sin
utilizar un grupo de comparacin.
Comparaciones de inscritos y no inscritos. Tambin conocidas como compara-
ciones autoseleccionadas. Esta estrategia compara los resultados de las unidades que
decidieron inscribirse y las unidades que decidieron no inscribirse en un programa.
Cluster. Tambin llamado conglomerado. Grupo de unidades que pueden compartir
caractersticas similares. Por ejemplo, los nios que asisten a la misma escuela
pertenecen a un mismo cluster porque comparten el mismo centro escolar, los
mismos profesores y viven en el mismo barrio.
Consentimiento informado. Uno de los fundamentos de la proteccin de los
derechos de los sujetos humanos. En el caso de las evaluaciones de impacto, requiere
que los encuestados comprendan claramente los nes, procedimientos, riesgos y
benecios de la recopilacin de datos en la que se les pide participar.
Glosario 363
continuo para clasicar a los participantes potenciales. Dicho ndice tiene un punto
lmite que determina si los participantes potenciales son elegibles para recibir el
programa o no. El umbral de elegibilidad del programa proporciona un punto
divisorio entre el grupo de tratamiento y el grupo de comparacin. Los resultados para
los participantes en un lado del umbral se comparan con los resultados de los no
participantes al otro lado del umbral. Cuando todas las unidades cumplen con la
asignacin que corresponde sobre la base de su ndice de elegibilidad, se dice que el
DRD es ntido. Si hay incumplimiento en el otro lado del umbral, se dice que el
DRD es difuso o borroso.
Efecto causal. Vase impacto.
Efecto de derrame. Tambin denominado efecto de contagio. Ocurre cuando el
grupo de tratamiento inuye directa o indirectamente en los resultados del grupo de
comparacin (o a la inversa).
Efecto mnimo detectable. El efecto mnimo detectable es un insumo en los clcu-
los de potencia, es decir, proporciona el tamao del efecto que una evaluacin de
impacto est diseada para estimar con un determinado nivel de signicancia y
potencia. Las muestras de la evaluacin tienen que ser lo bastante grandes para
distinguir al menos el efecto mnimo detectable. Este efecto se determina teniendo
en cuenta el cambio en los resultados que justicara la inversin que se ha hecho en
una intervencin.
Efecto Hawthorne. Se produce cuando, por el simple hecho de ser observadas, las
unidades se comportan de manera diferente.
Efecto John Henry. Acontece cuando las unidades de la comparacin se
esfuerzan ms para compensar que no se les haya ofrecido el tratamiento.
Cuando se comparan las unidades tratadas con las unidades de la comparacin
que se esfuerzan ms, la estimacin del impacto del programa tiene un sesgo; es
decir, se estima un impacto menor del programa en comparacin con el impacto
real que se obtendra si las unidades de la comparacin no realizaran un
esfuerzo adicional.
Efecto local promedio del tratamiento (LATE, por sus siglas en ingls).
Impacto de un programa estimado para un subconjunto especco de la poblacin,
como las unidades que cumplen con su asignacin al grupo de tratamiento o de
comparacin en presencia de un cumplimiento imperfecto, o en torno al umbral de
elegibilidad cuando se aplica un diseo de regresin discontinua. Por lo tanto, el
LATE proporciona solo una estimacin local del impacto del programa y no debera
generalizarse al conjunto de la poblacin.
Efectos de equilibrio de contexto. Efectos de derrame que se producen cuando
una intervencin inuye en las normas de conducta o sociales en un contexto
determinado, como una localidad tratada.
Efectos de equilibrio general. Estos efectos de derrame se producen cuando las
intervenciones afectan la oferta y demanda de bienes y servicios y, por lo tanto,
cambian el precio de mercado de esos servicios.
Glosario 365
del programa. Suelen emprenderse para probar la viabilidad de un programa nuevo.
Susresultados no son generalizables ms all del alcance de la evaluacin.
Evaluacin. Valoracin peridica y objetiva de un proyecto, un programa o una
poltica planicados, en curso o nalizados. Las evaluaciones se utilizan para
responder preguntas especcas, a menudo relacionadas con el diseo, la implemen-
tacin o los resultados.
Evaluacin de impacto. Evaluacin que intenta establecer un vnculo causal entre
un programa o intervencin y un conjunto de resultados. Una evaluacin de impacto
procura responder a la pregunta: cul es el impacto (o efecto causal) de un programa
en un resultado de inters?
Evaluacin de proceso. Evaluacin que se centra en cmo se implementa y
funciona un programa, y que evala si se corresponde con su diseo original y docu-
menta su desarrollo y funcionamiento. Comprese con evaluacin de impacto.
Evaluacin prospectiva. Evaluaciones diseadas y aplicadas antes de que se imple-
mente un programa. Las evaluaciones prospectivas estn incorporadas en los planes
de implementacin del programa. Comprese con evaluacin retrospectiva.
Evaluacin retrospectiva. Evaluacin diseada despus de que se ha implemen-
tado un programa (ex post). Comprese con evaluacin prospectiva.
Experimento de mecanismo. Evaluacin de impacto que prueba un mecanismo
causal particular dentro de la teora del cambio de un programa, en lugar de probar el
efecto causal (impacto) del programa como un todo.
Factor invariante en el tiempo. Factor que no vara a lo largo del tiempo; es
constante.
Factor variante en el tiempo. Factor que vara a lo largo del tiempo.
Falta de rango comn. Cuando se utiliza el mtodo de pareamiento, la falta de
rango comn es una falta de superposicin entre los puntajes de propensin del grupo
de tratamiento, o inscrito, y los del grupo de no inscritos.
Falta de respuesta. Se produce cuando faltan datos o los datos son incompletos
para algunas unidades de la muestra. La falta de respuesta de la unidad surge cuando
no hay informacin disponible para algunas unidades de la muestra, es decir, cuando
la muestra real es diferente de la muestra planicada. Una forma de falta de respuesta
a nivel de la unidad es el desgaste. La falta de respuesta de una entrada se produce
cuando los datos son incompletos para algunas unidades de la muestra en un
determinado momento del tiempo. La falta de respuesta puede generar sesgos en los
resultados de una evaluacin si est asociada con la condicin de tratamiento.
Falta de respuesta de la unidad. Surge cuando no hay informacin disponible
para un subconjunto de unidades; es decir, cuando la muestra real es diferente de la
muestra planicada.
Falta de respuesta de una entrada. Ocurre cuando los datos son incompletos
para algunas unidades de la muestra.
Glosario 367
Junta de revisin institucional (JRI). Comit nombrado para examinar, aprobar y
monitorear la investigacin con sujetos humanos. Tambin conocido como Comit
de tica independiente o Junta de revisin tica.
Lnea de base. Situacin previa a una intervencin, con respecto a la cual se puede
valorar el progreso o se pueden hacer comparaciones. La lnea de base se recopila en
forma previa a la implementacin de un programa o poltica para observar la
situacin antes. La disponibilidad de datos de lnea de base es fundamental para
documentar el equilibrio en las caractersticas anteriores al programa entre los
grupos de tratamiento y de comparacin. Los datos de lnea de base son necesarios
para algunos diseos cuasi experimentales.
Marco muestral. Lista exhaustiva de las unidades de la poblacin de inters. Se
requiere un marco muestral adecuado para asegurar que las conclusiones a las que se
arribe a partir del anlisis de una muestra se puedan generalizar a toda la poblacin.
Las diferencias entre el marco muestral y la poblacin de inters crea un sesgo de
cobertura. Ante la presencia de dicho sesgo, los resultados de la muestra no tienen
validez externa para toda la poblacin de inters.
Mtodo cuasi experimental. Mtodos de evaluacin de impacto que no dependen de
la asignacin aleatoria del tratamiento. Las diferencias en diferencias, el diseo de
regresin discontinua y el pareamiento son ejemplos de mtodos cuasi experimentales.
Mtodo de control sinttico. Un mtodo de pareamiento especco que permite
estimar el impacto en contextos donde una nica unidad (como un pas, una empresa
o un hospital) es objeto de una intervencin o es expuesto a un suceso. En lugar de
comparar esta unidad tratada con un grupo de unidades no tratadas, el mtodo
utiliza informacin sobre las caractersticas de la unidad tratada y las unidades no
tratadas para construir una unidad de comparacin sinttica o articial, ponderando
cada unidad no tratada de tal manera que la unidad de comparacin sinttica se
parezca todo lo posible a la unidad tratada. Esto requiere una larga serie de observa-
ciones a lo largo del tiempo, tanto de las caractersticas de la unidad tratada como de
las unidades no tratadas. Esta combinacin de unidades de comparacin en una
unidad sinttica proporciona una mejor comparacin para la unidad tratada que
cualquier unidad no tratada individualmente.
Mtodos mixtos. Enfoque analtico que combina datos cuantitativos y cualitativos.
Minera de datos. Prctica de manipular los datos en busca de resultados concretos.
Monitoreo. Proceso continuo de recopilar y analizar informacin para evaluar el
desempeo de un proyecto, un programa o una poltica. El monitoreo suele hacer un
seguimiento de los insumos, actividades y productos, aunque ocasionalmente tambin
incluye los resultados. Se utiliza para fundamentar la gestin y las decisiones diarias.
Tambin se puede emplear para hacer un seguimiento del desempeo en relacin
con los resultados previstos, establecer comparaciones entre programas y analizar
las tendencias a lo largo del tiempo.
Muestra aleatoria. Muestra extrada a partir de un muestreo probabilstico, por lo
cual cada unidad en el marco muestral tiene una probabilidad conocida de ser
extrada. Seleccionar una muestra aleatoria es la mejor manera de evitar una muestra
Glosario 369
potencia son 0,8 y 0,9. Los niveles altos de potencia son ms conservadores, lo que
signica que hay una baja probabilidad de no detectar los impactos reales del
programa.
Potencia estadstica. La potencia de una prueba estadstica es la probabilidad de
que la prueba rechace la hiptesis nula cuando la hiptesis alternativa es verdadera
(es decir, que no se cometer un error de tipo II). A medida que la potencia aumenta,
la probabilidad de un error de tipo II disminuye. La probabilidad de un error de tipo
II se denomina tasa negativa falsa (). Por lo tanto, la potencia es igual a 1 - .
Producto. Productos, bienes y servicios tangibles producidos (suministrados)
directamente por las actividades de un programa. La generacin de productos est
directamente bajo el control del organismo ejecutor del programa. El uso de los
productos por parte de los beneciarios contribuye a cambios en los resultados.
Promocin aleatoria. Mtodo de variables instrumentales para estimar los impac-
tos de un programa. El mtodo asigna de forma aleatoria a un subgrupo de unidades
una promocin, o incentivo, para participar en el programa. La promocin aleatoria
busca aumentar la participacin voluntaria en un programa en una submuestra de la
poblacin seleccionada aleatoriamente. La promocin puede adoptar la forma de un
incentivo, estmulo o informacin adicional que motiva a las unidades a inscribirse
en el programa, sin inuir directamente en el resultado de inters. De esta manera, el
programa puede quedar abierto a todas las unidades elegibles.
Prueba de placebo. Prueba falsicada que se utiliza para evaluar si los supuestos
de un mtodo se mantienen. Por ejemplo, cuando se aplica el mtodo de diferencias
en diferencias, se puede implementar una prueba de placebo utilizando un grupo de
tratamiento falso o un resultado falso, es decir: un grupo o resultado que se sabe que
no se ve afectado por el programa. Las pruebas de placebo no pueden conrmar que
los supuestos sean vlidos, pero pueden poner de maniesto los casos en que los
supuestos no se sostienen.
Prueba de signicancia. Prueba de si la hiptesis alternativa alcanza el nivel
predeterminado de signicancia con el n de que esta se acepte de preferencia a la
hiptesis nula. Si una prueba de signicancia da un valor p menor que el nivel de
signicancia estadstica (), la hiptesis nula es rechazada.
Puntaje de propensin. En el contexto de la evaluacin de impacto, el puntaje de
propensin es la probabilidad de que una unidad participe en el programa sobre la
base de las caractersticas observables. Esta puntuacin es un nmero real entre 0 y
1 que resume la inuencia de todas las caractersticas observables en la probabilidad
de inscribirse en el programa.
Resultado. Resultado de inters que se mide a nivel de los beneciarios del pro-
grama. Resultados que deben alcanzarse una vez que la poblacin beneciaria utilice
los productos del proyecto. Los resultados no estn directamente bajo el control de
un organismo ejecutor del programa. En ellos inuye tanto la implementacin de un
programa (las actividades y productos que genera) como las respuestas de las conduc-
tas de los beneciarios expuestos a ese programa (el uso que los beneciarios hacen
de los benecios a los que estn expuestos). Un resultado puede ser intermedio o
Glosario 371
Tratamiento. Vase intervencin.
Tratamiento en los tratados (TOT, por sus siglas en ingls). Las estimaciones
TOT miden la diferencia en los resultados entre las unidades que en efecto reciben el
tratamiento y el grupo de comparacin.
Unidad. Persona, hogar, comunidad, empresa, escuela, hospital u otra unidad de
observacin que pueda ser objeto de un programa o verse afectada por l.
Validez externa. Una evaluacin es externamente vlida si la muestra de la evalua-
cin representa con precisin a la poblacin de unidades elegibles. Los resultados de
la evaluacin luego se pueden generalizar a la poblacin de unidades elegibles.
Estadsticamente, para que una evaluacin de impacto sea externamente vlida, la
muestra de la evaluacin debe ser representativa de la poblacin de inters. Vase
tambin validez interna.
Validez interna. Una evaluacin es internamente vlida si proporciona una
estimacin precisa del contrafactual mediante un grupo de comparacin vlido.
Variable. En la terminologa estadstica, se trata de un smbolo que representa un
valor que puede variar.
Variable dependiente. Normalmente, es la variable de resultado. Se trata de la
variable que hay que explicar, por oposicin a las variables explicativas.
Variable explicativa. Tambin conocida como variable independiente. Se trata de
una variable utilizada en el lado derecho de una regresin para ayudar a explicar la
variable dependiente en el lado izquierdo de la regresin.
Variable instrumental (VI). Tambin conocida como instrumento. Se basa en el uso
de una fuente externa de variacin para determinar la probabilidad de participacin
en el programa cuando la participacin en el mismo est relacionada con los resulta-
dos potenciales. El instrumento se encuentra fuera del control de los participantes y
no tiene relacin con las caractersticas de los mismos.
Variables no observadas. Se trata de caractersticas no observables. Pueden
incluir particularidades como la motivacin, las preferencias u otros rasgos de la
personalidad que son difciles de medir.