Tamaño de La Muestra para Evaluaciones de Impacto - Banco Mundial

Planificacin del tamao de la muestra para las evaluaciones de impactos
David Evans, Banco Mundial
Basada en transparencias de Esther Duflo (J-PAL) y Jed Friedman (Banco Mundial)
REGIONAL IMPACT EVALUATION WORKSHOP Evaluating the Impact of Development Programs: Turning Promises into Evidence
Lima, Enero 2009
El tamao de la muestra para las evaluaciones de impactos
Pregunta general De qu tamao tiene que ser la muestra para detectar un impacto de cierto tamao?
Qu quiere decir detectar aqui? La diferencia es debida al programa (y no al ruido)
La aleatorizacin quita los sesgos pero no quita el ruido: Funciona por la ley de los grandes nmeros Qu tan grande tiene que ser la muestra?
Qu tan grande?
2 personas seleccionadas de una forma aleatoria?

T C
10 personas?
C
Muchas personas! Cuntas son muchas?

C
Organizacin bsica
Al final del experimento, comparamos el resultado de inters en los grupos de tratamiento y de control
Nos interesa la diferencia:

Promedio del grupo de tratamiento Promedio del grupo control _ Tamao del efecto
Por ejemplo
Ingreso promedio de hogares que reciben CCTs Ingreso promedio de hogares que no reciben CCTs Tamao del efecto
La estimacin
No tenemos suficiente dinero como para observar toda los hogares sino una muestra (ni lo tenemos que hacer).
En cada hogar de la muestra, hay cierto nivel de ingreso. Puede estar ms cerca o ms lejos del promedio de toda la poblacin, como funcin de los otros factores que afectan el ingreso.
Inferimos el ingreso promedio en la poblacin utilizando el promedio en la muestra.
Si tenemos muy pocos hogares, los promedios estarn imprecisos. Si no vemos diferencias entre el promedio del grupo de tratamiento y de control, no sabemos si no hay efecto o si no hay potencia de detectar el efecto.
La variabilidad en el resultado que medimos
Si el resultado vara mucho dentro del grupo de tratamiento y de control, ser difcil decir si fue el tratamiento que lo cambi
8 7 6 5 4 3 2 1 0
ue al v 33 37 41 45 49 53 57 61
Number
Frequency
mean 50 mean 60
65
69
73
77
81
85
89
La variabilidad en el resultado que medimos
Si el resultado vara poco dentro de los grupos, es ms fcil decir que fue el tratamiento
25 20 15 10 5 0 33 37 41 45 49 53 57 61 65 69 73 77 81 85 value 89
Number
mean 50 mean 60
Frequency
El error estndar
El error estndar de la estimacin en la muestra capta el tamao de la muestra y la variabilidad del resultado
con una muestra pequea
con un resultado muy variable
Un intervalo de confianza de 95% para un efecto nos dice que, para 95% de las muestras que podramos sacar de la misma poblacin, el efecto estimado caera en este intrvalo.
Intervalo de confianza = efecto 2 errores estndares
Docimasia de Hiptesis
A menudo nos interesa probar el hiptesis que el tamao del efecto es igual a cero (o sea, mi programa no tiene ningn efecto? esperamos que no!)
Queremos probar:
H o : Efecto = 0
Contra:
H a : Efecto 0
Dos tipos de errores - I
Primer tipo de error: Concluimos que hay un efecto cuando en verdad no hay efecto.
El nivel de la prueba es la probabilidad que falsamente concluir que el programa tiene un efecto cuando en verdad no lo tiene. Asi que con un nivel de 5%, podemos tener confianza de 95% en la conclusin que el programa tuvo un efecto
Para la poltica, queremos tener mucha confianza en el impacto estimado: asi que ponemos el nivel bajo.
Niveles comunes: 5%, 10%, 1%
La relacin con intrvalos de confianza
Si cero no est en el intrvalo de 95% del tamao del efecto, podemos tener 95% certeza que el efecto no es cero (asi que hay un efecto).
Asi que la regla general es que si el tamao del efecto es ms del doble del error estandar, puede concluir con ms de 95% certeza que el programa tuvo un efecto.
Dos tipos de errores - II
Segundo tipo de error: no piensas que el programa no tuvo ningn efecto cuando en verdad tuvo efecto.
La potencia de la prueba es la probabilidad de encontrar un efecto en el experimento si en verdad hay un efecto: ms potencia es mejor porque es ms probable que encuentre un efecto)
La potencia es una herramienta de planificacin. Nos dice la probabilidad de que vayamos a identificar un efecto significante con dado tamao de muestra y de efecto.
El clculo de la potencia
Cuando planea una evaluacin, con unas investigaciones preliminarias, podemos calcular la mnima muestra necesaria para:
Poner a prueba un hiptesis: el efecto del programa fue cero o no cero
Con un nivel especificado de antemano (p ej 5%)
Con un tamao de efecto especificado de antemano (lo que piensas que el programa har)
Para lograr cierta potencia
Una potencia de 80% nos dice que, en 80% de los experimentos de este tamao de muestra conducidos con esta poblacin, si de verdad hay un efecto en la poblacin, podremos decir que hay un efect en nuestra muestra con el deseado nivel de confianza.
Ms grande la muestra, ms grande la potencia.
Niveles comunes de potencia: 80%, 90%
Ingredientes para el clculo de potencia en un estudio sencillo

Donde lo encontramos Esto a menudo se pone a 5% por convencin. Ms bajo que sea, ms grande tiene que estar la muestra. - De encuestas anteriores en contextos parecidos - Ms grande que sea la variabilidad, ms grande la muestra Qu es el efecto ms chico que motivara un cambio de poltica? Ms chico el tamao de efecto que queremos percibir, ms grande la muestra que requeremos
Lo que requerimos
Nivel de significancia
El promedio y la variabilidad del resultado en el grupo control
El tamao de efecto que queremos percibir
Escoger un tamao de efecto
Cul es el efecto ms pequeo que justificara la adopcin del programa:
Costo de este programa vs los beneficios que trae
Costo de este programa vs el uso alternativo del dinero
Si el efecto es ms chico que esto, para nosotros es lo mismo que ser cero: no nos interesa comprobar que un efecto muy pequeito es distinto que cero
Por otro lado, cualquier efecto ms grande que aquel efecto justificara adoptar el programa: queremos poder distinguirlo de cero
Peligro comn: escoger un tamao de efecto que sea demasiado optimstico el tamao de muestra puede ser demasiado bajo!
Los tamaos de efecto estandardizado
El tamao de efecto que puedes detectar con cierta muestra depende de que tan variables son los resultados. Ejemplo: Si todos los nios tienen niveles de aprendizaje muy parecidos sin el programa, un impacto muy pequeo ser fcil de detectar La deviacin estndar capta la variabilidad del resultado. Ms variabilidad una deviacin estndar ms alta El tamao de efecto estandardizado es el tamao del efecto dividido por la deviacin estndar del resultado d = tamao del efecto / deviacin estndar Tamaos comnes de efectos: d=0,20 (chico), d =0,40 (mediano), d =0,50 (grande)
Los factores del diseo que influyen la potencia
El nivel de la aleatorizacin
La disponilidad de una lnea de base (encuesta inicial)
La disponilidad de variables control y de estratificacin.
El tipo de hiptesis que se quiere poner a prueba
El nivel de aleatorizacin El diseo cluster
Los experimentos aleatorizados cluster son experimentos en que ciertas unidaded (o grupos) estn asignados a los grupos de tratamiento y control, no los individuos
Ejemplos: Pueblos Dispensas de salud Escuelas Familia
Tranferencias monetarias condicionales (CCTs) Distribucin de mosquiteros Tratamiento por malaria
Suplementacin con hierro
Razones por adoptar la aleatorizacin cluster
La necesidad de minimizar o quitar la contaminacin
Ejemplo: En el program de quitar los parsitos, se escoga las escuelas porque los parsitos son contagiosos
La viabilidad
Ejemplo: El programa PROGRESA no hubiera sido posible polticamente si unas familias pobres participaron y otras no en el mismo pueblo.
La nica posibilidad razonable
Ejemplo: Cualquier intervencin que afecta una escuela entera, como el entrenamiento de profesores.
El impacto de clustering
Los resultados para todos los individuos de un grupo pueden estar correlacionados
Todos de un pueblo reciben la misma lluvia para su maiz Todos los pacientes tienen el mismo mdico Todos los estudiantes tienen el mismo director de escuela El programa afecta todos los estudiantes a la vez Los miembos de un pueblo se relacionan de da en da
El tamao de la muestra tiene que ser modificado por esta correlacin Ms
Mayor correlacin entre los resultados necesidad de ampliar la muestra
Ejemplo del efecto de clustering
Nmero de pueblos, para potencia de 0.80
____________________________________
Correlacin Hogares en cada pueblo Intra-pueblo 10 50 100 200 0.00 23 7 5 4 0.02 25 10 8 8 0.05 30 16 15 13 0.10 40 25 23 22 _________________________________________
Implicaciones
Es sumamente importante aleatorizar un nmero adecuado de grupos
El nmero de individuos en los grupos importa menos que el nmero de grupos
La ley de los grandes nmeros aplica solo cuando el numero de grupos aleatorizados aumenta
No se puede aleatorizar al nivel del distrito con un distrito de tratamiento y uno de control! [even with 2,000 hh per district or 10 I 100 vs 100 | 10]
La disponilidad de variables control y de estratificacin.
Disponibilidad de una lnea de base
Una lnea de base:
Se puede verificar si los grupos de tratamiento y control eran parecidos o distintos antes del tratamiento Se puede reducir el tamao de la muestra, pero requiere que haga una encuesta antes de comenzar el tratamiento: el costo de la evaluacin y el del tratamiento Se puede usar para estratificar y formar sub-grupos
Para computar potencia con una lnea de base:
Necesitas saber la correlacin entre dos medidas subsiguientes del resultado (p ej: el consumo medido en dos aos). Ms grande la correlacin, ms se aumenta la potencia. Hay ganancias muy grandes para resultados muy continuos como PMO.
La disponilidad de variables control y de estratificacin
Variables Control
Si tenemos ms variables pertinentes (p. ej. poblacin del pueblo, el distrito del pueblo), podemos controlar por su efecto
Lo que importa para la potencia es la variacin que queda despus de controlar por estas variables
Si los variables control explican mucha de la variabilidad, la precisin aumenta y la muestra requerida baja.
Advertencia: las variables control solo pueden incluir las variables no influidas por el tratamento: las que fueron coleccionadas antes del tratamiento.
La muestras estratificadas
La estratificacin: crea BLOQUES segn los variables control y aleatoriza el tratamiento entre cada bloque La estratificacin asegura que los grupos de tratamiento y de control estn balanceados con respecto a aquellas variables control. Reduce la variabilidad por dos razones:
Reduce la variabilidad del resultado de inters en cada estrato La correlacin de individuos dentro de grupos.
Ejemplo: si quiere estratificar por distrito para un programa de agricultura
Se controla por condiciones climticas El efecto comn dentro de cada distrito desaparece.
El nivel del aleatorizacin
La disponilidad de una lnea de base
La disponilidad de variables control y de estratificacin
El hiptesis que se pone a prueba
Le interesa la diferencia entre dos tratamientos adems de la diferencia entre tratamiento y control? Le interesa la interaccin entre los tratamientos? Le interesa poner a prueba si el efecto es distinto entre sub-poblaciones distintas? El diseo solo incluye conformidad parcial con el tratamiento?
Para recordar!
El nmero de grupos importa much ms que el nmero de individuos
Escuelas vs estudiantes, pueblos vs hogares

nivel
Dos tipos de errores
Tipo I: Piensas que hay efecto cuando no lo hay Tipo II: Piensas que no hay efecto cuando lo hay potencia
Evitar los errores requiere una muestra suficiente el clculo de la potencia
Los clculos de potencia usando el software grtis Optimal Design
Escoge Power v. number of clusters (potencia vs nmero de grupos) en el men clustered randomized trials (pruebas aleatorizadas y agrupadas)
http://sitemaker.umich.edu/group-based/optimal_design_software
Tamao de cada grupos
Escoge cluster size (tamao de grupo)
Escoge el nivel de significancia, el efecto de tratemento, y la correlacin
Escoge a: el nivel
Normalmente se escoge 0,05
Escoge d:
Se puede experimentar con 0,20
Escoge la correlacin intra-clase (rho) Se obtiene el grfico siguiente que muestra la potencia como funcin del tamao de muestra
La potencia y el tamao de la muestra
Para recordar!
El nmero de grupos importa much ms que el nmero de individuos
Escuelas vs estudiantes, pueblos vs hogares

nivel
Dos tipos de errores
Tipo I: Piensas que hay efecto cuando no lo hay Tipo II: Piensas que no hay efecto cuando lo hay potencia
Evitar los errores requiere una muestra suficiente el clculo de la potencia
Conclusiones: El clculo de potencia en prctica
Los clculos de potencia requieren varias conjeturas.
A veces no tenemos toda la informacin para hacerlos perfectamente
Mientras tanto, es importante hacer lo mejor posible:
Evitar la iniciacin de estudios que no tendrn ninguna potencia estadstica: desperdicio de esfuerzo y de dinero Dedica los recursos apropriados a los estudios que decide conducir (pero no demasiados recursos).

Tamaño de La Muestra para Evaluaciones de Impacto - Banco Mundial

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Tamaño de La Muestra para Evaluaciones de Impacto - Banco Mundial

Transféré par

Droits d'auteur :

Formats disponibles

Planificacin del tamao de la muestra para las evaluaciones de impactos

David Evans, Banco Mundial

Basada en transparencias de Esther Duflo (J-PAL) y Jed Friedman (Banco Mundial)

Lima, Enero 2009

El tamao de la muestra para las evaluaciones de impactos

Qu quiere decir detectar aqui? La diferencia es debida al programa (y no al ruido)

2 personas seleccionadas de una forma aleatoria?

Muchas personas! Cuntas son muchas?

Nos interesa la diferencia:

Inferimos el ingreso promedio en la poblacin utilizando el promedio en la muestra.

La variabilidad en el resultado que medimos

La variabilidad en el resultado que medimos

con una muestra pequea

con un resultado muy variable

Intervalo de confianza = efecto 2 errores estndares

Dos tipos de errores - I

Niveles comunes: 5%, 10%, 1%

La relacin con intrvalos de confianza

Dos tipos de errores - II

Poner a prueba un hiptesis: el efecto del programa fue cero o no cero

Con un nivel especificado de antemano (p ej 5%)

Para lograr cierta potencia

Ms grande la muestra, ms grande la potencia.

Niveles comunes de potencia: 80%, 90%

Ingredientes para el clculo de potencia en un estudio sencillo

El promedio y la variabilidad del resultado en el grupo control

El tamao de efecto que queremos percibir

Escoger un tamao de efecto

Cul es el efecto ms pequeo que justificara la adopcin del programa:

Costo de este programa vs los beneficios que trae

Costo de este programa vs el uso alternativo del dinero

Los tamaos de efecto estandardizado

Los factores del diseo que influyen la potencia

La disponilidad de una lnea de base (encuesta inicial)

La disponilidad de variables control y de estratificacin.

El tipo de hiptesis que se quiere poner a prueba

El nivel de aleatorizacin El diseo cluster

Ejemplos: Pueblos Dispensas de salud Escuelas Familia

Tranferencias monetarias condicionales (CCTs) Distribucin de mosquiteros Tratamiento por malaria

Suplementacin con hierro

Razones por adoptar la aleatorizacin cluster

La necesidad de minimizar o quitar la contaminacin

La nica posibilidad razonable

El tamao de la muestra tiene que ser modificado por esta correlacin Ms

Mayor correlacin entre los resultados necesidad de ampliar la muestra

Ejemplo del efecto de clustering

Nmero de pueblos, para potencia de 0.80

Es sumamente importante aleatorizar un nmero adecuado de grupos

El nmero de individuos en los grupos importa menos que el nmero de grupos

Los factores del diseo que influyen la potencia

La disponilidad de una lnea de base (encuesta inicial)

La disponilidad de variables control y de estratificacin.

El tipo de hiptesis que se quiere poner a prueba

Disponibilidad de una lnea de base

Una lnea de base:

Para computar potencia con una lnea de base:

Los factores del diseo que influyen la potencia

La disponilidad de una lnea de base (encuesta inicial)

La disponilidad de variables control y de estratificacin

El tipo de hiptesis que se quiere poner a prueba

Ejemplo: si quiere estratificar por distrito para un programa de agricultura

Los factores del diseo que influyen la potencia

El nivel del aleatorizacin