Académique Documents
Professionnel Documents
Culture Documents
dimpact
en pratique
BANQUE MONDIALE
Lvaluation
dimpact
en pratique
Lvaluation
dimpact
en pratique
Paul J. Gertler, Sebastian Martinez,
Patrick Premand, Laura B. Rawlings,
Christel M. J. Vermeersch
BANQUE MONDIALE
xiii
3
7
8
10
11
13
14
15
17
18
21
22
22
24
27
27
29
30
30
31
33
Infrence causale
Estimation du contrefactuel
33
36
v
40
47
49
50
64
66
79
80
81
82
84
95
98
102
103
104
104
105
Chapitre 7. Appariement
107
111
113
114
115
116
vi
86
89
91
93
93
117
119
120
123
Considrations supplmentaires
Un plan de rechange pour votre valuation
Note
Rfrences
125
127
127
128
129
130
132
137
137
139
143
143
153
154
158
161
169
169
171
171
175
192
195
197
199
199
201
204
204
207
209
209
vii
211
211
219
221
222
223
Note
Rfrences
228
228
Glossaire
229
Encadrs
1.1
1.2
1.3
1.4
2.1
3.1
4.1
4.2
4.3
5.1
5.2
5.3
6.1
7.1
7.2
8.1
8.2
8.3
viii
9.1
9.2
10.1
12.1
13.1
13.2
13.3
13.4
135
136
152
208
212
213
216
221
Figures
2.1
2.2
3.1
3.2
3.3
4.1
4.2
4.3
4.4
4.5
4.6
4.7
4.8
4.9
5.1
5.2
5.3
5.4
5.5
25
26
37
39
41
52
54
57
58
61
67
67
74
75
83
84
85
86
87
ix
5.6
6.1
6.2
7.1
7.2
8.1
9.1
9.2
9.3
P3.1
11.1
11.2
14.1
88
97
100
108
110
125
131
133
134
141
177
193
227
Tableaux
2.1
3.1
3.2
3.3
3.4
4.1
4.2
4.3
4.4
4.5
5.1
28
44
44
46
47
62
63
63
76
77
88
6.1
6.2
6.3
7.1
7.2
7.3
10.1
10.2
10.3
10.4
10.5
11.1
11.2
11.3
11.4
11.5
11.6
11.7
Double diffrence
Cas 6 Impact du PSAM selon la mthode de
la double diffrence (comparaison de moyennes)
Cas 6 Impact du PSAM selon la mthode de
la double diffrence (analyse de rgression)
Estimation du score de propension sur la base
des caractristiques observes
Cas 7 Impact du PSAM selon la mthode dappariement
(comparaison des moyennes)
Cas 7 Impact du PSAM selon la mthode dappariement
(analyse de rgression)
Relations entre les rgles oprationnelles dun programme
et les mthodes dvaluation dimpact
Cots dvaluations dimpact de projets soutenus
par la Banque mondiale
Rpartition des cots pour un chantillon de projets soutenus
par la Banque mondiale
Feuille de calcul pour lestimation du cot dune valuation
dimpact
Budget dune valuation dimpact
Exemples de grappes
Taille de lchantillon ncessaire selon les diffrents effets
minimums dtectables (baisse des dpenses de sant
des mnages), puissance = 0,9, sans grappe
Taille de lchantillon ncessaire selon les diffrents effets
minimums dtectables (baisse des dpenses de sant
des mnages), puissance = 0,8, sans grappe
Taille de lchantillon ncessaire pour dtecter diffrents
effets minimum dsirs (hausse du taux dhospitalisation),
puissance = 0,9, sans grappe
Taille de lchantillon ncessaire pour diffrents effets
minimums dtectables (baisse des dpenses de sant
des mnages), puissance = 0,9, 100 grappes maximum
Taille de lchantillon ncessaire pour diffrents effets
minimums dtectables (baisse des dpenses de sant
des mnages), puissance = 0,8, 100 grappes maximum
Taille de lchantillon ncessaire pour dtecter un impact
minimum de deux dollars pour diffrents nombres de grappes,
puissance = 0,9
98
102
102
111
112
112
148
161
162
166
167
181
186
186
187
190
191
191
xi
PRFACE
xiii
xiv
Prface
xv
Rfrences
Baker, Judy. 2000. Evaluating the Impact of Development Projects on Poverty.
Washington DC : Banque mondiale.
Duo Esther, Rachel Glennerster et Michael Kremer. 2007. Using Randomization
in Development Economics Research: A Toolkit. Document de travail du
CEPR no 6059. Center for Economic Policy Research, Londres, Royaume-Uni.
Duo Esther et Michael Kremer. 2008. Use of Randomization in the Evaluation
of Development Effectiveness. In Evaluating Development Effectiveness, vol. 7.
Washington, DC : Banque mondiale.
Khandker, Shahidur R., Gayatri B. Koolwal et Hussain Samad. 2009. Handbook on
Quantitative Methods of Program Evaluation. Washington DC : Banque mondiale.
Leeuw, Frans et Jos Vaessen. 2009. Impact Evaluations and Development. NONIE
Guidance on Impact Evaluation. Washington DC : NONIE et Banque mondiale.
Ravallion, Martin. 2001. The Mystery of the Vanishing Benets: Ms. Speedy
Analysts Introduction to Evaluation. tude conomique de la Banque mondiale
15 (1) : 11540.
. 2008. Evaluating Anti-Poverty Programs. In Handbook of Development
Economics, vol, 4., d. Paul Schultz et John Strauss. Amsterdam :
Hollande-Septentrionale
. 2009. Evaluation in the Practice of Development. World Bank Research
Observer 24 (1) : 2953.
xvi
Partie 1
INTRODUCTION
LVALUATION DIMPACT
CHAPITRE 1
Pourquoi valuer?
Les politiques et les programmes de dveloppement sont gnralement conus pour
amliorer des indicateurs de rsultats, par exemple pour augmenter les revenus,
faciliter lapprentissage ou faire reculer la maladie. Savoir si les changements esprs
se sont effectivement produits est une question de politique publique importante, et
pourtant rarement considre. Le plus souvent, les responsables de programme et
les dcideurs mettent laccent sur le contrle et la mesure des intrants et des produits immdiats (par exemple le montant dargent dpens et la quantit de livres
distribus) plutt que sur la question de savoir si les programmes ont atteint leurs
objectifs en termes damlioration du bien-tre des bnciaires.
Source : Behrman et Hoddinott 2001 ; Gertler 2004 ; Fiszbein et Schady 2009 ; Levy et Rodriguez 2005 ;
Schultz 2004 ; Skoufias et McClafferty 2001.
Pourquoi valuer ?
Lencadr 1.2 montre, quant lui, comment lvaluation dimpact a men lamlioration de lallocation des ressources du gouvernement indonsien en permettant didentier les politiques les plus efficaces pour rduire le taux de fcondit.
Pourquoi valuer ?
Concept cl :
La question
fondamentale de
lvaluation dimpact
peut tre formule
ainsi : quel est limpact
(ou leffet causal) dun
programme sur un
rsultat donn ?
le verrons dans la partie 2, ce type dvaluation dimpact estime lefficacit du programme en comparant un groupe de traitement qui a bnci dun projet, dun programme ou dune politique avec un groupe de comparaison qui ny a pas particip.
Outre la rponse la question fondamentale dvaluation, les valuations peuvent
aussi servir mesurer lefficacit de diverses options de mise en uvre dun programme, autrement dit de rpondre la question suivante : lorsquun programme peut
tre mis en uvre de plusieurs manires, y en a-t-il une qui est plus efficace que les autres?
Dans ce type dvaluation, deux ou plusieurs options de concevoir un mme programme sont compares, de faon dterminer le meilleur moyen datteindre un
objectif particulier. Ces diffrentes options sont souvent appeles branches de traitement . Par exemple, quand la taille du bnce ncessaire pour rendre un programme
efficace nest pas connue (20 heures ou 80 heures de formation?), les valuations dimpact peuvent permettre destimer limpact relatif de traitements dintensits diffrentes (voir exemple de lencadr 1.3). Les valuations dimpact destines tester
diffrentes options de traitement incluent gnralement un groupe de traitement par
branche, ainsi quun groupe de comparaison pur qui, lui, nest pas soumis lintervention. Les valuations dimpact peuvent tre utiles pour tester des innovations ou
des alternatives de mise en uvre dun programme. Par exemple, il est possible de
mettre en uvre plusieurs formes de campagnes de sensibilisation an de dterminer
lapproche la plus efficace : un groupe est slectionn pour recevoir une campagne de
publipostage tandis que dautres groupes recevront des visites domicile.
Pourquoi valuer ?
10
tiera probablement que si elle permet de rpondre une nouvelle question de politique importante. Ce sera par exemple le cas si votre programme contient des
innovations importantes qui nont encore jamais t prouves.
Pour justier la mobilisation des ressources techniques et nancires ncessaires la ralisation dune valuation dimpact de qualit, le programme valuer
doit tre :
Novateur. Il permet de tester une nouvelle approche prometteuse.
Reproductible. Le programme peut tre largi et reproduit dans un autre contexte.
Stratgiquement pertinent. Le programme est une initiative phare ; il ncessite
des ressources importantes; il couvre ou couvrira un grand nombre de bnciaires; ou encore il permettrait de faire des conomies importantes.
Non test auparavant. Lefficacit du programme est mconnue soit au niveau international, soit dans un contexte particulier.
Inuent. Les rsultats du programme permettront dorienter des dcisions de politique cls.
Pourquoi valuer ?
Concept cl :
Lanalyse cot-bnfice
permet destimer les
bnfices totaux
esprs du programme
par rapport aux cots
totaux prvus.
Concept cl :
Lanalyse du rapport
cot-efficacit
compare la performance relative de deux
ou plusieurs
programmes ou
alternatives de
conception dun
programme atteindre
un mme rsultat.
11
luation dimpact et ne traite pas en dtail des questions relatives la collecte des
informations sur les cots ou lanalyse cot-bnce2. Il est toutefois primordial
de disposer des informations relatives aux cots du projet, du programme ou de la
politique qui fait lobjet de lvaluation. Lorsque des informations sur limpact et
les cots de divers programmes sont disponibles, le rapport cot-efficacit permet
de dterminer les investissements les plus rentables et dorienter ainsi les dcisions des responsables. Lencadr 1.4 illustre comment les valuations dimpact
peuvent servir dterminer les programmes les plus rentables et mieux allouer
les ressources.
Source : Kremer et Miguel 2004 ; Kremer, Moulin et Namunyu 2003 ; Poverty Action Lab 2005 ; Vermeersch et
Kremer 2005.
12
Pourquoi valuer ?
Concept cl :
Les valuations
prospectives sont
labores ds la
conception du
programme et font
partie intgrante de la
mise en uvre du
programme.
13
14
Pourquoi valuer ?
15
16
Notes
1. Voir Fiszbein et Schady, 2009, pour un aperu des programmes de TMC et le
rle inuent du programme Progresa/Oportunidades suite lvaluation
dimpact dont il a fait lobjet
Pourquoi valuer ?
17
2. Pour de plus amples informations sur lanalyse cot-bnce, voir Belli et al.
2001; Boardman et al. 2001 ; Brent 1996 ; ou Zerbe et Dively 1994.
Rfrences
Bamberger, Michael, Vijayendra Rao et Michael Woolcock 2010. Using Mixed
Methods in Monitoring and Evaluation: Experiences from International
Development. Document de travail consacr la recherche
sur les politiques 5245, Banque mondiale, Washington, DC.
Behrman, Jere R. et John Hoddinott. 2001. An Evaluation of the Impact of
PROGRESA on Pre-school Child Height. FCND Briefs 104, International
Food Policy Research Institute, Washington, DC.
Belli, Pedro, Jock Anderson, Howard Barnum, John Dixon et Jee-Peng Tan.
2001. Handbook of Economic Analysis of Investment Operations.
Washington DC : Banque mondiale.
Boardman, Anthony, Aidan Vining, David Greenberg et David Weimer. 2001.
Cost-Benet Analysis: Concepts and Practice. New Jersey: Prentice Hall.
Brent, Robert. 1996. Applied Cost-Benet Analysis. Angleterre : Edward Elgar.
Fiszbein, Ariel, et Norbert Schady. 2009. Conditional Cash Transfer, Reducing
Present and Future Poverty. World Bank Policy Research Report. Banque
mondiale, Washington, DC.
Gertler, Paul J. 2004. Do Conditional Cash Transfers Improve Child Health?
Evidence from PROGRESAs Control Randomized Experiment.
American Economic Review 94 (2) : 33641.
Gertler, Paul J. et John W. Molyneaux. 1994. How Economic Development
and Family Planning Programs Combined to Reduce Indonesian Fertility.
Demography 31 (1): 3363.
. 2000. The Impact of Targeted Family Planning Programs in Indonesia.
Population and Development Review 26 : 6185.
Imas, Linda G. M. et Ray C. Rist. 2009. The Road to Results: Designing
and Conducting Effective Development Evaluations. Washington DC :
Banque mondiale.
Kremer, Michael et Edward Miguel. 2004. Worms: Identifying Impacts on
Education and Health in the Presence of Treatment Externalities.
Econometrica 72 (1) : 159217.
Kremer, Michael, Sylvie Moulin et Robert Namunyu. 2003. Decentralization:
A Cautionary Tale. Poverty Action Lab Paper 10, Massachusetts Institute of
Technology, Cambridge, MA.
Levy, Santiago et Evelyne Rodrguez. 2005. Sin Herencia de Pobreza: El Programa
Progresa-Oportunidades de Mxico. Washington DC : Banque interamricaine
de dveloppement.
McKay, Harrison, Arlene McKay, Leonardo Siniestra, Hernando Gomez et
Pascuala Lloreda. 1978. Improving Cognitive Ability in Chronically Deprived
Children. Science 200 (21) : 27078.
18
Poverty Action Lab. 2005. Primary Education for All. Fighting Poverty:
What Works? N1 (automne) : n.p. http://www.povertyactionlab.org.
Rao, Vijayendra et Michael Woolcock. 2003. Integrating Qualitative and
Quantitative Approaches in Program Evaluation. In The Impact of Economic
Policies on Poverty and Income Distribution: Evaluation Techniques and Tools,
d. F. J. Bourguignon and L. Pereira da Silva, 16590. New York: Oxford
University Press.
Schultz, Paul. 2004. School Subsidies for the Poor: Evaluating the Mexican
Progresa Poverty Program. Journal of Development Economics 74 (1) :
199250.
Skouas, Emmanuel et Bonnie McClafferty. 2001. Is Progresa Working?
Summary of the Results of an Evaluation by IFPRI. Institut international
de recherche sur les politiques alimentaires, Washington, DC.
Vermeersch, Christel et Michael Kremer. 2005. School Meals, Educational
Achievement and School Competition: Evidence from a Randomized Evaluation.
Document de travail consacr la recherche sur les politiques 3523,
Banque mondiale, Washington, DC.
Zerbe, Richard et Dwight Dively. 1994. Benet Cost Analysis in Theory and
Practice. New York : Harper Collins Publishing.
Pourquoi valuer ?
19
CHAPITRE 2
21
Thories du changement
Une thorie du changement est une description de la manire dont une intervention
est cense produire les rsultats esprs. Elle dcrit la logique causale expliquant comment et pourquoi un projet, un programme ou une politique atteindra les rsultats
viss. Lexistence dune thorie du changement est fondamentale pour les valuations
dimpact tant donn limportance quelles portent aux relations de cause effet. La
thorie du changement est lune des premires tapes de la conception dune valuation, car elle contribue la formulation des questions de recherche.
Les thories du changement dcrivent une srie dvnements conduisant un
rsultat; elles noncent les conditions et les hypothses ncessaires pour que des
changements se produisent ; elles mettent en vidence la logique causale
sous-jacente au programme et inscrivent les interventions dans cette logique causale. Un travail conjoint entre les diverses parties prenantes pour dnir une thorie du changement est souvent utile pour clarier et amliorer llaboration du
programme. Ceci est particulirement important dans le cas des programmes qui
visent modier des comportements : les thories du changement peuvent aider
dcomposer les intrants et les activits constituant les interventions, les extrants
quelles produisent et les rsultats qui dcoulent des changements de comportement esprs des bnciaires.
Le dbut du processus de conception du programme constitue le meilleur
moment pour formuler une thorie du changement; les parties prenantes peuvent
alors se runir pour laborer une vision commune du programme, de ses objectifs
et des moyens mettre en uvre pour les atteindre. Les responsables peuvent
ensuite implmenter le programme sur la base dune comprhension commune de
son fonctionnement et de ses objectifs.
22
23
Chane de rsultats
Concept cl :
La chane de rsultats
tablit la squence
dintrants, dactivits et
dextrants contribuant
la ralisation des
rsultats intermdiaires
et finaux esprs.
24
Figure 2.1
INTRANTS
ACTIVITS
Ressources
mobilises
(financires,
humaines et
autres) pour
raliser les
activits.
Actions
entreprises
ou travaux
effectus pour
transformer
les intrants
en extrants.
Budgets,
personnel,
autres ressources
disponibles.
Ensemble
des activits
entreprises
pour produire
des biens
et des services.
EXTRANTS
RSULTATS
INTERMDIAIRES
Produits
rsultant de la
transformation
des intrants
en extrants.
Utilisation des
extrants par
la population
cible.
Biens et services
produits et fournis
sous le contrle
de lagence
responsable de
lexcution
du programme.
Hors du contrle
direct de lagence
responsable de
lexcution du
programme.
RSULTATS
FINAUX
Objectif
final du
programme.
Objectifs
long terme.
Changements
de rsultats
(facteurs divers).
Les hypothses et les risques : Les hypothses et les risques ne sont pas prsents
dans la gure 2.1. Ils comprennent toute information extraite de la littrature
existante qui est pertinente pour la thorie du changement propose, ainsi que
les hypothses sur lesquelles elle repose, des rfrences aux rsultats de programmes similaires, les risques qui pourraient remettre en cause les rsultats
esprs et toute stratgie mise en place pour attnuer ces risques.
Prenons lexemple du ministre de lducation dun pays A qui souhaite lancer
une nouvelle mthode denseignement des mathmatiques dans le cycle secondaire. Comme lillustre la gure 2.2, les intrants du programme se constituent du
personnel du ministre, des enseignants du secondaire, des moyens nanciers
allous au nouveau programme de mathmatiques et des locaux pour organiser
la formation des professeurs. Les activits comprennent la conception du nouveau programme de mathmatiques, la prparation dune formation pour les professeurs, la formation des professeurs ainsi que la commande, limpression et la
distribution des nouveaux manuels. Les extrants sont le nombre de professeurs
forms, le nombre de manuels distribus dans les classes et ladaptation des exa-
25
Figure 2.2
INTRANTS
Budget pour le
EXTRANTS
ACTIVITS
nouveau programme
de mathmatiques.
Personnel du
ministre de
lducation,
professeurs
du secondaire.
Locaux pour
la formation.
Conception
du nouveau
programme.
Formation
des professeurs.
Rdaction,
impression
et distribution
des nouveaux
manuels scolaires.
RSULTATS
INTERMDIAIRES
RSULTATS
FINAUX
5 000 professeurs
Augmentation du
Les enseignants
de mathmatiques
taux dachvement
se servent des
du secondaire forms.
du cycle secondaire.
manuels et suivent
le nouveau programme. Hausse des revenus.
100 000 manuels
distribus.
Hausse du
Les lves suivent
taux demploi.
le nouveau programme.
Meilleurs rsultats
aux examens de
mathmatiques.
26
Concept cl :
Un bon indicateur
est spcifique,
mesurable, attribuable,
raliste et cibl.
27
Il est important de dnir des indicateurs tout au long de la chane de rsultats sans se limiter aux rsultats, de manire pouvoir faire le suivi de toute la
logique causale du programme. Mme dans le cadre dune valuation dimpact,
il est essentiel dexaminer les indicateurs de mise en uvre des interventions
pour sassurer quelles ont t menes comme prvu, quelles ont touch les
bnciaires viss et quelles ont t ralises au moment opportun (voir Kusek
et Rist, 2004, ou Imas et Rist, 2009 pour plus dinformations sur la slection des
indicateurs de performance). Faute dindicateurs couvrant toute la chane des
rsultats, lvaluation dimpact risque de devenir une bote noire qui se limite
indiquer si les rsultats attendus se sont matrialiss ou pas sans pour autant
pouvoir expliquer pourquoi.
Outre la slection des indicateurs, il est galement important de dnir do
proviennent les donnes requises la mesure des indicateurs de performance.
Le tableau 2.1 rcapitule les lments de base dun plan de suivi et valuation ainsi
que les modalits suivre pour gnrer chacun des indicateurs de manire able
et opportune.
Tableau 2.1
lment
Description
Rsultats esprs
(rsultats et extrants)
Responsabilits
Ressources
Utilisation finale
Risques
28
29
Note
1. University of Wisconsin-Extension (2010) propose des informations dtailles
sur la manire darticuler une chane de rsultats, ainsi quune liste complte
de rfrences. Imas et Rist (2009) prsentent une revue plus complte des
thories du changement.
Rfrences
Cattaneo, Matias, Sebastian Galiani, Paul Gertler, Sebastian Martinez et Rocio
Titiunik. 2009. Housing, Health and Happiness. American Economic Journal :
Economic Policy 1 (1) : 75105.
Imas, Linda G. M. et Ray C. Rist. 2009. The Road to Results: Designing and Conducting
Effective Development Evaluations. Washington DC : Banque mondiale.
Kusek, Jody Zall et Ray C. Rist. 2004. Ten Steps to a Results-Based Monitoring
and Evaluation System. Washington DC : Banque mondiale.
PNUD (Programme des Nations Unies pour le dveloppement). 2009. Guide de la
planication, du suivi et de lvaluation axs sur les rsultats du dveloppement.
New York : PNUD.
University of Wisconsin-Extension. 2010. Enhancing Program Performance with
Logic Models. Cours en ligne. http://www.uwex.edu/ces/pdande/evaluation/
evallogicmodel.html.
30
Partie 2
COMMENT VALUER?
Maintenant que nous avons soulign les raisons dvaluer limpact des programmes et des politiques publiques, cette deuxime partie examine comment
procdent les valuations dimpact, les questions auxquelles elles rpondent,
les mthodes dvaluation disposition ainsi que les avantages et les inconvnients de chacune delles. Nous nous intressons notamment aux mthodes
de slection alatoire, au modle de discontinuit de la rgression, la double
diffrence et lappariement.
Comme lexpose la premire partie, une valuation dimpact vise tablir et
quantifier limpact dune intervention sur les rsultats qui intressent les analystes et les dcideurs politiques. Dans cette deuxime partie du manuel, nous
prsentons une tude de cas : le programme de subvention de lassurance
maladie (PSAM). Nous rpondons plusieurs reprises la mme question
concernant lvaluation dimpact du PSAM partir des mmes sources de donnes, mais en utilisant diffrentes mthodes qui fournissent des rponses diffrentes, parfois mme opposes. (Nous supposons ici que les donnes ont
t totalement dpures). Votre tche est didentifier les raisons pour lesquelles
les estimations dimpact du PSAM diffrent selon la mthode dvaluation retenue et de dterminer les rsultats que vous estimez suffisamment fiables pour
fournir des recommandations stratgiques de politiques publiques.
Le contexte de ltude de cas du PSAM est le suivant : les autorits entament
un programme de rformes du secteur de la sant de grande envergure dans le
but damliorer ltat de sant de la population. Lobjectif gnral de ces rformes est damliorer laccs aux services de sant et leur qualit dans les
rgions rurales pour atteindre un niveau similaire aux zones urbaines. Le PSAM
est un projet pilote novateur potentiellement fort coteux. Le programme subventionne le systme dassurance maladie pour quil couvre le cot des soins
de sant primaires et des mdicaments pour les mnages ruraux pauvres. Lobjectif principal du PSAM est de rduire le cot des soins de sant pour les mnages pauvres et, en dfinitive, damliorer les rsultats en matire de sant.
Les autorits envisagent dtendre le PSAM lensemble du pays. Cette dcision coterait des centaines de millions de dollars, mais les dcideurs craignent
que sans subvention, les mnages ruraux pauvres ne soient pas en mesure de
payer les soins de sant de base, ce qui aurait des consquences nfastes sur
leur tat de sant. Dans ce contexte, la question cl dvaluation est la suivante : quel est limpact du PSAM sur les dpenses en soins de sant la
charge des mnages et sur ltat de sant des familles pauvres ? La rponse
de telles questions permet dorienter les dcideurs dans leurs choix de politiques adopter et de programmes mettre en uvre. leur tour, ces programmes peuvent avoir un impact sur le bien-tre de millions de personnes
dans le monde. Les questions dvaluation dimpact sont donc particulirement
importantes, et cette partie du manuel passe en revue comment y rpondre de
manire rigoureuse.
CHAPITRE3
Infrence causale
et contrefactuel
Nous allons tout dabord examiner deux concepts essentiels pour raliser des valuations prcises et ables, savoir linfrence causale et le contrefactuel.
Infrence causale
La question fondamentale de lvaluation dimpact constitue essentiellement un
problme dinfrence causale. valuer limpact dun programme sur une srie de
rsultats revient valuer leffet causal du programme sur lesdits rsultats. La plupart des questions de politique invoquent des relations de cause effet: la formation des professeurs entrane-t-elle une amlioration des rsultats des lves aux
examens? Les programmes de transferts montaires conditionnels entranent-ils
une amlioration de ltat de sant des enfants ? Les programmes de formation
professionnelle entranent-ils une amlioration des revenus des bnciaires?
Mme si les questions qui abordent une relation de cause effet sont courantes,
il nest jamais facile dtablir quune relation est effectivement causale. Par exemple,
le simple fait dobserver que le revenu des bnciaires dun programme de formation professionnelle augmente ne suffit pas tablir un lien de causalit. Le revenu
dun bnciaire pourrait en effet avoir augment mme sil navait pas suivi le programme de formation grce, par exemple, ses propres efforts, lvolution des
conditions sur le march du travail ou tout autre facteur susceptible davoir un
impact sur le revenu travers le temps. Les valuations dimpact permettent dtablir
un lien de causalit en dmontrant empiriquement dans quelle mesure un pro33
34
Concept cl :
Le contrefactuel est
une estimation de
ce quaurait t le
rsultat (Y) pour
un bnficiaire
du programme
en labsence
du programme (P).
35
Estimation du contrefactuel
Pour illustrer lestimation du contrefactuel, nous allons prendre un exemple qui, bien
que sans importance sur le plan politique, nous permettra de mieux apprhender
cette notion cl. Conceptuellement, pour rsoudre le problme du contrefactuel,
36
Bnficiaire
Clone
X
6 bonbons
4 bonbons
Impact = 6 - 4 = 2 bonbons
37
Concept cl :
Un groupe de
comparaison valide
doit avoir les mmes
caractristiques que
le groupe de
participants au
programme ( groupe
de traitement ) la
seule diffrence que
les units du groupe
de comparaison
ne bnficient pas
du programme.
Concept cl :
Quand le groupe de
comparaison nest pas
valide, lestimation de
limpact du programme
ne sera pas valide non
plus : elle ne permettra
pas destimer limpact
causal rel du
programme. En
termes statistiques,
lestimation est
dite biaise .
38
identiques en labsence du programme. Il nest pas ncessaire que toutes les units
du groupe de traitement soient identiques toutes celles du groupe de comparaison,
mais en moyenne, les caractristiques des deux groupes doivent tre les mmes. Par
exemple, lge moyen dans le groupe de traitement doit tre le mme que lge moyen
dans le groupe de comparaison. En deuxime lieu, les deux groupes doivent ragir
de la mme manire au programme. Par exemple, le revenu des units du groupe de
traitement doit potentiellement augmenter la suite dun programme de formation
dans la mme mesure que celui des units du groupe de comparaison si celles-ci
avaient aussi reu le programme. En troisime lieu, les groupes de traitement et de
comparaison ne doivent pas tre exposs de manire diffrencie dautres interventions au cours de la priode dvaluation. Par exemple, si nous voulons valuer
limpact de loctroi supplmentaire dargent de poche sur la consommation de bonbons, le groupe de traitement ne doit pas avoir t invit se rendre au magasin de
bonbons plus de fois que le groupe de comparaison, car il deviendrait alors difficile
de distinguer les effets de laccs accru aux bonbons des effets de laugmentation du
montant dargent de poche.
Quand ces trois conditions sont runies, seul le programme peut expliquer les
diffrences de rsultat(Y) entre les deux groupes aprs sa mise en uvre. Ceci est
d au fait que la seule diffrence entre le groupe de traitement et le groupe de comparaison est que les membres du groupe de traitement bncient du programme,
mais pas les membres du groupe de comparaison. Quand les diffrences de rsultat
peuvent tre totalement attribues au programme, leffet causal du programme est
tabli. Ainsi, au lieu de sintresser uniquement limpact de loctroi supplmentaire dargent de poche Fulanito, il est possible danalyser limpact pour tout un
groupe denfants (gure 3.2). Si vous pouvez identier un autre groupe denfants
totalement similaire, la seule diffrence quils ne recevront pas dargent de poche
supplmentaire, votre estimation de limpact du programme sera alors la diffrence de consommation moyenne de bonbons entre les deux groupes. Par exemple,
si la consommation moyenne du groupe de traitement est de sixbonbons par enfant
et celle du groupe de comparaison de quatrebonbons, limpact moyen de loctroi
dargent de poche supplmentaire sur la consommation de bonbons est de deux.
Maintenant que nous avons dni ce quest un groupe de comparaison valide,
considrons les implications de mener une valuation sans un tel groupe. Intuitivement, un groupe de comparaison non valide est un groupe qui diffre du groupe
de traitement autrement que par la seule absence du traitement ltude. Ces
autres diffrences peuvent rendre lestimation dimpact invalide ou, en termes statistiques, biaise. En effet, en prsence dautres diffrences entre les groupes de
traitement et de comparaison, lestimation ne permettra pas de dterminer
limpact rel du programme, car elle confondra leffet du programme avec les effets
des autres diffrences.
Groupe de
comparaison
Moyenne Y = 6 bonbons
Moyenne Y = 4 bonbons
Impact = 6 - 4 = 2 bonbons
39
ligibles au programme, une partie dentre eux (disons 10%) peuvent dcider de ne
pas y participer (peut-tre parce quils ont dj une assurance par le biais de leur
travail, parce quils sont en bonne sant et ne pensent pas quils auront besoin de
soins lavenir ou pour toute autre raison). Dans cet exemple, 90% des mnages des
villages traits dcident de participer au programme et ont effectivement recours
aux services du programme. Dans ce cas, lestimateur IDT est obtenu en appliquant
la formule de base dvaluation dimpact lensemble des mnages auxquels le
programme a t propos, autrement dit tous les mnages des villages traits.
En revanche, lestimation TT serait obtenue en appliquant la formule de base dvaluation dimpact pour le sous-groupe des mnages qui dcident de participer au programme, en loccurrence 90% des mnages traits.
40
1,100
Diffrence observe
Contrefactuel C
Contrefactuel B
1,000
C?
= 100
Contrefactuel D
D?
Anne
T=0
(2007)
T=1
(2009)
41
42
Le PSAM reprsentera une part consquente du budget national sil est largi
lensemble du pays ( jusqu 1,5% du PIB selon certaines estimations). De plus, la
gestion dun programme de cette nature est trs complexe sur le plan administratif
et logistique. Il a donc t dcid au plus haut niveau de ltat de lancer le PSAM tout
dabord sous la forme dun programme pilote et de llargir progressivement en fonction des rsultats obtenus lors de la premire phase. partir des rsultats des analyses nancires et cot-bnce, la prsidente et les membres de son cabinet ont
annonc que pour tre considr comme viable et tre tendu tout le pays, le PSAM
devait rduire les dpenses de sant annuelles moyennes par habitant dau moins
neuf dollars par rapport ce quelles auraient t en labsence du programme, et ce
dans un dlai de deux ans.
Le PSAM sera mis en uvre dans 100 localits rurales au cours de la phase pilote.
Juste avant le lancement du programme, votre gouvernement engage une socit
pour mener une enqute de rfrence des 4959mnages que comptent ces villages.
Lenqute collecte des informations dtailles sur tous les mnages, y compris sur
leur composition, leurs actifs, laccs aux services de sant et les dpenses de sant
au cours de lanne coule. Peu aprs la conduite de cette enqute de rfrence, le
PSAM est lanc en fanfare dans 100 villages pilotes, accompagns dvnements
communautaires et de campagnes promotionnelles pour encourager les mnages
ligibles participer.
Sur les 4959 mnages de lchantillon de rfrence, 2907 sinscrivent au PSAM
au cours des deux premires annes du programme. En deux ans, le PSAM donne de
bons rsultats selon plusieurs indicateurs. Les taux de couverture sont levs et les
enqutes montrent que la plupart des mnages inscrits sont satisfaits du programme.
lissue de la priode de deux ans, une seconde ronde de donnes est collecte des
ns dvaluation auprs de lchantillon des 4 959 mnages1.
La prsidente et le ministre de la Sant vous chargent de superviser lvaluation
dimpact du PSAM et de formuler des recommandations quant lopportunit de
ltendre ou non lensemble du pays. Dans le cas prsent, vous devez rpondre la
question suivante: de combien le PSAM a-t-il rduit les dpenses de sant des mnages
ruraux pauvres? Les enjeux sont importants. Sil savre que le PSAM a permis de
rduire les dpenses de sant dau moins neuf dollars, il sera largi tout le pays.
Si, en revanche, lobjectif des neufdollars na pas t atteint, vous recommanderez de
ne pas tendre le programme.
Le premier expert en valuation que vous consultez soutient que pour estimer
limpact du PSAM, il faut dterminer le changement dans les dpenses de sant des
mnages inscrits au programme travers le temps. Selon le consultant, puisque le
PSAM couvre lensemble des dpenses de soins de sant primaires et des achats de
mdicaments, toute baisse des dpenses dans le temps peut tre attribue, pour lessentiel, au PSAM. En vous fondant uniquement sur le sous-groupe des mnages inscrits, vous estimez les dpenses moyennes de sant lors de lenqute de rfrence
puis deux ans aprs la mise en uvre du programme. Autrement dit, vous procdez
une valuation avant-aprs. Le tableau3.1 en prsente les rsultats.
43
Aprs
Avant
Diffrence
Stat. t
7,8
14,4
6,6
28,9
Vous remarquez que les mnages inscrits au PSAM voient leurs dpenses directes
de sant passer de 14,4 dollars avant lintroduction du PSAM 7,8 dollars deux
annes plus tard, soit une baisse de 6,6dollars (ou 45%) sur la priode. Comme le
montre la valeur de la statistique t, la diffrence entre les dpenses de sant avant et
aprs la mise en uvre du programme est statistiquement signicative, autrement dit
la probabilit que limpact estim soit statistiquement nul est trs faible.
Mme si la comparaison avant-aprs porte sur le mme groupe de mnages, vous
craignez que certains facteurs aient pu voluer au cours du temps et exercer un
impact sur les dpenses de sant. Par exemple, plusieurs interventions dans le
domaine de la sant ont eu lieu simultanment dans les villages concerns par le
programme pilote. Par ailleurs, il est possible que les dpenses des mnages aient t
affectes par la crise nancire qua rcemment connue le pays. Face ces craintes,
le consultant propose une analyse de rgression plus sophistique cense permettre
de tenir compte de tous ces facteurs externes. Les rsultats de cette analyse sont
prsents dans le tableau3.2.
La rgression linaire analyse comment les dpenses de sant varient selon une
variable binaire (0-1) pour laquelle le 0 correspond lobservation au moment de
lenqute de rfrence et le 1 lobservation au moment de lenqute de suivi.
La rgression linaire multivarie permet en plus de contrler pour ou de maintenir
constantes dautres caractristiques observes des mnages de lchantillon, par
exemple des indicateurs de fortune (actifs), la composition des mnages, etc. Vous
notez que la rgression linaire simple est quivalente la simple diffrence
avant-aprs constate pour les dpenses de sant (une rduction de 6,59 dollars).
En contrlant pour les autres facteurs dans vos donnes, vous obtenez un rsultat
semblable, savoir une baisse de 6,65dollars.
6,59**
(0,22)
6,65**
(0,22)
44
QUESTION 1
A. Au vu des rsultats pour le cas 1, le PSAM doit-il tre largi lchelle nationale ?
B. Cette analyse tient-elle compte de tous les facteurs qui peuvent influencer les
dpenses de sant au fil du temps ?
Concept cl :
Un biais de slection
apparait lorsque les
raisons pour lesquelles
une personne participe
un programme sont
corrles aux rsultats.
Ce biais se produit
gnralement lorsque
le groupe de
comparaison nest pas
ligible au programme
ou dcide de ne pas
y participer.
45
les dpenses de sant des mnages, facteur qui pourrait expliquer les changements
observs). Un autre consultant suggre quil serait plus appropri destimer le
contrefactuel partir de lenqute ralise aprs lintervention, cest--dire deux ans
aprs le lancement du programme. Le consultant fait remarquer, juste titre, que sur
les 4959 mnages de lchantillon de rfrence, seuls 2907 ont effectivement particip au programme. Autrement dit, environ 41% des mnages de lchantillon nont
pas t couverts par le PSAM. Il avance en outre que les mnages dune mme localit sont exposs la mme offre de soins et confronts aux mmes conditions conomiques. Selon lui, les rsultats mesurs aprs lintervention auprs du groupe non
inscrits au PSAM permettraient donc de tenir compte de nombreux facteurs contextuels qui touchent tous les mnages, quils soient ou non inscrits au programme.
Vous dcidez donc de calculer les dpenses de sant moyennes aprs lintervention pour, dune part, les mnages ayant particip au programme et, dautre
part, ceux qui ny ont pas particip. Les observations recueillies sont prsentes
dans le tableau3.3.
En vous fondant sur les dpenses de sant moyennes des mnages non inscrits
pour laborer le contrefactuel, vous aboutissez la conclusion que le programme
a permis de rduire les dpenses de sant moyennes denviron 14dollars. En discutant de ce rsultat avec le consultant, vous soulevez la question de savoir si les
mnages ayant choisi de ne pas participer au programme peuvent diffrer systmatiquement de ceux qui ont choisi dy participer. Par exemple, il est possible que
les mnages ayant intgr le PSAM sattendaient une hausse de leurs dpenses de
sant ou soient mieux informs sur le programme, ou encore quil sagisse de personnes davantage proccupes par la sant de leur famille. Il pourrait aussi sagir
de mnages plus pauvres en moyenne que ceux qui nont pas particip au PSAM,
qui visait les mnages pauvres. Votre consultant affirme quune analyse de rgression permet de prendre en compte les ventuelles diffrences entre les deux
groupes. En tenant compte de toutes les caractristiques de lensemble des
mnages pour lesquels des donnes ont t recueillies, le consultant aboutit aux
rsultats prsents dans le tableau3.4.
46
7,8
Non
Diffrence
Participants
21,8
13,9
Stat.
de t
39,5
13,9**
(0,35)
9,4**
(0,32)
Avec une rgression linaire simple des dpenses de sant sur un indicateur binaire
(participation ou non dun mnage au programme), vous obtenez un impact estim
de13,90dollars, autrement dit, vous estimez que le programme a diminu les dpenses
de sant moyenne de 13,90 dollars. En revanche, si lon tient compte de toutes les
autres caractristiques de la population de lchantillon, la rduction des dpenses de
sant des mnages ayant particip au programme slve 9,40 dollars par an.
QUESTION 2
A. Au vu de ces rsultats pour le cas 2, le PSAM doit-il tre largi lchelle nationale ?
B. Peut-on considrer que cette analyse tient compte de tous les facteurs susceptibles dengendrer des diffrences entre les dpenses de sant des deux groupes ?
Notes
1. Nous supposons ici une attrition nulle de lchantillon entre les deux enqutes,
autrement dit aucun mnage ne quitte lchantillon. Cette hypothse nest pas
raliste pour la plupart des enqutes sur les mnages. Dans les faits, les familles
qui dmnagent ne peuvent parfois pas tre suivies et certains mnages se
dissolvent. Le chapitre12 discute des problmes dattrition en plus de dtails.
2. Pour donner un autre exemple, si les jeunes qui pensent tirer davantage prot
du programme de formation sont plus enclins participer la formation (par
exemple parce quils pensent que celle-ci leur permettra dobtenir des salaires
plus levs), nous comparerions alors un groupe dindividus qui anticipent un
revenu plus lev avec un groupe dindividus qui nanticipaient pas un revenu
plus lev.
47
CHAPITRE4
49
units galement ligibles participeront un programme et lesquelles ny participeront pas. Ces mthodes de slection alatoire permettent non seulement aux gestionnaires de programme de disposer de rgles justes et transparentes pour distribuer des
ressources limites parmi des populations dans le mme besoin, mais constituent aussi
les mthodes les plus solides pour valuer limpact dun programme.
Les mthodes de slection alatoire peuvent souvent dcouler des rgles oprationnelles dun programme. Dans de nombreux programmes, la population des participants viss, cest--dire le groupe de toutes les units que le programme voudrait
atteindre, est plus grande que le nombre de participants que le programme peut servir un moment donn. Par exemple, en une anne, un programme dducation peut
fournir du matriel scolaire et un curriculum amlior 500coles sur les milliers
dcoles ligibles que compte un pays. Autre exemple, un programme demploi pour
les jeunes peut avoir pour objectif de toucher 2000 jeunes chmeurs durant sa premire anne dopration, mme sil y a des dizaines de milliers de jeunes chmeurs
dans le pays que le programme viserait ultimement incorporer. Il y a de multiples
raisons quifont que les programmes peuvent tre dans lincapacit de servir lensemble de leur population cible. Des contraintes budgtaires peuvent empcher le
programme de couvrir lensemble des units ligibles ds son lancement. Mme si
les budgets sont suffisants pour servir un nombre illimit de participants, les capacits peuvent manquer pour que le programme incorpore lensemble de la population
cible au mme moment. Dans lexemple du programme de formation professionnelle destin aux jeunes, le nombre de jeunes chmeurs dsirant intgrer une formation peut tre suprieur au nombre de places disponibles dans les coles techniques
durant la premire anne de mise en uvre du programme, ce qui limite le nombre
de jeunes qui peuvent participer au programme.
Dans la ralit, la plupart des programmes sont tributaires de contraintes budgtaires ou oprationnelles qui les empchent datteindre toute la population cible au
mme moment. Dans le cas o le nombre de personnes ligibles au programme est
suprieur au nombre de places offertes, les gestionnaires doivent dnir un mcanisme dallocation des bnces du programme. Autrement dit, quelquun doit dcider qui pourra participer au programme et qui ne pourra pas y participer. Les
bnces peuvent tre allous selon la rgle du premier arriv, premier servi ou
sur la base de certaines caractristiques observes (par exemple les femmes et les
enfants dabord, ou encore les localits les plus pauvres dabord); la slection peut
aussi seffectuer selon des caractristiques non observes (par exemple laisser les
personnes intgrer le programme en fonction de leur motivation ou de leurs connaissances) ou mme par tirage au sort.
50
repose, pour lessentiel, sur lutilisation dun tirage au sort pour dsigner les bnciaires du programme1 parmi une population dunits tout aussi ligibles les unes que
les autres. La probabilit dtre slectionne est alors la mme pour toutes les units
ligibles (une personne, un mnage, une communaut, une cole, un hpital, etc.)2.
Avant dvoquer lapplication pratique de lassignation alatoire et les raisons
pour lesquelles cette mthode permet dobtenir un contrefactuel solide, examinons
pourquoi lassignation alatoire est considre comme un moyen juste et transparent dallouer des ressources limites. Une fois quune population cible a t dnie
(par exemple, les mnages vivant au-dessous du seuil de pauvret, les enfants de
moins de cinq ans ou encore les coles situes en milieu rural), lassignation alatoire
peut tre considre comme une rgle juste, car elle assure au gestionnaire de programme que toute personne ou unit ligible possde la mme chance de participer
au programme et quaucun critre arbitraire ou subjectif, ni aucun favoritisme ou
autre pratique inquitable ninterviennent. Quand la demande est suprieure
loffre, lassignation alatoire est une rgle facilement justiable par les gestionnaires
de programme et facilement comprise par les principales parties prenantes. Lorsque
la slection des bnciaires seffectue selon un processus transparent et vriable,
la rgle de lassignation alatoire ne peut pas tre aisment manipule; elle protge
donc les gestionnaires de programme dventuelles accusations de favoritisme ou de
corruption. Lassignation alatoire prsente en ce sens des avantages au-del de sa
seule utilit pour lvaluation dimpact. De nombreux programmes ont dailleurs
recours des tirages au sort an de slectionner des participants partir dun groupe
dindividus ligibles, et ce en raison des avantages de cette technique pour la gestion
et la gouvernance des programmes3.
Pourquoi lassignation alatoire produit-elle une excellente estimation
du contrefactuel ?
Comme nous lavons soulign ci-dessus, un groupe de comparaison idal est en tout
point similaire au groupe de traitement la seule diffrence quil ne participe pas au
programme valuer. La slection alatoire des units qui bncieront du traitement et de celles qui feront partie des groupes de comparaison gnre deux groupes
ayant une forte probabilit dtre statistiquement identiques, pour autant que le
nombre dunits auxquelles est appliqu le processus dassignation alatoire soit
assez important. Plus prcisment, avec un nombre suffisamment important
dobservations, le processus dassignation alatoire permet de constituer des groupes
dont toutes les caractristiques moyennes sont statistiquement quivalentes. leur
tour, ces moyennes tendent vers la moyenne de la population dont elles sont issues4.
51
La gure4.1 illustre pourquoi lassignation alatoire fournit un groupe de comparaison statistiquement quivalent au groupe de traitement. Supposons que la population des units ligibles (participants potentiels) comprenne 1000personnes dont
la moiti a t slectionne de manire alatoire pour faire partie du groupe de traitement, lautre moiti constituant le groupe de comparaison. Par exemple, imaginons crire les noms des 1000personnes sur de petits bouts de papier, les mettre
dans une urne et tirer au sort 500noms. Sil a t dcid que les 500 premiers noms
tirs au sort feront partie du groupe de traitement, nous obtiendrons alors un groupe
de traitement (les 500 premiers noms tirs) et un groupe de comparaison (les
500 noms restant dans lurne), tous deux constitus de manire alatoire.
Imaginons maintenant que sur les 1 000 personnes, 40 % soient des femmes.
Comme les noms ont t slectionns au hasard, environ 40% des 500 noms tirs de
lurne seront aussi des femmes. Si 20% des 1000 personnes ont des yeux bleus, la
proportion dyeux bleus sera peu prs la mme dans le groupe de traitement et
dans le groupe de comparaison. En gnral, si la population des units ligibles est
suffisamment nombreuse, les caractristiques de la population se transmettront au
groupe de traitement et au groupe de comparaison. Si des caractristiques observables comme le genre ou la couleur des yeux se transmettent aux deux groupes, il
semble logique de considrer que des caractristiques plus difficiles observer (des
variables non observes) comme la motivation, les prfrences ou les traits de personnalit, se transmettront aussi de manire quivalente de la population au groupe
de comparaison et au groupe de traitement. Le groupe de traitement et le groupe de
comparaison constitus par assignation alatoire seront donc similaires la population de rfrence non seulement sur le plan des caractristiques observes, mais
aussi des caractristiques non observes. Par exemple, il est difficile dobserver ou de
mesurer lamabilit, mais si lon sait que les personnes aimables reprsentent
20 % de la population des units ligibles, le groupe de traitement et le groupe
52
La slection alatoire
prserve les caractristiques
La slection alatoire
prserve les caractristiques
Groupe de traitement :
Groupe de comparaison :
affect au traitement
53
Validit
externe
chantillon dvaluation
La slection alatoire
prserve les caractristiques
La slection alatoire
prserve les caractristiques
Groupe de traitement :
Groupe de comparaison :
affect au traitement
Validit
interne
Concept cl :
Une valuation
possde une validit
externe si lchantillon
dvaluation est
reprsentatif de la
population des units
ligibles. Les rsultats
obtenus pour
lchantillon peuvent
alors tre gnraliss
lensemble de
la population des
units ligibles.
54
de manire non alatoire, limpact estim peut ne pas tre gnralis lensemble de
la population des units ligibles. De mme, si lvaluation est fonde sur un chantillon slectionn de manire alatoire, mais que le traitement nest pas distribu de
manire alatoire, lchantillon sera certes reprsentatif, mais le groupe de comparaison peut ne pas tre valide.
Quand utiliser lassignation alatoire ?
Dans la pratique, lassignation alatoire peut tre considre pour tout programme
pour lequel la demande excde loffre, cest--dire lorsque le nombre de participants
potentiels dpasse les capacits du programme un moment donn et que ce programme doit tre graduellement largi. Dans dautres cas, une assignation alatoire
se justie des ns dvaluation mme si les ressources du programme sont illimites. Par exemple, les autorits peuvent recourir lassignation alatoire pour prouver de nouveaux programmes potentiellement coteux dont les effets recherchs et
indsirables restent mconnus. Dans de telles circonstances, lassignation alatoire
peut tre utilise durant la phase dvaluation pilote pour dterminer avec prcision
les effets du programme avant de llargir une population plus importante.
Lassignation alatoire constitue une mthode dvaluation dimpact adquate
dans deux cas frquents :
1. Si le nombre dunits ligibles est suprieur au nombre de places disponibles dans le
programme. Si la demande dpasse loffre, un tirage au sort peut tre effectu
pour dnir le groupe qui bnciera du programme parmi la population ligible.
Dans ce cas, toutes les units de la population ont la mme chance dtre slectionnes. Le groupe des units tires au sort constitue le groupe de traitement et
le reste de la population, qui ne bnciera pas du programme, le groupe de comparaison. Aussi longtemps que des contraintes de ressources empchent
dtendre le programme lensemble de la population, les groupes de comparaison peuvent tre maintenus pour mesurer limpact du programme court, moyen
et long terme. Dans ces conditions, il ny a pas de dilemme thique garder indniment un groupe de comparaison puisquune partie de la population ne peut de
toute faon pas tre couverte par le programme.
Par exemple, supposons que le ministre de lducation dun pays souhaite doter
les coles publiques de bibliothques, mais que le budget mis disposition par le
ministre des Finances ne permet de couvrir quun tiers des coles. Si le ministre de lducation souhaite donner une chance gale dobtenir une bibliothque
chacune des coles publiques, il peut procder un tirage au sort au cours duquel chaque cole a une chance gale (cest--dire une chance sur trois) dtre
slectionne. Les coles tires au sort seront dotes dune nouvelle bibliothque
55
56
Figure 4.3
WDSH
units ligibles
WDSH
chantillon dvaluation
WDSH
assignation alatoire
du traitement
Groupe de
c
comparaison
Groupe de
traitement
Units
inligibles
}
Validit externe
Validit interne
Units
ligibles
Une fois que la population des units ligibles est dnie, il faudra comparer la
taille du groupe avec le nombre dobservations requises pour lvaluation. Ce nombre
est dtermin par des calculs de puissance et dpend du type de questions auxquelles
vous voulez rpondre (voir chapitre11). Si la population ligible est peu nombreuse,
il peut tre ncessaire dinclure toutes les units ligibles dans lvaluation. linverse, sil y a plus dunits ligibles que ncessaire pour lvaluation, la deuxime
tape consistera slectionner un chantillon dunits partir de la population pour
laborer un chantillon dvaluation. Cette deuxime tape vise essentiellement
limiter les cots de collecte des donnes. Si les donnes fournies par les systmes de
suivi existants peuvent tre utilises pour effectuer lvaluation et que ces systmes
couvrent la population des units ligibles, la cration dun chantillon dvaluation
distinct nest pas ncessaire. Par contre, imaginons que vous devez collecter des donnes dtailles sur les connaissances pdagogiques de plusieurs dizaines de milliers
de professeurs dans toutes les coles publiques du pays. Raliser des entretiens avec
chaque professeur risque fort dtre impossible; mais un chantillon de 1000 professeurs travaillant dans 100 coles diffrentes peut tre suffisant. Si lchantillon
est reprsentatif de lensemble de la population des enseignants des coles publiques,
les rsultats de lvaluation resteront gnralisables lensemble des professeurs
et coles publiques du pays. Recueillir des donnes auprs dun chantillon de
1000 professeurs sera bien videmment moins coteux que de sentretenir avec tous
les professeurs des coles publiques du pays.
57
Calibri
11
* type the formula =RAND(). Note that the random numbers in Column C are volatile: they change everytime you do a calculation.
A19
Numro alatoire
Entre 0 et 1
Objectif
Rgle
Identifiant
de lunit
Numro alatoire
final**
Assignation
Ahmed
0.0526415
0.479467635
1002
Elisa
0.0161464
0.945729597
1003
Anna
0.4945841
0.933658744
1004
Jung
0.3622553
0.383305299
1005
Tuya
0.8387493
0.102877439
1006
Nilu
0.1715420
0.228446592
1007
Roberto
0.4798531
0.444725231
1008
Priya
0.3919690
0.817004226
1009
Grace
0.8677710
0.955775449
1010
Fathia
0.1529944
0.873459852
1011
John
0.1162195
0.211028126
1012
Alex
0.7382381
0.574082414
1013
Nafula
0.7084383
0.151608805
1001
Nom
Numro alatoire*
*saisir la formule =RAND(). Remarque : les numros alatoires de la colonne C sont instables : ils changent chaque nouveau calcul que vous faites.
**copier les nombres de la colonne C et coller spcial > valeurs dans la colonne D. La colonne D affiche alors les nombres alatoires finaux.
***saisir la formule =IF(C(row number)>0.5,1,0)
58
59
60
Figure 4.5
Groupe de traitement
Groupe de comparaison
Impact
Impact = Y = 20
Participation
si et seulement
si lunit est
affecte au
groupe de
traitement
61
Caractristiques
des mnages
Villages de Villages de
traitement comparaison
(N = 2 964) (N = 2 664)
Diffrence
Stat. de t
14,57
0,09
0,39
41,6
42,3
0,7
1,2
36,8
36,8
0,0
0,38
Niveau dducation
du chef du mnage
(en annes)
2,9
2,8
0,1
2,16*
Niveau dducation du
conjoint (en annes)
2,7
2,6
0,1
0,006
Dpenses de sant
(en dollars, par anne
et par personne)
14,48
ge du chef du mnage
(en annes)
ge du conjoint
(en annes)
Le chef du mnage
est une femme = 1
0,07
0,07
0,0
0,66
Autochtone = 1
0,42
0,42
0,0
0,21
Nombre de personnes
dans le mnage
5,7
5,7
0,0
1,21
0,57
0,56
0,01
1,04
Hectares de terre
1,67
1,71
0,04
1,35
Distance de lhpital
(en km)
109
106
1,02
* Seuil de signification de 5 %.
62
Diffrence
Stat. de t
Dpenses de sant
des mnages
observes lors de
lenqute de base
14,48
14,57
0,09
0,39
Dpenses de sant
observes lors de
lenqute de suivi
7,8
17,9
10,1**
25,6
** Seuil de signification de 1 %.
10,1**
(0,39)
10,0**
(0,34)
QUESTION 3
63
envergure a t mis en place de manire progressive. Les deux tiers environ des localits (soit 314
sur 495) ont t choisies de manire alatoire
pour bnficier du programme au cours des deux
premires annes. Les 181 localits restantes
ont constitu un groupe de comparaison avant
dintgrer le programme la troisime anne.
Sur la base de lassignation alatoire, Schultz
(2004) conclut une augmentation moyenne du
taux de scolarisation de 3,4 % chez les coliers de
la premire la huitime anne, la hausse la plus
importante (soit 14,8 %) tant constate chez les
filles ayant termin la sixime annea. Cette forte
croissance est probablement due au fait que le
taux dabandon scolaire tend augmenter chez les
filles au fur et mesure quelles grandissent ; raison pour laquelle les filles reoivent une allocation
montaire un peu plus importante pour les inciter
continuer frquenter lcole au-del du primaire.
Ces impacts court terme sont ensuite extrapols
pour prdire limpact long terme du programme
Progresa sur la scolarit et sur les revenus.
64
65
66
Figure 4.6
WDSH
units ligibles
WDSH
offre alatoire
du programme
WDSH
chantillon dvaluation
WDSH
participation
Pas doffre
X
Offre
Validit externe
Validit interne
Groupe qui le
traitement a t offert
PRXUFHQWDJHGHSDUWLFLSDQWV
Y moyen de ceux qui lon a offert
le traitement = 110
Impact
GHSDUWLFLSDQWV
< ,'7
77
Ne participent
jamais
Participent si
on le leur offre
Participent
toujours
Remarque : lIDT, estimation de lintention de traiter , est obtenue en comparant les rsultats du groupe
auquel le traitement a t offert ceux du groupe auquel le traitement na pas t offert (indpendamment
de la participation effective). Le TT correspond lestimation du traitement sur les traits cest--dire
lestimation de limpact sur ceux qui le programme a t offert et qui y ont effectivement particip.
Les personnages sur fond gris sont ceux qui participent effectivement au programme.
67
dit limpact dun programme sur ceux qui le programme a t offert et qui y ont
effectivement particip. Cette estimation seffectue en deux tapes, prsentes dans
la gure4.712.
En premier lieu, nous procdons lestimation de limpact de lintention de traiter. Souvenez-vous quil sagit de la diffrence entre lindicateur de rsultat Y du
groupe auquel on a offert le traitement et le mme indicateur pour le groupe auquel
on na pas offert le traitement. Par exemple, si le revenu moyen (Y) est de 110 dollars
pour le groupe de traitement et de 70 dollars pour le groupe de comparaison, lestimation dimpact de lintention de traiter (IDT) est alors de 40 dollars.
En second lieu, nous devons dduire lestimation du traitement sur les traits
(TT) partir de lestimation de lintention de traiter (IDT). Pour ce faire, nous devons
dterminer do vient la diffrence de 40 dollars. Procdons par limination. Nous
savons que la diffrence ne peut pas tre attribue une quelconque diffrence entre
les jamais du groupe de traitement ( qui le programme a t offert) et du groupe de
comparaison ( qui le programme na pas t offert). Comme les jamais ne sont par
dnition pas concerns par le programme, il ny a pour eux pas de diffrence quils
soient dans le groupe de traitement ou dans le groupe de comparaison. Nous savons
aussi que la diffrence de 40 dollars ne peut pas tre due des diffrences entre les
toujours des groupes de traitement et de comparaison, puisquils participent dans les
deux cas. Pour eux aussi, peu importe quils fassent partie du groupe de traitement
ou du groupe de comparaison. Par consquent, la diffrence de rsultat constate
entre les deux groupes ne peut provenir que des effets du programme sur le seul
groupe dont le comportement est modi par son affectation au groupe de traitement ou au groupe de comparaison, savoir ceux qui participent si on le leur offre. Si
nous arrivons identier ceux qui participent si on le leur offre, il sera facile destimer
limpact du programme sur ces units.
Dans les faits, bien que nous sachions que ces trois types dindividus existent dans
la population, nous ne pouvons pas sparer les personnes selon leur appartenance au
groupe de ceux qui participent si on le leur offre, des jamais ou des toujours. Dans le
groupe qui sest vu offrir le traitement, nous pouvons reprer les jamais (car ils ne
participent pas), mais il est impossible de faire la distinction entre les toujours et ceux
qui participent si on le leur offre (car tous deux participent ensemble). Inversement,
dans le groupe auquel le traitement na pas t offert, nous pouvons isoler les toujours (car ils ont intgr le programme), mais on ne peut faire la distinction entre les
jamais et ceux qui participent si on le leur propose.
Toutefois, en sachant que 90% des units du groupe auquel le traitement a t
offert y participent effectivement, nous pouvons dduire que 10% des units dans la
population sont des jamais (soit la partie des personnes qui le programme a t
offert, mais qui ny participent pas). De mme, en constatant que 10% des units
auxquelles le traitement na pas t offert y participent quand mme, il est possible
de conclure que ces 10% reprsentent des toujours (soit la partie des individus du
groupe qui le programme na pas t offert, mais qui lont tout de mme intgr).
Il reste alors 80% des units dans le groupe de ceux qui participent si on le leur offre.
68
Nous savons que la totalit de limpact de 40 dollars est due la diffrence de participation des 80% dunits de notre chantillon, ceux qui participent si on le leur offre.
Si 80% des units sont lorigine delimpact moyen de 40 dollars constat pour
lensemble du groupe qui le traitement a t offert, limpact sur ces 80% de personnes qui participent si on le leur offre est de 40/0,8, soit 50 dollars. Autrement dit,
limpact du programme sur ceux qui participent si on le leur offre est de 50dollars,
mais lorsque cet impact est considr pour lensemble du groupe auquel le traitement a t offert, il se dilue de 20% cause des units qui nont pas adhr lassignation alatoire initiale.
Lun des problmes fondamentaux avec lauto-slection des individus dans les
programmes est quil nest pas toujours possible de savoir pourquoi certaines personnes choisissent de participer et dautres non. Lorsque nous procdons une slection alatoire des units qui vont participer au programme, mais que la participation
effective dpend de la volont de chacun et quil existe un moyen pour les units assignes au groupe de comparaison de bncier tout de mme du programme, nous
sommes confronts un problme similaire: nous ne serons pas toujours en mesure
de comprendre le processus qui conduit certaines personnes ne jamais participer,
toujours participer ou participer si on le leur offre comme dans lexemple ci-dessus.
Toutefois, pour autant que ceux qui nadhrent pas leur affectation ne soient pas
trop nombreux, lassignation alatoire initiale demeure un outil efficace destimation
dimpact. Linconvnient du manque dadhrence totale des individus est que lestimation dimpact ne pourra plus tre considre comme valide pour lensemble de la
population. Cette estimation ne sera valable que pour un sous-groupe spcique de la
population cible, savoir celui des individus qui participent si on le leur offre.
Loffre alatoire prsente deux caractristiques importantes qui permettent destimer limpact, mme dfaut dune adhrence totale (voir encadr4.2)13.
1. Elle peut servir pour predir la participation effective au programme si la plupart
des individus se comportent comme ceux qui participent si on le leur offre, cest-dire qui intgrent le programme si celui-ci leur est offert, mais qui ne le font pas
dans le cas contraire.
2. Les deux groupes (celui qui le traitement est offert et celui qui il nest pas
offert) tant constitus partir dun processus de slection alatoire, les caractristiques des individus des deux groupes ne sont corrles avec aucun autre
lment, par exemple les capacits ou la motivation, qui aurait aussi pu affecter
le rsultat (Y).
Promotion alatoire ou modle dencouragement
Dans la section prcdente, nous avons vu comment estimer limpact dun programme dans le cas dune assignation alatoire du traitement, mme si les affectations initiales aux groupes de comparaison et au groupe de traitement ne sont pas
totalement respectes. Nous allons maintenant examiner une approche trs similaire qui peut tre utilise pour valuer les programmes ligibilit universelle,
participation volontaire, ou pour lesquels il nest pas possible de dterminer qui
participe et qui ne participe pas.
Mthodes de slection alatoire
69
70
fois-ci quune assignation alatoire nest pas possible et que toute personne souhaitant bncier du programme peut sy inscrire. Comme prcdemment, il est fort
probable davoir faire trois types dindividus: les adhrents, des individus qui ne
participent jamais et des individus qui participent toujours. Comme dans le cas prcdent, les toujours intgreront le programme dans tous les cas alors que les
jamais ne sy joindront en aucun cas. Mais quen est-il des adhrents ? Dans le cas
prsent, toute personne souhaitant participer au programme est libre de le faire.
Quen est-il des personnes qui pourraient tre trs intresses par le programme,
mais qui, pour diverses raisons, nauront, par exemple, pas suffisamment dinformation ou de motivation pour y participer? Dans ces conditions, les adhrents seront de
ceux qui participent en cas de promotion: il sagit dun groupe dindividus qui participent au programme sil existe des incitations supplmentaires (c.--d. une forme de
promotion) les amenant participer. dfaut de ces incitations supplmentaires,
ceux qui participent en cas de promotion nintgreront pas le programme.
Revenons lexemple de la formation professionnelle. Si lagence qui organise la
formation dispose des fonds et des capacits ncessaires pour dispenser la formation
toute personne intresse, le programme pourra alors tre ouvert toute personne
au chmage qui dsire y participer. Il est cependant peu probable que toutes les personnes au chmage souhaitent se former ou mme quelles soient toutes au courant
de lexistence du programme. Certains chmeurs peuvent tre rticents participer
au programme parce quils ne disposent pas de suffisamment dinformations sur le
contenu de la formation et quils ne parviennent pas trouver dinformations supplmentaires. Supposons maintenant que lagence qui dispense cette formation
engage une assistante communautaire pour faire une promotion de ce programme
de formation professionnelle. Munie dune liste des chmeurs, elle se rend au domicile des personnes concernes, leur dcrit le programme de formation et leur propose de sy inscrire de suite. Bien videmment, elle ne peut forcer personne y
participer. Par ailleurs, certains chmeurs qui nauront pas reu la visite de lassistante pourront aussi sinscrire la formation, mais ils devront sadresser directement
linstitut de formation. Nous sommes dsormais face deux groupes de chmeurs:
ceux qui ont reu la visite de lassistante et ceux qui ne lont pas reue. Si leffort de
promotion du programme auprs de la population a port ses fruits, le taux de participation des chmeurs ayant reu la visite de lassistante devrait tre suprieur
celui des chmeurs nayant pas t contacts par lassistante.
Comment pourrions-nous valuer limpact du programme de formation? Comme
nous le savons, il ne suffit pas de comparer les chmeurs ayant suivi la formation
ceux qui ne lont pas suivie, car les chmeurs ayant dcid de sinscrire prsentent
probablement des caractristiques, tant observables que non observables, trs diffrentes des caractristiques de ceux qui ne participent pas au programme: ils peuvent
avoir un niveau dducation plus lev (caractristique facilement observable) et ils
peuvent tre plus motivs par lide de trouver un emploi (caractristique difficile
observer et mesurer).
Nous disposons nanmoins dune variable supplmentaire exploiter pour trouver un groupe de comparaison valide. Examinons tout dabord sil est possible de
comparer le groupe ayant reu la visite de lassistante avec celui qui ne la pas reue.
71
Les deux groupes comprennent des personnes trs motives (les toujours) qui
intgreront la formation quils aient ou non reu la visite de lassistante. De mme,
dans les deux groupes, nous retrouverons des personnes non motives (les jamais)
qui ne participeront pas au programme, quels que soient les efforts de lassistante.
Enn, certaines personnes (ceux qui participent en cas de promotion) rejoindront la
formation si lassistante leur rend visite, mais pas dans le cas contraire.
Si lassistante a slectionn les personnes auxquelles elle rend visite alatoirement partir de sa liste de chmeurs, nous pourrons avoir recours la mthode du
traitement sur les traits voque ci-dessus. La seule diffrence est quil sagit ici non
plus dune offre alatoire, mais dune promotion alatoire du programme. partir du
moment o il existe des personnes qui ne participent quen cas de promotion
(cest--dire dont la participation nest assure que si on va les chercher), il y aura
une variation entre le groupe avec promotion et le groupe sans promotion qui nous
permettra destimer limpact de la formation sur ceux qui y participent en cas de promotion. Au lieu dadhrer loffre de traitement, ceux qui participent en cas de promotion adhrent la promotion du programme.
Dun ct, la stratgie de promotion doit tre efficace et entraner une nette augmentation des inscriptions de ceux qui participent en cas de promotion. Dun autre
ct, nous ne souhaitons pas que les activits de promotion soient efficaces au point
dinuencer le rsultat. Par exemple, si les assistantes charges de la promotion proposent des sommes dargent importantes aux chmeurs pour les inciter sinscrire,
il sera difficile dtablir plus tard si les variations de revenus constates sont dues la
formation, la promotion du programme ou aux incitations proposes.
La promotion alatoire est une stratgie qui permet de gnrer lquivalent dun
groupe de comparaison aux ns de lvaluation. Elle peut tre utilise lorsquil est
possible dorganiser une campagne de promotion visant un chantillon alatoire de
la population cible. Les lecteurs ayant quelques connaissances en conomtrie
reconnatront la terminologie introduite dans la section prcdente: la promotion
alatoire est une variable instrumentale permettant de crer une variation entre les
units et dexploiter cette variation pour crer un groupe de comparaison valide.
Vous avez dit promotion ?
La promotion alatoire vise accrotre la participation des individus dun souschantillon de population un programme volontaire. Elle peut prendre plusieurs
formes. Il peut par exemple sagir dune campagne dinformation lattention des
personnes qui ne se sont pas inscrites, car elles ne connaissaient pas ou ne comprenaient pas bien le contenu du programme. La promotion peut aussi comprendre des
incitations comme loffre de petits cadeaux ou prix, ou encore la mise disposition
de moyens de transport.
72
Concept cl :
La promotion alatoire
est une mthode
similaire loffre
alatoire. Toutefois, au
lieu de slectionner de
manire alatoire les
units auxquelles le
traitement sera offert,
nous slectionnions ici,
toujours alatoirement,
les units qui recevront
une promotion
du programme.
Le programme reste
alors ouvert toutes
les units.
73
Figure 4.8
Promotion alatoire
WDSH
units ligibles
WDSH
promotion alatoire
du programme
WDSH
chantillon dvaluation
WDSH
inscription
Pas de promotion
X
Promotion
Validit externe
Validit interne
Figure 4.9
Groupe ne recevant
pas la promotion
Impact
6GLQVFULWV
PRXUFHQWDJHGLQVFULWV
PRXUFHQWDJHGLQVFULWV
Y moyen du groupe ne recevant pas 6Y = 40
Y moyen du groupe recevant
,PSDFW
la promotion du programme = 110 la promotion du programme = 70
Ne participent
jamais
Participent
en cas de
promotion
Participent
toujours
Remarque : les personnages sur fond gris sont ceux qui participent au programme.
Premirement, nous connaissons la diffrence entre le groupe qui a reu la promotion du programme et celui qui ne la pas reu : elle est de 40. Nous savons aussi
que cette diffrence ne peut pas tre due aux jamais, car, dans tous les cas, ils ne
participeront pas au programme. Cette diffrence ne peut pas non plus tre attribue
aux toujours parce quils participent au programme quel que soit le groupe auquel ils
appartiennent initialement.
La deuxime tape consiste dterminer limpact du programme sur ceux qui
participent en cas de promotion. Nous savons que tout leffet moyen (de 40) peut tre
attribu ceux qui participent en cas de promotion, un groupe qui reprsente la moiti de la population. Pour valuer limpact moyen du programme sur une personne
adhrant aux rgles daffectation, nous divisons alors 40 par le pourcentage de ceux
qui participent en cas de promotion dans la population. Nous ne pouvons certes pas
identier directement ce dernier groupe, mais nous pouvons valuer sa part dans la
population: elle correspond la diffrence entre les taux de participation du groupe
auprs duquel la promotion a t ralise et du groupe pour lequel a na pas t le
cas (50% ou 0,5). Limpact moyen sur une personne adhrant aux rgles daffectation stablit donc 40/0,5 = 80.
La promotion tant effectue de manire alatoire auprs des individus, le groupe
qui a bnci de cette promotion et le groupe qui nen a pas bnci prsenteront
des caractristiques moyennes identiques. Ds lors, les diffrences entre les rsultats
moyens des deux groupes peuvent tre attribues au fait que dans le groupe recevant
la promotion, ceux qui participent en cas de promotion ont effectivement particip au
programme alors quils ne lont pas fait dans le groupe nayant pas reu la campagne
de promotion15.
75
Villages
ayant reu
la campagne de
promotion
Villages
nayant pas
reu la
campagne de
promotion
Diffrence
Stat. de t
17,1
17,2
0,1
0,47
18,3
14,9
18,8
3,9
49,2%
8,4%
40,4%
** Seuil de signification de 1 %.
76
Rgression linaire
Rgression linaire
multivarie
9,4**
(0,51)
9,7**
(0,45)
pent en cas de promotion. Pour ce faire, nous divisons la diffrence observe entre
les groupes par le pourcentage de ceux qui participent en cas de promotion :
3,9/0,404 = 9,65$. Votre collgue, qui a suivi des cours dconomtrie, calcule
ensuite limpact du programme par la mthode des moindres carrs en deux tapes
et aboutit aux rsultats prsents dans le tableau4.5. Limpact ainsi estim est valable
pour les mnages ayant particip au programme parce quils y ont t incits, mais
qui ny aurait pas particip sans promotion, autrement dit pour ceux qui participent
en cas de promotion. Extrapoler ce rsultat lensemble de la population suppose que
tous les autres mnages se seraient comports de la mme manire sils avaient
intgr le programme.
QUESTION 4
77
Il existe dautres exemples comme laide apporte par des organisations non gouvernementales dans le cadre de lvaluation de la gestion scolaire communautaire au
Npal ou le Fonds dinvestissement social en Bolivie (dcrit dans lencadr4.3).
Limites de la mthode de la promotion alatoire
La promotion alatoire est une stratgie utile pour valuer limpact des programmes
participation volontaire et ligibilit universelle, notamment parce quelle nexige
dexclure aucune des units ligibles. Cette approche prsente nanmoins quelques
limites en comparaison lassignation alatoire du traitement.
Premirement, la stratgie de promotion doit porter ses fruits. Si la campagne de
promotion nentrane pas daugmentation de la participation, aucune diffrence ne
ressortira entre le groupe recevant la promotion et celui ne la recevant pas; aucune
comparaison ne sera alors possible. Un suivi rapproch de la campagne promotionnelle est donc primordial pour en assurer lefficacit. Le point positif est que la
conception de la campagne de promotion peut permettre aux responsables du programme de rchir la manire dont ils peuvent encourager la participation.
78
Notes
1. Lassignation alatoire du traitement est parfois appele essai contrle
randomis, valuation alatoire, valuation exprimentale ou encore
exprimentation sociale.
2. Lassignation alatoire ne signie pas quil y a forcment une chance sur deux
dtre tir au sort. En fait, la plupart des valuations par assignation alatoire
donnent chaque unit ligible une probabilit dtre slectionne dtermine
de manire ce que le nombre de gagnants (qui recevront le traitement) soit
gal au nombre total de places offertes. Par exemple, si le programme dispose
de suffisamment de fonds pour servir 1000communauts sur une population
totale de 10000, chaque communaut aura unechance sur dix dtre slectionne pour recevoir le traitement. La puissance statistique (concept voqu en
dtail au chapitre11) est optimise lorsque lchantillon dvaluation est divis
parts gales entre le groupe de traitement et le groupe de comparaison. Par
exemple, pour un chantillon total comprenant 2000communauts, la
puissance statistique sera optimise en constituant un groupe de traitement de
1000communauts et un groupe de comparaison galement de 1000 communauts plutt quen se fondant sur un simple chantillon alatoire correspondant 20% des 10000communauts ligibles de dpart (ceci donnerait un
chantillon dvaluation denviron 200communauts de traitement et
1800communauts de comparaison).
3. Par exemple, les programmes de logements subventionns ont souvent recours
aux tirages au sort pour slectionner les bnciaires.
4. Cette proprit dcoule de la loi des grands nombres.
5. Un chantillon dvaluation peut tre strati par type dindividus et subdivis
en grappes dunits. La taille de lchantillon est fonction du type dchantillonnage alatoire utilis (voir partie3).
6. La plupart des logiciels permettent dtablir un nombre source (seed
number en anglais) an que les rsultats de lassignation alatoire soient
transparents et puissent tre rpts.
7. Nous examinerons des concepts comme les effets de diffusion et de contamination de manire plus dtaille au chapitre8.
8. Pour des raisons statistiques, il nest pas ncessaire que toutes les caractristiques observes soient similaires dans le groupe de traitement et dans le groupe
de comparaison pour que la slection alatoire soit efficace. La rgle dor en
Mthodes de slection alatoire
79
11.
12.
13.
14.
15.
matire defficacit est que 95% environ des caractristiques observes soient
similaires. Par similaire, on entend que lon ne peut rejeter lhypothse nulle
selon laquelle les moyennes sont diffrentes entre les deux groupes compte tenu
dun intervalle de conance de 95%. Mme lorsque les caractristiques des
deux groupes sont compltement gales, on peut sattendre ce que 5% environ
des caractristiques prsentent une diffrence statistiquement signicative.
noter que dans le domaine mdical, les patients du groupe de comparaison
reoivent gnralement un placebo, par exemple un comprim en sucre sans
effet sur les rsultats. Ceci vise tenir compte de leffet placebo, savoir les
changements ventuels de comportement et de rsultats lis la prise dun
traitement mme si le traitement en soi na pas deffet.
Ces deux tapes correspondent la technique conomtrique des moindres
carrs en deux tapes qui permet dobtenir lestimation moyenne locale de
leffet du traitement (local average treatment effect, ou LATE en anglais).
Les lecteurs ayant des connaissances en conomtrie auront reconnu le
concept: en statistiques, loffre alatoire du programme est utilise comme
variable instrumentale pour la participation effective. Les deux caractristiques
cites correspondent exactement ce qui serait exig dune bonne variable
instrumentale:
La variable instrumentale doit tre corrle la participation au programme.
La variable instrumentale peut ne pas tre corrle au rsultat (Y) (sauf par
le biais de la participation au programme) ou aux variables non observables.
Classe de 4me dans le systme scolaire franais.
Les lecteurs ayant des connaissances en conomtrie comprendront que
limpact est estim en utilisant lassignation alatoire au groupe recevant ou
ne recevant pas la promotion comme variable instrumentale pour la participation effective au programme.
Rfrences
Angrist, Joshua, Eric Bettinger, Erik Bloom, Elizabeth King et Michael Kremer.
2002. Vouchers for Private Schooling in Colombia: Evidence from a Randomized Natural Experiment. American Economic Review 92 (5): 153558.
Gertler, Paul, Sebastian Martinez et Sigrid Vivo. 2008. Child-Mother Provincial
Investment Project Plan Nacer. University of California Berkeley et Banque
mondiale, Washington, DC.
Newman, John, Menno Pradhan, Laura B. Rawlings, Geert Ridder, Ramiro Coa et
Jose Luis Evia. 2002. An Impact Evaluation of Education, Health, and Water
Supply Investments by the Bolivian Social Investment Fund. tude conomique
de la Banque mondiale 16 (2): 24174.
Schultz, Paul. 2004. School Subsidies for the Poor: Evaluating the Mexican
Progresa Poverty Program. Journal of Development Economics 74 (1): 199250.
80
CHAPITRE5
Modle de discontinuit
de la rgression
Les programmes sociaux utilisent souvent un indice pour dterminer quels sont les
individus ou mnages ligibles. Par exemple, les programmes de lutte contre la pauvret ciblent gnralement les mnages pauvres en les identiant avec un indice ou
un score de pauvret. Un score de pauvret peut se baser sur une formule de type
proxy mean qui mesure un ensemble dactifs du mnage. Les mnages avec de bas
scores sont classs parmi les mnages pauvres et ceux dont les scores sont plus levs sont considrs comme des mnages relativement aiss. Les responsables de
programme xent en gnral un seuil ou un score limite au-dessous duquel les
mnages sont considrs comme pauvres et ligibles pour un programme. Le programme mexicain Progresa (Buddelmeyer et Skouas 2004) ou le systme colombien de slection des bnciaires des programmes sociaux baptis SISBEN
(Barrera-Osorio, Linden et Usquiola, 2007) utilisent de telles mthodes.
Les programmes de retraite ciblent eux aussi les individus en fonction dun
indice dligibilit, bien quil soit dun autre type. Lge constitue un indice continu
et lge de dpart la retraite est le seuil qui dtermine lligibilit. Autrement dit,
seules les personnes ayant dpass un certain ge ont le droit de recevoir une
retraite. Les rsultats aux examens sont un autre exemple dindice dligibilit
continu. De nombreux pays octroient des bourses dtudes ou des prix aux
meilleurs lves un examen standardis dont les rsultats sont classs par ordre
croissant. Si le nombre de bourses est limit, seuls les tudiants avec une note audel dun certain seuil (par exemple la premire tranche de 15%) seront ligibles.
81
Concept cl :
Le modle de
discontinuit de la
rgression convient
aux programmes qui
utilisent un indice
continu pour classifier
les participants
potentiels et un seuil
pour distinguer les
bnficiaires des
non-bnficiaires.
Le modle de discontinuit de la rgression est une mthode dvaluation dimpact qui convient aux programmes pour lesquels un indice dligibilit continu est
tabli et un seuil est clairement dni pour distinguer les bnciaires des
non bnciaires. Deux conditions doivent tre runies pour pouvoir appliquer le
modle de discontinuit de la rgression:
1. Un indice dligibilit continu doit exister, savoir un indicateur continu permettant de classer la population ltude, comme un indice de pauvret, les rsultats
un examen ou lge.
2. Un seuil dligibilit doit tre clairement dni, dterminant un niveau de lindice
au-dessus ou au-dessous duquel la population est considre comme ligible au
programme. Par exemple, les mnages dont lindice de pauvret est infrieur
50 sur 100 peuvent tre considrs comme pauvres, les personnes de 67 ans et
plus peuvent tre considres comme des retraits et les tudiants obtenant un
rsultat de 90 sur 100 ou plus peuvent tre ligibles une bourse. Dans ces
exemples, les seuils sont xs 50, 67 et 90 respectivement.
82
Figure 5.1
20
Rendement rizicole
19
18
17
16
15
20
30
40
50
60
Acres (1 acre = 0,40 ha)
70
80
comme le rendement total, pour les entits qui se situent prs du seuil dligibilit,
soit 50 acres dans notre exemple. Les exploitations lgrement trop importantes
pour participer au programme constituent le groupe de comparaison et gnrent
une estimation du rsultat contrefactuel pour les exploitations du groupe de traitement qui sont juste au-dessous du seuil dligibilit. tant donn que ces deux
groupes dexploitations taient trs similaires avant le programme et quils sont
exposs aux mmes facteurs (tels que le climat, les uctuations des cours, les politiques agricoles locales et nationales, etc.), le programme constitue la seule raison
pouvant expliquer les diffrences de rsultats aprs lintervention.
La mthode de discontinuit de la rgression permet destimer correctement
limpact dun programme sans exclure dunits ligibles. Il convient toutefois de
noter que limpact estim ne sapplique quaux units se situant autour du seuil
dligibilit. Dans notre exemple, nous obtenons une estimation valide de limpact
du programme de subvention de lachat dengrais pour des exploitations dont la
supercie est lgrement infrieure 50 acres. Lvaluation dimpact ne permettra
pas ncessairement de dterminer directement limpact du programme sur les
petites exploitations (de un ou deux acres par exemple) pour lesquelles limpact
du subventionnement des engrais pourrait tre nettement diffrent des effets
observs pour les exploitations de 48 ou 49 acres. Il nexiste pas de groupe de comparaison pour les petites exploitations tant donn quelles sont toutes ligibles au
programme. La seule comparaison valable concerne les exploitations proches du
seuil dligibilit de 50 acres.
83
80
75
70
65
60
84
20
30
40
50
60
70
Indice de pauvret au moment de lenqute de rfrence
80
Figure 5.3
80
75
70
65
Non ligibles
ligibles
60
20
30
40
50
60
70
Indice de pauvret au moment de lenqute de rfrence
80
tre la gure 5.3. Les mnages se situant juste au-dessous du score limite sont
ligibles au programme tandis que ceux qui se situent juste au-dessus ne le sont pas,
mme si ces deux types de mnages sont trs similaires.
Le modle de discontinuit de la rgression utilise la discontinuit observe
autour du seuil dligibilit pour estimer le contrefactuel. Intuitivement, nous pouvons considrer que les mnages dont le score est juste au-dessous du seuil dligibilit (50 et un peu moins) sont trs similaires ceux dont le score est juste au-dessus
du seuil dligibilit (51, par exemple). Les responsables du programme ont choisi un
point particulier sur lindice continu de pauvret (50) pour crer une coupure, ou
une discontinuit, dans lligibilit au programme. tant donn que les mnages qui
se situent juste au-dessus du seuil des 50sont trs similaires ceux qui sont juste en
dessous, la diffrence prs quils ne bncient pas des transferts montaires, ils
peuvent tre utiliss comme groupe de comparaison pour les mnages qui se situent
juste au-dessous du seuil dligibilit. Autrement dit, les mnages non ligibles au
programme, mais proches du seuil dligibilit seront utiliss comme groupe de
comparaison pour estimer le contrefactuel ( savoir les changements enregistrs
dans le groupe de mnages ligibles en labsence du programme).
85
80
75
70
= IMPACT
B
65
20
30
40
50
60
70
Indice de pauvret au moment de lenqute de rfrence
80
86
30.2933
Dpenses de sant prdites des mnages (en USD)
Seuil de pauvret
7.07444
23.0294
58
Indice de pauvret au moment
de lenqute de rfrence (1-100)
100
87
30.2933
Dpenses de sant prdites des mnages (en USD)
Seuil de pauvret
7.07444
23.0294
58
Indice de pauvret au moment
de lenqute de rfrence (1-100)
100
Deux ans aprs le lancement du pilote, vous constatez que seuls les mnages affichant un score infrieur 58 ( gauche du seuil de pauvret) ont pu participer au
PSAM. laide de donnes de suivi, vous tracez nouveau la relation entre les scores
de pauvret et les dpenses de sant prdites (voir gure5.6). Cette fois-ci, la relation entre lindice de pauvret et les dpenses de sant prdites nest plus continue.
Il y a une variation nette, ou discontinuit au seuil de pauvret.
Tableau 5.1 Cas 5 Impact du PSAM selon le modle de discontinuit
de la rgression (analyse de rgression)
Rgression linaire multivarie
Impact estim sur les dpenses
de sant des mnages
9,05**
(0,43)
88
La discontinuit illustre une baisse des dpenses de sant de la part des mnages
ligibles au programme. tant donn que les mnages de part et dautre du seuil de
58 sont trs similaires, la seule explication possible pour la diffrence des dpenses
de sant est lligibilit au programme de lun des groupes de mnages. Vous estimez
cet cart au moyen dune rgression dont les conclusions gurent dans le tableau5.1.
QUESTION 5
A. Le rsultat indiqu dans le tableau 5.1 est-il valide pour tous les mnages ligibles ?
B. Par rapport limpact estim en utilisant lassignation alatoire, que nous indique le
rsultat sur les mnages dont le niveau de pauvret est juste au-dessous de 58 ?
C. Au vu de ce rsultat pour le cas 5, le PSAM doit-il tre tendu tout le pays ?
Le modle de discontinuit de
la rgression en pratique
Le modle de discontinuit de la rgression a t utilis dans diffrents contextes.
Lemieux et Milligan (2005) analysent les effets de laide sociale sur loffre de
main-duvre au Qubec. Martinez (2004) tudie limpact des retraites sur la
consommation en Bolivie. Filmer et Schady (2009) valuent limpact dun pro-
89
gramme doctroi de bourses aux tudiants pauvres sur la scolarisation et les rsultats
scolaires au Cambodge. Buddelmeyer et Skouas (2004) comparent la performance
de la discontinuit de la rgression celle de lassignation alatoire dans le cas du
programme Progresa et concluent que les impacts estims laide de ces deux
mthodes sont similaires pour une grande majorit des rsultats analyss. Certains
de ces exemples sont dcrits plus en dtail dans les encadrs5.1, 5.2 et 5.3.
90
91
Le modle de discontinuit de la rgression value limpact du programme localement aux alentours du seuil dligibilit. Lestimation ne peut pas systmatiquement tre gnralise aux units dont le score est plus loign de ce seuil, cest--dire
aux parties de la distribution o les units ligibles et non ligibles ne sont plus similaires. Le fait que cette approche ne permette pas de calculer leffet moyen du traitement pour tous les participants au programme peut tre considr comme un
avantage ou un inconvnient en fonction de linformation recherche. Si lvaluation
vise principalement savoir si le programme devrait ou non tre mis en uvre, leffet
moyen du traitement sur lensemble de la population ligible est probablement le
paramtre le plus pertinent, et limpact local estim par le modle de discontinuit
de la rgression nest pas satisfaisant. Toutefois, si la question est de savoir si le programme doit tre rduit ou au contraire largi, le modle de discontinuit de la
rgression fournit prcisment limpact local utile pour prendre cette dcision.
Le fait que cette mthode value les effets locaux moyens du traitement reprsente galement un d en termes de puissance statistique de lanalyse. tant donn
que les effets ne sont mesurs quautour du seuil dligibilit, cette mthode utilise
moins dobservations que dautres mthodes utilisant toutes les units disponibles.
Le modle de discontinuit de la rgression requiert des chantillons dvaluation
relativement importants pour obtenir une puissance statistique suffisante. Dans la
pratique, il faut dterminer une bande autour du seuil dligibilit sur laquelle portera lvaluation en assurant lquilibre des caractristiques observes des populations au-dessus et au-dessous du seuil dligibilit. Il est ensuite possible de rpter
lestimation avec des bandes diffrentes pour vrier si les rsultats sont robustes au
changement de la bande considre. En rgle gnrale, plus la bande est large, plus
la puissance statistique est leve puisquun plus grand nombre dobservations sont
prises en compte. Toutefois, en sloignant du seuil dligibilit, il peut tre ncessaire de formuler certaines hypothses concernant les formes fonctionnelles pour
obtenir une estimation crdible de limpact.
Lautre rserve concernant le modle de discontinuit de la rgression vient du
fait que la spcication peut varier en fonction de la forme fonctionnelle utilise
pour modliser la relation entre lindice dligibilit et le rsultat. Dans lexemple du
programme de transferts montaires, nous avons suppos que la relation entre lindice de pauvret des mnages et leurs dpenses alimentaires journalires tait
simple et linaire au moment de lenqute de rfrence. En ralit, la relation entre
lindice dligibilit et le rsultat(Y) au moment de lenqute de rfrence peut tre
beaucoup plus complexe et comprendre des relations et des interactions non
linaires. Si lestimation ne tient pas compte de ces relations complexes, elles risquent dtre interprtes comme un signe de discontinuit dans les rsultats
recueillis aprs lintervention. Dans la pratique, limpact du programme peut tre
estim en utilisant plusieurs formes fonctionnelles (linaire, quadratique, cubique,
etc.) pour dterminer si les estimations de limpact sont robustes aux changements
de la forme fonctionnelle.
Mme en tenant compte de ces rserves, le modle de discontinuit de la rgression permet dobtenir des estimations non biaises de limpact du programme aux
alentours du seuil dligibilit. Cette approche se base sur des indices dligibilit
92
continus et des rgles dallocation de programme qui sont frquemment utiliss dans
les programmes sociaux. Lorsquun ciblage bas sur un indice est utilis, il nest pas
ncessaire dexclure du programme un groupe de mnages ou de personnes ligibles
pour raliser lvaluation puisque le modle de discontinuit de la rgression peut
tre utilis la place.
Notes
1. 1 acre = 0,40 ha.
2. Ceci est souvent appel un test proxy mean parce quil utilise les actifs du
mnage comme indicateurs pour approximer les moyens ou le pouvoir dachat
du mnage.
Rfrences
Barrera-Osorio, Felipe, Leigh Linden et Miguel Urquiola. 2007. The Effects of
User Fee Reductions on Enrollment: Evidence from a Randomized Natural
Experiment. Columbia University et Banque mondiale, Washington, DC.
Buddelmeyer, Hielke et Emmanuel Skouas. 2004. An Evaluation of the Performance of Regression Discontinuity Design on PROGRESA. Document de
travail consacr la recherche sur les politiques 3386, IZA Discussion Paper 827,
Banque mondiale, Washington, DC.
Filmer, Deon et Norbert Schady. 2009. School Enrollment, Selection and Test
Scores. Document de travail consacr la recherchesur les politiques 4998,
Banque mondiale, Washington, DC.
Lemieux, Thomas et Kevin Milligan. 2005. Incentive Effects of Social Assistance:
A Regression Discontinuity Approach. NBER Working Paper 10541, National
Bureau of Economic Research, Cambridge, MA.
Levy, Dan et Jim Ohls. 2007. Evaluation of Jamaicas PATH Program: Final
Report. Mathematica Policy Research, Inc., Ref. 8966-090, Washington, DC.
Martinez, S. 2004. Pensions, Poverty and Household Investments in Bolivia.
University of California, Berkeley, CA.
93
CHAPITRE 6
Double diffrence
Les trois mthodes dvaluation dimpact abordes jusqu prsent (lassignation
alatoire, la promotion alatoire du traitement et le modle de discontinuit de la
rgression) permettent destimer le contrefactuel sur la base de rgles dallocation des programmes qui sont connues et comprises par lvaluateur. Nous avons
expos les raisons pour lesquelles ces mthodes fournissent des estimations crdibles du contrefactuel en utilisant relativement peu dhypothses et conditions.
Les deux mthodes que nous allons maintenant aborder (la double diffrence et
lappariement) pourvoient lvaluateur doutils utilisables lorsque les rgles dassignation des programmes sont moins claires ou lorsquaucune des autres
mthodes dcrites ci-dessus nest applicable. Comme nous allons le voir, la
double diffrence (DD) et lappariement constituent de puissants outils statistiques qui sont souvent utiliss ensemble ou en conjonction avec dautres
mthodes dvaluation dimpact.
Tant la double diffrence que lappariement sont couramment utiliss, mais
reposent sur des hypothses plus contraignantes que les mthodes de slection
alatoire. Prcisons tout de suite que ces deux mthodes ne peuvent pas tre
appliques sans des donnes de rfrence collectes avant le dbut du programme valuer1.
Comme son nom lindique, la mthode de la double diffrence compare les
diffrences de rsultats au l du temps entre une population participant un programme (le groupe de traitement) et une autre ny participant pas (le groupe de
comparaison). Prenons lexemple dun programme de construction de routes qui
ne peut pas faire lobjet dune assignation alatoire ni dune attribution sur la
base dun indice continu assorti dun seuil dligibilit, rendant lutilisation du
modle de discontinuit de la rgression impossible. Comme lun des objectifs de
ce programme est damliorer laccs au march du travail, le taux demploi
Concept cl :
La mthode de la
double diffrence
estime le contrefactuel
pour le changement du
rsultat dans le groupe
de traitement en
utilisant le changement
du rsultat dans le
groupe de comparaison. Cette mthode
permet de prendre en
compte les diffrences
entre le groupe de
traitement et le groupe
de comparaison qui
sont invariables dans
le temps.
95
96
Figure 6.1
Double diffrence
Groupe de
comparaison
Rsultat
C = 0.78
D = 0.81
B = 0.74
Impact = 0,11
E
}
A = 0.60
Groupe de
traitement
Tendance du groupe
de comparaison
Anne 0
Anne 1
Temps
Double diffrence
97
Tableau 6.1
Double diffrence
Aprs
Avant
Diffrence
Traitement/participants
BA
Comparaison/
non participants
DC
BD
AC
DD = (B A) (D C)
Aprs
Avant
Diffrence
Traitement/participants
0,74
0,60
0,14
Comparaison/
non participants
0,81
0,78
0,03
0,07
0,18
Diffrence
Diffrence
98
99
Figure 6.2
Groupe de
comparaison
D = 0.81
C = 0.78
Rsultat
B = 0.74
A = 0.60
el
factuel r
ntre
Co
Groupe de
traitement
Anne 0
Anne 1
Temps
100
Pour vrier lquivalence des tendances avant lintervention, il faut avoir disposition au moins deux rondes de donnes tant pour le groupe de traitement que
le groupe de comparaison avant que le programme ne soit lanc. Lvaluation
ncessite donc trois rondes de donne : deux observations avant lintervention
pour valuer les tendances avant le lancement du programme et au moins une
observation aprs lintervention pour valuer limpact par double diffrence.
Une deuxime manire de tester lhypothse des tendances quivalentes
consiste effectuer un test dit placebo . Ce test formule une estimation par
double diffrence supplmentaire en utilisant un faux groupe de traitement,
cest--dire un groupe qui na en ralit pas t affect par le programme. Par
exemple, pour estimer limpact dun programme de tutorat personnalis sur la
probabilit que les tudiants de 7me anne frquentent davantage lcole, vous
choisissez des tudiants de 8me anne comme groupe de comparaison. Pour savoir
si les lves de 7me et 8me anne prsentent les mmes tendances en matire de
taux de frquentation scolaire, vous pourriez analyser si les lves de 6me et 8me
anne prsentent les mmes tendances. Vous savez que les lves de 6me anne ne
sont pas affects par le programme ; donc si vous effectuez une estimation par
double diffrence en utilisant des tudiants de 8me anne comme groupe de comparaison et des tudiants de 6me anne comme faux groupe de traitement, vous
devriez obtenir un impact nul. Si ce nest pas le cas, limpact estim doit provenir
dune diffrence sous-jacente entre les tendances de ces deux groupes dlves.
Cela remettrait galement en question lexistence de tendances quivalentes pour
les tudiants de 7me et 8me anne en labsence de programme.
Un test placebo peut tre ralis non seulement avec un faux groupe de traitement, mais galement avec un faux rsultat. Dans lexemple du tutorat, vous pouvez aussi vrier la validit de votre choix des tudiants de 8me anne comme
groupe de comparaison en valuant limpact du tutorat sur un rsultat qui ne sera
pas affect, par exemple le nombre de frres et surs des tudiants. Si votre estimation par double diffrence conclut que le tutorat a un impact sur le nombre de
frres et surs des tudiants, il est probable que le groupe de comparaison ne soit
pas adquat.
Il existe une quatrime manire de tester lhypothse des tendances quivalentes, et ce, en appliquant lestimation par double diffrence diffrents groupes
de comparaison. Dans lexemple du tutorat, vous pouvez effectuer dans un premier
temps lestimation en utilisant les tudiants de 8me anne comme groupe de comparaison, puis vous pouvez formuler une deuxime estimation en utilisant les tudiants de 6me anne. Si les impacts estims dans les deux cas sont quivalents, il est
probable que les deux groupes de comparaison soient valides.
Double diffrence
101
Inscrits
Non-inscrits
Aprs
(suivi)
Avant (donnes
de rfrence)
Diffrence
7,8
14,4
6,6
21,8
20,6
Diffrence
1,2
DD = 6,6 1,2 = 7,8
Rgression linaire
multivarie
7,8**
7,8**
(0,33)
(0,33)
102
Double diffrence
103
Notes
1. Bien que, en thorie, lassignation alatoire, la promotion alatoire et le
modle de discontinuit de la rgression ne ncessitent pas de donnes de
rfrence, en pratique, ces dernires sont essentielles pour conrmer que les
caractristiques du groupe de traitement et du groupe de comparaison sont
semblables. Pour cette raison, nous recommandons de collecter des donnes
de base pour toute valuation. Outre la vrication de la comparabilit des
deux groupes, il existe dautres bonnes raisons de collecter des donnes de
base, mme si la mthode utilise ne lexige pas. Premirement, avoir
disposition des caractristiques (exognes) de la population avant lintervention peut permettre de dterminer si le programme a un impact diffrent au
sein de la population ligible en fonction des caractristiques mesures avant
le programme (analyse dhtrognit). Deuximement, les donnes de base
peuvent galement permettre deffectuer une analyse an dinformer les
gestionnaires de programme avant mme le dbut de lintervention. La
collecte des donnes de base peut par ailleurs servir de pilote lchelle pour
la collecte de donnes aprs lintervention. Troisimement, les donnes de
base peuvent servir de garantie si lassignation alatoire nest pas mise en
uvre correctement. Lvaluateur peut alors utiliser une combinaison
104
Rfrences
DiTella, Rafael et Ernesto Schargrodsky. 2005. Do Police Reduce Crime?
Estimates Using the Allocation of Police Forces after a Terrorist Attack.
American Economic Review 94 (1) : 11533.
Duo, Esther. 2001. Schooling and Labor Market Consequences of School
Construction in Indonesia: Evidence from an Unusual Policy Experiment.
American Economic Review 91 (4) : 795813.
Galiani, Sebastian, Paul Gertler et Ernesto Schargrodsky. 2005. Water for Life:
The Impact of the Privatization of Water Services on Child Mortality. Journal
of Political Economy 113 (1) : 83120.
Double diffrence
105
CHAPITRE7
Appariement
La mthode dcrite dans ce chapitre comprend une srie de techniques statistiques que nous dsignerons collectivement par le terme dappariement. Les
mthodes dappariement peuvent tre appliques quelles que soient les rgles
dassignation de programme, partir du moment o il existe un groupe qui na pas
particip au programme. Les mthodes dappariement utilisent les caractristiques observes des inscrits et non-inscrits pour gnrer un groupe de comparaison. Ces mthodes reposent donc sur lhypothse trs forte quil ny a pas de
diffrence non observe corrle aux rsultats entre le groupe de traitement et le
groupe de comparaison. En raison de cette hypothse trs contraignante, les
mthodes dappariement sont gnralement plus utiles lorsquelles sont combines lune des autres mthodes dcrites ci-dessus.
Fondamentalement, lappariement utilise des techniques statistiques pour
produire un groupe de comparaison articiel en cherchant, pour chaque participant, une observation (ou une srie dobservations) du groupe de non-inscrits
qui prsente des caractristiques observables les plus semblables possible. Imaginez que vous cherchiez valuer limpact dun programme et que vous disposiez de donnes issues dune enqute dmographique et sanitaire la fois pour
les mnages participants et non participants. Le programme que vous cherchez
valuer na pas de rgle dassignation claire (comme lutilisation de lassignation alatoire ou dun indice dligibilit) qui puisse expliquer pourquoi certains
mnages participent au programme et dautres non. Dans ce contexte, les
mthodes dappariement peuvent vous permettre didentier les mnages
non-inscrits les plus semblables aux mnages inscrits sur la base des caractristiques observes dans les donnes. Les mnages non-inscrits apparis forment alors le groupe de comparaison servant estimer le contrefactuel.
Concept cl :
Lappariement consiste
utiliser de grandes
bases de donnes et
des techniques
statistiques complexes
pour gnrer le
meilleur groupe de
comparaison artificiel
possible pour un
groupe de traitement
donn.
107
Pour trouver une unit correspondant au mieux chaque participant du programme, il est important de dnir le plus prcisment possible les variables ou
dterminants expliquant pourquoi chaque individu a dcid de participer au programme ou non. Cette tche nest malheureusement pas simple. Si la liste des
caractristiques observes pertinentes est trs longue, ou si chaque caractristique comporte plusieurs valeurs, il peut tre difficile de trouver une unit correspondant exactement chacune des units du groupe de traitement. Plus le
nombre de caractristiques ou de dimensions des units apparier augmente,
plus vous risquez dtre confront un problme de dimensionnalit . Par
exemple, si vous nutilisez que trois caractristiques pour constituer le groupe de
comparaison appari, par exemple lge, le sexe et le lieu de naissance, vous trouverez probablement pour chaque participant des units correspondantes au sein
du groupe des non participants, mais vous courrez le risque de ne pas tenir
compte dautres caractristiques potentiellement importantes. En revanche, si
vous augmentez la liste des variables dappariement, par exemple, le nombre
denfants, le nombre dannes dducation, lge de la mre, lge du pre, etc.,
votre base de donnes risque de ne pas contenir assez dunits correspondantes
pour chaque participant au programme, moins quelle ne contienne un trs
grand nombre dobservations. La gure7.1 prsente un exemple dappariement
bas sur quatre caractristiques: lge, le genre, le nombre de mois de chmage
et le diplme dducation secondaire.
Heureusement, le problme de dimensionnalit peut tre vit en utilisant la
mthode dappariement par le score de propension (Rosenbaum et Rubin 1983).
Avec cette approche, il nest pas ncessaire dapparier chaque participant un non
participant prsentant exactement les mmes caractristiques observes. Il est suffisant destimer la probabilit que chaque participant et non participant sinscrive
Figure 7.1
Units de traitement
ge
19
35
41
23
55
27
24
46
33
40
108
Sexe
1
1
0
1
0
0
1
0
0
1
Mois de
chmage
3
12
17
6
21
4
8
3
12
2
Units de comparaison
Diplme
0
1
1
0
1
1
1
0
1
0
ge
24
38
58
21
34
41
46
41
19
27
Sexe
1
0
1
0
1
0
0
0
1
0
Mois de
chmage
8
2
7
2
20
17
9
11
3
4
Diplme
1
0
1
1
0
1
0
1
0
0
Appariement
109
Figure 7.2
Inscrits
Densit
Non-inscrits
Support commun
Score de propension
110
Coefficient
0,022**
0,017**
0,059**
0,030**
0,067
Autochtone = 1
0,345**
0,216**
0,676**
Salle de bains = 1
0,197**
Hectares de terre
0,042**
0,001*
Constante
0,664**
Appariement
111
Participants
Nonparticipants
apparis
Diffrence
Stat. de t
7,8
16,1
8,3
13,1
Dpenses de sant
des mnages
8,3**
(0,63)
programme. Dans lensemble, il semblerait donc que les mnages les plus pauvres et les
moins duqus soient plus susceptibles de participer au programme, ce qui parait
encourageant tant donn que le programme cible les mnages pauvres.
Maintenant que vous avez estim la probabilit que chaque mnage participe au
programme (leur score de propension), vous limitez lchantillon aux mnages participants et non participants que vous pouvez apparier. Pour chaque mnage participant, vous identiez un sous-groupe de mnages non participants prsentant des
scores de propension similaires. Le tableau7.2 compare les rsultats moyens pour les
mnages participants et les mnages non participants qui leur ont t apparis.
Pour obtenir une estimation dimpact en utilisant la mthode dappariement,
vous devez tout dabord calculer limpact individuel pour chaque mnage participant (en le comparant au mnage non participant appari) puis calculer la
moyenne de ces impacts individuels. Selon le tableau7.3, limpact estim grce
ce procd correspond une rduction de 8,3 dollars des dpenses de sant
desmnages.
QUESTION 7
112
Appariement
113
le score de propension la fois au niveau individuel et au niveau des villages. Ils dterminent
le score de propension en estimant la probabilit davoir accs leau courante par le biais de
la campagne nationale.
Lvaluation conclut que laccs leau courante entrane une rduction des cas de diarrhe : la prvalence de diarrhe serait 21 %
plus leve et leur dure 29 % plus longue en
labsence deau courante. Toutefois, ces
impacts ne sont pas observs dans les groupes
faible revenu, sauf si la femme du foyer a un
niveau de scolarit suprieur lcole primaire.
Jalan et Ravallion dcouvrent que limpact de
leau courante sur la sant est plus prononc
dans les mnages o les femmes sont mieux
duques. Ils concluent quil est important de
combiner des investissements dans les infrastructures, comme les rseaux deau, avec
dautres programmes visant amliorer lducation et rduire la pauvret.
114
Il nest pas possible de prouver quil ny a pas de caractristiques non observes susceptibles dinuer sur la participation et sur les rsultats; il faut donc le supposer. Il sagit
en gnral dune hypothse trs audacieuse. Lappariement permet de tenir compte des
caractristiques observes; mais ne peut cependant en aucun cas exclure lexistence
dun biais d aux caractristiques non observes. En rsum, cette hypothse selon
laquelle il nexiste aucun biais de slection dcoulant des caractristiques non observes est trs contraignante et ne peut pas tre vrie, ce qui est problmatique.
Lappariement est gnralement moins able que les autres mthodes dvaluation dj voques. Par exemple, les mthodes de slection alatoire ne reposent pas
sur lhypothse invriable selon laquelle il nexiste pas de variables non observes
associes tant la participation au programme quaux rsultats. En outre, lassignation alatoire ne ncessite pas dchantillons aussi importants ni de caractristiques
de base aussi nombreuses que la mthode dappariement.
Dans la pratique, les mthodes dappariement sont gnralement utilises lorsque
la slection alatoire, le modle de discontinuit de la rgression et la double diffrence ne peuvent pas tre utiliss. De nombreux valuateurs utilisent lappariement
a posteriori lorsquaucune donne de base nest disponible sur le rsultat ou les
caractristiques des participants. Ils utilisent une enqute ralise aprs le lancement du programme (a posteriori) pour dduire quelles taient les caractristiques
de la population au dpart (par exemple ge, situation de famille), puis ils apparient
le groupe de traitement un groupe de comparaison partir de ces caractristiques.
Cette approche nest pas sans risque puisquils peuvent, involontairement, effectuer
un appariement sur la base de caractristiques qui ont t affectes par le programme, ce qui remettrait en question la validit ou lobjectivit de lestimation.
En revanche, lappariement partir des caractristiques observes dans une
enqute de rfrence collecte avant la mise en uvre dun programme peut tre
trs utile sil est combin dautres techniques comme celle de la double diffrence,
qui tient compte de lhtrognit invariable dans le temps ou non observe. Lappariement est aussi plus utile lorsque la rgle dassignation du programme est
connue, auquel cas il peut tre effectu sur la base de cette rgle (voir chapitre8).
Les lecteurs auront ici compris quil est prfrable de concevoir lvaluation dimpact avant la mise en uvre dun programme. Une fois le programme mis en uvre,
sil nest pas possible dinuencer la faon dont il est attribu et quaucune donne de
base na t collecte, il restera peu voire pas de possibilits dvaluation ables.
Notes
1. Dans la pratique, de nombreuses dnitions de ce qui constitue le score de
propension le plus proche sont utilises pour raliser lappariement. Les
units de comparaison les plus proches peuvent tre dnies sur la base dune
stratication du score de propension (identication des voisins les plus proches
de lunit de traitement soit en fonction de la distance ou dun rayon dni) ou en
utilisant des techniques non-paramtriques (kernel). Il est conseill de vrier la
robustesse des rsultats obtenus par divers algorithmes dappariement.
Appariement
115
2. La section de ce manuel consacre lappariement se concentre principalement sur lappariement simple (dune unit une autre). Dautres types
dappariement, comme lappariement dun plusieurs ou lappariement avec
ou sans remplacement ne sont pas abords. Dans tous les cas, lintuition
fondamentale dcrite ici sapplique.
3. Rosenbaum (2002) prsente une revue dtaille des mthodes dappariement.
4. Pour les lecteurs verss en conomtrie, ceci implique que la participation est
indpendante du rsultat en conditionnant sur les caractristiques utilises
pour lappariement.
Rfrences
Jalan, Jyotsna et Martin Ravallion. 2003a. Estimating the Benet Incidence of an
Antipoverty Program by Propensity-Score Matching. Journal of Business &
Economic Statistics 21 (1): 1930.
. 2003b. Does Piped Water Reduce Diarrhea for Children in Rural India?
Journal of Econometrics 112 (1): 15373.
Rosenbaum, Paul. 2002. Observational Studies. 2e d. Springer Series in Statistics.
New York: Springer-Verlag.
Rosenbaum, Paul et Donald Rubin. 1983. The Central Role of the Propensity Score
in Observational Studies of Causal Effects. Biometrika 70 (1): 4155.
116
CHAPITRE8
Combinaisons de mthodes
Nous avons vu que la plupart des mthodes dvaluation dimpact ne produisent
des estimations valides du contrefactuel que sous certaines hypothses. Ds lors,
le principal risque dutiliser une mthode donne est que les hypothses sur lesquelles elle repose ne soient pas valables et que lestimation de limpact du programme soit par consquent incorrecte. Dans cette section, nous allons rsumer
ces potentiels problmes mthodologiques et voquer les stratgies qui permettent de rduire le risque de biais. tant donn que ce risque dcoule principalement de violations des hypothses sous-jacentes, nous allons nous concentrer sur
les approches pour vrier ces hypothses.
Il est possible de vrier la validit des hypothses qui sous-tendent un certain
nombre de mthodes dvaluation. Pour dautres mthodes, la vracit des hypothses ne peut jamais tre tablie avec certitude, mais diffrents tests de falsication
peuvent contribuer suggrer que ces hypothses sont bel et bien valables. Les tests
de falsication sont comparables des tests de rsistance: en cas dchec, il y a de
fortes chances que les hypothses sous-tendant la mthode soient inexactes dans un
contexte donn. En revanche, un test russi napporte quune indication partielle de
la vracit des hypothses. Lencadr8.1 prsente une liste de tests de vrication
et de falsication qui peuvent tre utiliss pour valuer la pertinence dune mthode
dvaluation dans un contexte particulier. La liste contient certaines questions
pratiques dont les rponses peuvent tre obtenues en analysant les donnes de
lenqute de base.
117
Offre alatoire
Si ladhrence nest pas totale, lassignation
alatoire revient loffre alatoire.
Promotion alatoire
La promotion alatoire fournit une estimation
valide du contrefactuel si la campagne de promotion augmente substantiellement la participation au programme sans influencer directement le rsultat ltude.
118
Appariement
Lappariement repose sur lhypothse selon laquelle les units participantes et les units non
participantes sont similaires au niveau des variables non observes qui pourraient affecter
leur probabilit de participation au programme
et le rsultat (Y).
Pouvez-vous apparier chaque unit de traitement avec une unit de comparaison ? Vrifiez quil existe un support commun suffisant
dans la distribution des scores de propension.
Un support commun limit indique que les
participants et les non participants sont trs
diffrents, suggrant que lappariement nest
peut-tre pas la mthode la plus pertinente.
a. Comme nous lavons dj indiqu, pour des raisons statistiques, il nest pas ncessaire que toutes les caractristiques observes dans le groupe de traitement et dans le groupe de comparaison soient similaires pour
que lassignation alatoire puisse tre considre comme efficace. Mme si les caractristiques des deux
groupes sont entirement similaires, on peut sattendre ce que 5 % des caractristiques prsentent une
diffrence statistiquement significative en utilisant un niveau de confiance de 95 % pour le test.
b. Nous naborderons pas cette technique dans ce manuel, mais elle consiste combiner le modle de discontinuit de la rgression avec une variable instrumentale. Il sagit dutiliser le seuil dligibilit comme variable
instrumentale pour la participation effective des units au programme dans la premire tape dune mthode
des moindres carrs deux tapes.
Combinaisons de mthodes
Mme si toutes les mthodes dvaluation comportent des risques de biais, il est parfois possible de les limiter en combinant plusieurs mthodes. La combinaison de
plusieurs mthodes permet en effet de compenser les limites dune mthode donne
et ainsi de renforcer la solidit de lestimation du contrefactuel.
Combinaisons de mthodes
119
Combinaisons de mthodes
121
122
Bien quil soit possible de corriger un manque dadhrence totale en utilisant des
variables instrumentales, il convient de souligner deux points:
1. Dun point de vue technique, il nest pas souhaitable quune large proportion du
groupe de comparaison participe au programme. Les valuateurs et les dcideurs
impliqus dans lvaluation dimpact doivent travailler ensemble pour faire en
sorte de limiter cette proportion.
2. La mthode variable instrumentale nest valide que dans certaines circonstances et ne constitue pas une solution universelle.
Effets de diffusion
Mme si le groupe de comparaison ne participe pas directement au programme, il
peut bncier indirectement dun effet de diffusion (ou de dbordement) dcoulant du groupe de traitement. Kremer et Miguel (2004) examinent limpact de la
distribution de mdicaments vermifuges aux enfants dans les coles kenyanes et
prsentent un exemple intressant de ce phnomne (encadr8.3). Les vers intestinaux sont des parasites qui peuvent tre transmis dune personne lautre par
contact avec des matires fcales contamines. Lorsquun enfant prend des mdicaments vermifuges, son degr dinfestation par les vers diminue. Les personnes
vivant dans le mme environnement que cet enfant sont leur tour en contact avec
moins de vers. Ainsi, dans lexemple kenyan, la distribution de vermifuges aux
enfants dune cole bncie non seulement aux enfants de cette cole (un effet
direct), mais galement ceux des coles voisines (un effet indirect).
Comme le montre la gure 8.1, la distribution de vermifuges aux coles du
groupeA permet de rduire le nombre de vers chez les enfants des coles du groupeB
ne participant pas au programme, mais se situant proximit des coles du groupeA.
En revanche, les coles non participantes loignes des coles du groupeA (coles
du groupeC) ne sont pas touches par les effets de diffusion, car la distribution de
mdicaments au groupeA na pas deffet indirect sur les vers touchant le groupeC.
Kremer et Miguel (2004) concluent que le traitement vermifuge rduit fortement le
taux dabsentisme non seulement dans les coles participant au programme (comparaison entre le groupeA et le groupeC), mais galement dans les coles non participantes voisines (comparaison entre le groupeB et le groupeC).
Quand des effets de dbordements sont possibles, il est important que lvaluateur vrie quils naffectent pas lensemble du groupe de comparaison. Pour
autant que suffisamment dunits de comparaison ne soient pas affectes par les
effets de diffusion (le groupe C dans lexemple du traitement vermifuge), vous
pourrez estimer limpact du programme en comparant les rsultats des units du
groupe de traitement et ceux des units du groupe de comparaison non affect.
Linconvnient est que lvaluation ne pourra pas permettre de gnraliser lestimation des effets du traitement lensemble de la population. Lors de la conception de lvaluation, si vous pensez quun programme engendrera des effets de
dbordements, vous pouvez ajuster la mthode dvaluation an de produire de
meilleurs rsultats. Premirement, lvaluation doit pouvoir compter sur un
Combinaisons de mthodes
123
Figure 8.1
Effets de diffusion
Groupe de traitement
Groupe A
Groupe C
Groupe B
La gure 8.1 montre quil est possible destimer la fois limpact dun programme et ses ventuels effets de diffusion. Les mdicaments sont distribus au
groupeA. Les effets du traitement se propagent au groupeB. Le groupeC est plus
loign et ne bncie donc pas des effets de diffusion. Ce scnario peut tre
obtenu par lassignation alatoire du traitement entre deux units rapproches et
une unit similaire plus loigne. Dans ce cadre simple, limpact du programme
peut tre estim en comparant les rsultats du groupeA ceux du groupeC, et les
effets de diffusion peuvent tre estims en comparant les rsultats du groupeB
ceux du groupeC.
Considrations supplmentaires
Outre le manque dadhrence totale et les effets de diffusion, dautres facteurs doivent tre pris en compte au moment de llaboration dune valuation dimpact.
Ces facteurs sont communs la plupart des mthodologies que nous avons abordes et ils sont gnralement plus difficiles attnuer1.
Au moment de la planication dune valuation, il convient de dterminer le
meilleur moment pour collecter les donnes. Sil faut attendre longtemps avant
quun programme exerce un impact sur les rsultats, collecter les donnes trop tt
Combinaisons de mthodes
125
peut impliquer une estimation dimpact nulle (voir par exemple King et Behrman
2009). Au contraire, si lenqute de suivi est ralise trop tard, vous ne serez pas en
mesure dvaluer les effets du programme temps pour informer les dcideurs. Si
vous souhaitez valuer la fois limpact court terme et long terme du programme, vous devrez collecter plusieurs rondes de donnes de suivi aprs lintervention. Le chapitre 10 contient des informations complmentaires pour
dterminer le calendrier de lvaluation.
Si vous souhaitez estimer limpact dun programme sur un groupe entier, vous
risquez de passer ct de certaines variations des impacts entre les diffrents bnciaires du traitement. La plupart des mthodes dvaluation partent du principe
quun programme affecte les rsultats de manire simple et linaire pour toutes les
units de la population tudie. Des problmes peuvent toutefois survenir lorsque
lampleur de la raction dpend de faon non linaire de lampleur de lintervention
ou lorsquun groupe recevant un traitement de forte intensit est compar un
groupe recevant un traitement de faible intensit. Si vous pensez que diffrents sousgroupes sont susceptibles de ragir diffremment au programme, vous pouvez envisager de former des chantillons spars pour chaque sous-groupe. Admettons que
vous cherchiez connatre limpact dun programme de repas scolaires sur les lles,
mais quelles ne reprsentent que 10% des lves. Dans ce cas, il est possible que
mme un large chantillon dlves ne contienne pas un nombre suffisant de lles
pour vous permettre destimer limpact du programme sur celles-ci. Il vous faudra
donc stratier votre chantillon en fonction du genre et inclure un nombre suffisant
de lles dans lchantillon nal pour vous permettre didentier un impact donn.
Lorsque vous ralisez une valuation dimpact, il est possible que vous provoquiez involontairement des changements de comportements au sein de la population ltude, ce qui peut limiter la validit externe des rsultats de votre
valuation. Par exemple, leffet Hawthorne se produit lorsque le fait mme dtre
observes provoque un changement de comportement chez les units (Levitt et
List 2009). Leffet John Henry se produit lorsque les units de comparaison font
des efforts supplmentaires pour compenser labsence de traitement. Lanticipation peut entraner un autre type de comportement involontaire. Dans le cadre
dun dploiement alatoire dun programme, les units du groupe de comparaison peuvent sattendre bncier du programme lavenir et donc commencer
changer de comportement avant mme que le programme ne leur parvienne. Si
vous avez des raisons de penser que ces comportements involontaires existent, la
cration de groupes de comparaison supplmentaires qui ne sont en aucune
faon affects par lintervention peut tre une option qui vous permet de contrler pour ces comportements, ou mme de mesurer explicitement leur amplitude.
126
Note
1. Le chapitre3 aborde dautres facteurs limitant la validit externe lis aux biais
dchantillonnage ou diffrents niveaux dattrition pour le groupe de
traitement et le groupe de comparaison.
Combinaisons de mthodes
127
Rfrences
Cattaneo, Matias, Sebastian Galiani, Paul Gertler, Sebastian Martinez et Rocio
Titiunik. 2009. Housing, Health and Happiness. American Economic
Journal : Economic Policy 1 (1): 75105.
King, Elizabeth M. et Jere R. Behrman. 2009. Timing and Duration of Exposure
in Evaluations of Social Programs. World Bank Research Observer 24 (1): 5582.
Kremer, Michael et Edward Miguel. 2004. Worms: Identifying Impacts
on Education and Health in the Presence of Treatment Externalities.
Econometrica 72 (1): 159217.
Levitt, Steven D. et John A. List. 2009. Was There Really a Hawthorne Effect
at the Hawthorne Plant? An Analysis of the Original Illumination
Experiments. NBER Working Paper 15016, National Bureau of Economic
Research, Cambridge, MA.
128
CHAPITRE9
valuation de programmes
multiples facettes
Jusqu prsent, nous nous sommes concentrs sur des programmes qui ne comprennent quun seul type de traitement. Dans la pratique, de nombreuses questions
politiques pertinentes se posent concernant des programmes multiples facettes,
par exemple des programmes qui combinent plusieurs types de traitement1. Les
dcideurs peuvent non seulement chercher savoir si un programme est efficace,
mais aussi sil fonctionne mieux ou est plus rentable quun autre. Par exemple, en vue
daccrotre le taux de scolarisation, est-il plus efficace de mettre en uvre des interventions qui inuencent la demande (comme les transferts montaires aux familles)
ou loffre (une meilleure rmunration des enseignants)? La mise en place conjointe
de ces deux types dinterventions serait-elle plus efficace que chaque intervention
ralise sparment? Autrement dit, sont-elles complmentaires? Dautre part, si la
rentabilit des programmes est une priorit, vous pouvez vous demander quel est le
niveau de services optimal que le programme doit fournir. Par exemple, quelle est la
dure optimale dun programme de formation professionnelle? Un programme de
six mois permet-il un plus grand nombre de participants de trouver un emploi
quun programme de trois mois? Le cas chant, la diffrence de rsultats est-elle
suffisante pour justier la mobilisation des ressources supplmentaires pour mettre
en uvre un programme de six mois ?
Au-del de la simple estimation de limpact dune intervention sur le rsultat
ltude, les valuations dimpact peuvent permettre de rpondre des questions
plus gnrales:
Quel est limpact dun traitement compar limpact dun autre traitement?
Par exemple, quel est limpact sur le dveloppement cognitif des enfants
dun programme dducation parental en comparaison limpact dun programme de nutrition?
129
Limpact cumul de deux traitements est-il plus important que la somme des impacts de chaque traitement pris sparment ? Par exemple, limpact global du
programme dducation parental et du programme de nutrition est-il plus important, quivalent ou moins important que la somme des impacts des deux
interventions pris sparment?
Quel est limpact supplmentaire dun traitement forte intensit compar un
traitement faible intensit? Par exemple, quel est limpact sur le dveloppement
cognitif des enfants en retard de croissance de la visite domicile dun travailleur
social toutes les deux semaines en comparaison une seule visite mensuelle?
Ce chapitre illustre comment laborer des valuations dimpact pour plusieurs
types de programmes multiples facettes: ceux qui offrent un traitement qui peut
avoir une intensit variable, et ceux qui contiennent plusieurs types de traitements. Nous abordons dans un premier temps les mthodes dlaboration dvaluation dimpact de programme avec plusieurs niveaux de bnces potentiels,
puis nous tudierons comment distinguer les diffrents types dimpact dun programme comportant plusieurs traitements. Les exemples donns reposent sur
lutilisation du mcanisme dassignation alatoire, mais peuvent tre galement
appliqus dautres mthodes.
130
Figure 9.1
WDSH
units ligibles
WDSH
chantillon dvaluation
WDSH
assignation alatoire aux
traitements de niveaux lev
et faible
ble
Units
non ligibles
Units
ligibles
131
obtenant les meilleurs rsultats la n du cycle primaire, et une bourse de 45dollars est accorde aux 25 suivants. Les lves obtenant les moins bons rsultats ne
reoivent pas de bourse. Dans ce contexte, un modle de discontinuit de la rgression permet de comparer les rsultats des lves non seulement autour du seuil de
45dollars, mais galement autour du seuil de 60dollars. Filmer et Schady (2009)
prsentent les rsultats dune valuation de ce type ralise au Cambodge lissue
de laquelle ils concluent que limpact de la bourse de 60dollars sur le taux de scolarisation nest pas plus lev que celui de la bourse de 45dollars. Ce rsultat est
trs important dun point de vue politique, car il suggre quil est possible daugmenter la couverture du programme dun tiers avec un mme budget (par exemple,
distribuer 20000 bourses de 45 dollars au lieu de 15000 bourses de 60 dollars)
tout en assurant lefficacit du programme.
Figure 9.2
WDSH
units ligibles
Units
non ligibles
WDSH
chantillon dvaluation
WDSH
assignation
alatoire au
1erWUDLWHPHQW
WDSH
assignation
alatoire au
2eWUDLWHPHQW
Units
ligibles
133
Comparaison Traitement
Intervention 2
Intervention 1
Traitement
Comparaison
Groupe A
Groupe C
Groupe B
Groupe D
134
Formation
Programme
des
national
enseignants
Groupe
Nombre
dcoles
88
Oui
41
Oui
Oui
42
Oui
Oui
83
40
Oui
Oui
40
Oui
Oui
Baisse des
frais
dducation
(printemps 2003
et automne 2004)
Oui
Oui
Oui
Oui
Oui
Les chercheurs concluent quau bout de deux ans, le programme de formation des
enseignants na quun impact limit sur les connaissances des lves, les activits
sexuelles rapportes, lutilisation du prservatif ou les grossesses chez les adolescentes, bien quil ait amlior lenseignement du programme national. Les dbats et
les concours de rdaction renforcent les connaissances et lutilisation des prservatifs
sans augmenter les activits sexuelles rapportes. Enfin, la rduction des frais dducation de par la distribution duniformes scolaires permet de rduire les taux dabandon
et les grossesses chez les adolescentes. Les chercheurs concluent que la distribution
duniformes scolaires a un impact plus marqu sur la rduction des grossesses chez les
adolescentes que la formation des enseignants au programme national sur le VIH/sida.
Source : Duflo et al. 2006.
135
mesure de distinguer les diffrences de rsultats entre les diffrents groupes, chaque
groupe doit contenir un nombre suffisant dunits pour garantir une puissance statistique satisfaisante. An de dceler des diffrences entre les diffrentes branches
de lintervention, des chantillons plus importants seront ncessaires que pour
effectuer de simples comparaisons dun groupe de traitement et dun groupe de
comparaison. Si les deux branches du traitement entranent des changements de
rsultats, des chantillons plus importants devront tre constitus pour dtecter
dventuelles diffrences (souvent plus petites) entre les deux groupes.
Finalement, les tudes croises peuvent galement tre mises en place dans le
cadre dvaluations combinant plusieurs mthodes (encadrs9.1 et 9.2). Les rgles
oprationnelles qui rgissent lassignation de chaque traitement dterminent la
combinaison des mthodes utiliser. Par exemple, le premier traitement peut tre
attribu sur la base dun seuil dligibilit tandis que le deuxime est assign de
manire alatoire. Dans ce cas, il est possible de raliser un modle de discontinuit
de la rgression pour la premire intervention et suivre une mthode dassignation
alatoire pour la seconde.
136
Note
1. Voir Banerjee et Duo (2009) pour une explication plus dtaille.
Rfrences
Banerjee, Abhijit et Esther Duo. 2009. The Experimental Approach to
Development Economics. NBER Working Paper 14467, National Bureau of
Economic Research, Cambridge, MA.
Duo, Esther, Pascaline Dupas, Michael Kremer et Sameul Sinei. 2006.
Education and HIV/AIDS Prevention: Evidence from a Randomized
Evaluation in Western Kenya. Document de travail consacr la
recherchesur les politiques 402, Banque mondiale, Washington, DC.
Filmer, Deon et Norbert Schady. 2009. School Enrollment, Selection and Test
Scores. Document de travail consacr la recherchesur les politiques 4998,
Banque mondiale, Washington, DC.
Olken, Benjamin. 2007. Monitoring Corruption: Evidence from a Field
Experiment in Indonesia. Journal of Political Economy 115 (2): 20049.
137
Partie 3
COMMENT METTRE
EN UVRE UNE VALUATION
DIMPACT
Dans la premire partie de louvrage, nous avons expos pourquoi effectuer des
valuations dimpact et expliqu quand elles sont opportunes. Les valuations
sont conues pour rpondre des questions de politique bien dfinies, par
exemple, dans le cadre de ngociations budgtaires ou pour prendre des
dcisions sur lextension dun programme alimentaire, laugmentation du montant de bourses pour les tudiants ou la mise en uvre dune rforme hospitalire. Les objectifs de lvaluation et les questions qui lorientent doivent dcouler directement de ces questions politiques. Aprs avoir clairement dfini le
programme valuer et les questions de politique sur lesquelles lvaluation
doit porter, il est utile dlaborer une thorie du changement, telle quune chane
de rsultats du programme, et de choisir des indicateurs en consquence. Dans
la deuxime partie de cet ouvrage, nous avons dcrit une srie de mthodes,
illustres par des exemples, qui permettent dvaluer limpact dun programme ;
nous avons prsent les avantages et les inconvnients de chacune delles.
La troisime partie porte sur les tapes oprationnelles qui jalonnent la gestion
ou la commande dune valuation dimpact. Ces tapes constituent les
lments clefs de la ralisation dune valuation dimpact dans le but de rpondre aux questions de politique formules et destimer limpact causal du
programme. Les tapes oprationnelles dune valuation dimpact peuvent tre
regroupes en quatre phases principales : conception de lvaluation, choix dun
chantillon, collecte des donnes et production et diffusion des rsultats.
La figure ci-dessous illustre ces phases, dtailles dans les chapitres 10 13.
Le chapitre 10 porte sur les principales composantes de la mise en uvre dune
valuation. Elle commence par le choix dune mthode dvaluation en fonction
du plan dimplmentation du programme. Avant de pouvoir mettre lvaluation
en uvre, vous vous assurez quelle rpond des normes dthique. Vous
constituez ensuite une quipe charge de lvaluation, vous tablissez un budget et dfinissez un mode de financement.
Le chapitre 11 passe en revue comment constituer des chantillons pour collecter des donnes et combien dunits y inclure.
Au chapitre 12, nous abordons les diffrentes tapes de la collecte de donnes.
En gardant lesprit les questions de politique auxquelles vous voulez rpondre
et la conception de votre valuation, vous devez dterminer si les donnes
existantes sont suffisantes et dcider si de nouvelles donnes doivent tre collectes. Vous commanditez la rdaction dun questionnaire pertinent qui vous
permettra de mesurer les indicateurs choisis. Vous choisissez ensuite une entreprise ou un organisme spcialis en collecte de donnes. Celui-ci recrutera et
formera du personnel de terrain et procdera au pilotage du questionnaire.
Aprs avoir effectu les ajustements ncessaires, lentreprise ou lorganisme
pourra entamer le travail sur le terrain. Enfin, les donnes collectes sont saisies
ou traites et valides avant dtre analyses.
Le chapitre 13 porte sur les tapes finales de lvaluation. Il dcrit les produits
gnrs par lvaluation et le contenu des rapports dvaluation, et nonce
quelques lignes directrices sur la manire de diffuser les rsultats auprs des
dcideurs et des diffrentes parties prenantes.
140
Figure P3.1
Mettre
en uvre
lvaluation
(ch. 10)
s
s
s
s
s
Choisir lchantillon
(ch. 11)
Collecter
les donnes
(ch. 12)
Produire et
dissminer
les rsultats
(ch. 13)
s
s
s
s
141
CHAPITRE 10
Mettre en uvre
une valuation dimpact
Dans la deuxime partie de ce manuel, nous avons voqu diverses mthodes permettant de gnrer des groupes de comparaison valides. Lestimation de limpact
causal dun programme est fonde sur ces groupes de comparaison. Nous allons
maintenant examiner les aspects pratiques relatifs au choix de la mthode la plus
adquate pour un programme donn. Comme nous le verrons, les rgles oprationnelles du programme dterminent la provenance des groupes de comparaison et,
partant, la mthode dvaluation la plus approprie compte tenu du contexte.
Concept cl :
Les rgles oprationnelles du programme
dterminent le choix
de la mthode
dvaluation
(et non linverse).
143
144
145
146
La collecte de donnes sur le revenu ou la consommation de lensemble des bnciaires potentiels dans le but de les classer par niveau de pauvret constitue un processus complexe et onreux. Pour cette raison, nombreux sont les programmes qui
utilisent une approche indirecte comme un test de type proxy mean pour estimer
le niveau de pauvret. Ces approches fournissent des mesures approximatives du
niveau de pauvret des bnciaires potentiels en se fondant sur leur possession dactifs ou leurs caractristiques sociodmographiques (Grosh et al. 2008). Cependant,
ces mesures peuvent contenir des erreurs, cotent cher et ne permettent pas toujours
dtablir un classement prcis des mnages selon leurs besoins ou leur statut socioconomique, surtout dans la partie infrieure de la distribution du revenu. Les tests de
type proxy mean peuvent contribuer dterminer de manire relativement able
si un mnage donn se situe au-dessus ou au-dessous dun seuil donn, mais se rvlent moins efficaces lorsquil sagit destimer la distance par rapport ce seuil. Ces
approches permettent didentier les populations pauvres ligibles, mais pas forcment dtablir un classement de ces populations en fonction de leurs besoins relatifs.
Pour contourner les problmes de cots et la complexit associs au classement
des individus ou des mnages selon leurs besoins relatifs, le ciblage des programmes
seffectue souvent un niveau suprieur, par exemple au niveau des communauts.
Lhypothse sous-jacente cette approche est que les mnages qui composent les
communauts sont globalement homognes et que la grande majorit de la population est potentiellement ligible. Il serait ds lors injusti de subir des couts levs
dans le seul but didentier un nombre limit dindividus inligibles. Dans ce cas,
tous les membres de la communaut sont considrs comme ligibles au programme.
Cette stratgie est souvent efficace pour de petites communauts rurales, mais elle
lest moins pour les programmes raliss en zones urbaines, o les populations sont
plus htrognes. Le ciblage un niveau dagrgation lev prsente des avantages
oprationnels indniables, mais ne permet pas toujours dviter le classement des
bnciaires sur la base dun indicateur objectif et quantiable des besoins.
Si lagence qui assure le nancement du programme dcide de ne pas tablir de
classement des besoins, car elle estime le risque derreur ou les cots trop levs, elle
doit recourir dautres critres pour dnir comment articuler la squence des diffrentes phases du programme. Lquit est un critre compatible avec les principes
de bonne gouvernance. Une rgle quitable peut consister donner toutes les personnes ligibles la mme chance dtre intgres dans la premire phase du programme et dassigner, de manire alatoire, les bnciaires potentiels lune des
phases suivantes du programme. Cette rgle dallocation est non seulement juste et
quitable, mais elle permet de garantir la validit interne et externe de lvaluation.
Passer des rgles oprationnelles aux groupes de comparaison
Dans le tableau 10.1, nous prsentons les groupes de comparaison possibles en fonction
des rgles oprationnelles des programmes et des trois questions oprationnelles
fondamentales relatives au nancement, au ciblage et au calendrier que nous avons
voques ci-dessus. Le tableau comprend deux colonnes principales: la premire correspond aux cas o le programme nest pas dot des ressources suffisantes pour couvrir lensemble des bnciaires potentiels, et la seconde aux cas o ces ressources
Mise en uvre dune valuation dimpact
147
Tableau 10.1 Relations entre les rgles oprationnelles dun programme et les mthodes
dvaluation dimpact
FINANCEMENT
CALENDRIER
RGLES DE
CIBLAGE
Ciblage selon
classement
continu et seuil
dligibilit
(1)
Pas de ciblage
selon
classement
continu et seuil
dligibilit
(2)
Pas de ciblage
selon
classement
continu et seuil
dligibilit
(3)
Pas de ciblage
selon
classement
continu et seuil
dligibilit
(4)
CELLULE A1
CELLULE A2
CELLULE A3
CELLULE A4
(3.1)
Assignation
alatoire
(3.1)
Assignation
alatoire
(4) MDR
(3.2)
Promotion
alatoire
(3.1)
Assignation
alatoire par
phases
(3.1)
Assignation
alatoire par
phases
(4) MDR
(3.2)
Promotion
alatoire pour
participation
phase initiale
Mise en uvre
par phases (A)
(5) DD avec
(6) Appariement
(5) DD avec
(6) Appariement
Mise en uvre
immdiate (B)
CELLULE B1
CELLULE B2
CELLULE B3
CELLULE B4
(3.1)
Assignation
alatoire
(3.1)
Assignation
alatoire
(4) MDR
En absence
de participation
universelle :
(4) MDR
(3.2)
Promotion
alatoire
(3.2)
Promotion
alatoire
(5) DD avec
(5) DD avec
(6) Appariement
(6) Appariement
Remarque : les chiffres entre parenthses renvoient au chapitre du manuel o la mthode est prsente. MDR = modle de
discontinuit de la rgression ; DD = double diffrence
sont suffisantes (nancement). Chacune de ces deux colonnes est son tour subdivise
en deux autres colonnes selon que le programme est cibl ou ouvert tous
(rgles de ciblage). Les lignes sont divises en fonction des impratifs temporels
(calendrier), selon que les bnciaires du programme sont intgrs immdiatement
au programme ou par phases. Chaque cellule du tableau indique les mthodes
possibles pour former un groupe de comparaison valide. Chaque cellule est associe
une lettre indiquant sa place dans les lignes du tableau (ligne A ou B) et un chiffre
reprsentant les colonnes (de 1 4). Par exemple la cellule A1 se rfre la premire
ligne (A) et la premire colonne (1). Dans la cellule A1 gurent les mthodes dvaluation les plus adaptes aux programmes cibls, dots de ressources limites et mis en
uvre par phases.
148
Pour la plupart des programmes, une mise en uvre par phases est ncessaire du
fait de contraintes nancires, logistiques ou administratives. Cette catgorie de
programmes se retrouve dans la premire ligne du tableau (cellules A1, A2, A3 et A4).
Dans ces cas-l, la rgle oprationnelle la plus quitable, la plus transparente et qui
permet de tenir les gestionnaires des programmes responsables consiste donner
chacun une chance gale dintgrer le programme dans chacune des phases, autrement dit de procder par assignation alatoire aux diverses phases du programme.
Lorsque les ressources sont limites, cest--dire dans les cas o les ressources
sont insuffisantes pour couvrir lensemble de la population (cellules A1 et A2, ainsi
que B1 et B2), la demande peut rapidement dpasser loffre. Un tirage au sort est
alors un bon moyen de choisir les bnciaires parmi une population ayant les
mmes besoins relatifs. Ainsi, chacun a une chance gale dintgrer le programme.
Le tirage au sort est une rgle oprationnelle dallocation des services dun programme qui est quitable, transparente et qui permet de tenir les gestionnaires des
programmes responsables.
Les cellules A1 et A3 comprennent une autre catgorie de programmes, savoir
ceux qui doivent tre mis en uvre par phases et o un classement des bnciaires
selon les besoins est possible. Si les bnciaires potentiels sont classs selon des
critres quantitatifs et quun seuil dligibilit peut tre x, un modle de discontinuit de la rgression peut tre adopt.
Les cellules de la dernire ligne du tableau regroupent une autre grande catgorie, les programmes pour lesquels les capacits administratives sont suffisantes pour
permettre une mise en uvre immdiate. Lorsque les ressources sont limites et
quil nest pas possible dtablir un classement des bnciaires (cellule B2), lvaluation peut avoir recours une assignation alatoire quand la demande est suprieure
loffre. Si les ressources sont suffisantes pour couvrir lensemble de la demande et
quil ny pas de critres de ciblage (cellule B4), la promotion alatoire est alors la
seule possibilit pour autant que la participation au programme ne soit pas universelle. Sil est possible dtablir une priorit parmi les bnciaires potentiels et que le
programme est cibl, le modle de discontinuit de la rgression peut de nouveau
faire laffaire.
Dtermination de lchelle minimum de lintervention
Les rgles oprationnelles dterminent galement lchelle minimum dintervention, cest--dire le niveau auquel le programme est mis en uvre. Par exemple, si un
programme de sant est excut lchelle rgionale, tous les villages de la rgion en
bncieront (en groupe) ou en seront exclus. Certains programmes peuvent tre
efficacement mis en uvre au niveau des individus, des mnages ou des institutions
tandis que dautres doivent tre implments au niveau dune communaut ou dune
rgion administrative. Lexcution dune intervention un niveau lev (par exemple
au niveau dune province ou dun tat) peut se rvler problmatique pour lvaluation pour trois raisons principales:
1. La taille de lchantillon dvaluation et le cot de lvaluation augmentent avec
lchelle dintervention.
149
2. Plus lchelle dintervention est leve, plus il est difficile de disposer dun nombre
suffisant dunits inclure dans lvaluation.
3. La validit interne de lvaluation peut tre plus risque avec des units
dintervention grande chelle.
Premirement, les valuations portant sur des niveaux dintervention levs comme
des communauts ou des rgions administratives exigent des chantillons de taille
plus importante et sont plus coteuses que les valuations concernant des units
dun niveau moindre comme les personnes ou les mnages1. Le niveau dintervention
est important, car il dnit lunit laquelle le traitement sera appliqu ainsi que les
groupes de comparaison forms, ce qui dtermine aussi la taille de lchantillon
dvaluation et donc son cot. Pour les interventions un niveau lev, un chantillon plus important est ncessaire pour pouvoir dterminer limpact rel du programme. Lintuition sous-jacente cette affirmation sera examine au chapitre 11,
lequel porte sur les calculs de puissance et la manire de dnir la taille de lchantillon dvaluation.
Un point lgrement diffrent est que la taille de lchantillon ncessaire pour
que lassignation alatoire gnre des groupes de traitement et de comparaison quilibrs devient problmatique des niveaux levs dagrgation. Intuitivement,
si le niveau dagrgation est la province et que le pays ne compte que six provinces,
lassignation alatoire a peu de chances de conduire des groupes de traitement et
de comparaison quilibrs. Supposons que nous affectons trois provinces au groupe
de traitement et les trois autres au groupe de comparaison ; il est trs peu probable
que les provinces du groupe de traitement soient similaires celles du groupe de
comparaison mme si le nombre de mnages dans chaque province est important.
Pour quilibrer les groupes de comparaison et de traitement, llment cl est le
nombre dunits affectes chacun des deux groupes (dans ce cas le nombre de
provinces) et non pas le nombre dindividus ou de mnages dans lchantillon.
Le troisime problme lorsque lintervention est mise en uvre un niveau lev
est que les changements diffrentiels dans le temps ont plus de risques daffecter la
validit interne de la slection alatoire mme si les caractristiques des groupes
sont initialement quilibres. Revenons notre exemple des provinces comme
niveau dintervention dans le cadre du programme dassurance maladie. Certaines
provinces sont assignes de manire alatoire au groupe de traitement et dautres au
groupe de comparaison. Supposons que nous avons de la chance et que les deux
groupes sont quilibrs au dpart, cest--dire que les mnages du groupe de traitement et ceux du groupe de comparaison affichent initialement des dpenses de sant
directes moyennes quivalentes. Aprs la collecte des donnes de rfrence, certaines provinces peuvent dcider de lancer dautres programmes de sant comme
des programmes de vaccination ou encore des projets dapprovisionnement en eau
et dassainissement qui permettent damliorer la sant de la population et, de ce fait,
de rduire les dpenses de sant directes des mnages. Si les groupes de comparaison et de traitement ne bncient pas tous des mmes politiques, limpact de notre
programme dassurance maladie sur les dpenses de sant directes des mnages se
confondra avec limpact des autres politiques de sant mises en uvre par certaines
150
provinces. De mme, certaines provinces peuvent enregistrer une croissance conomique suprieure dautres. Or, les dpenses de sant ont de fortes chances daugmenter plus rapidement dans les provinces o la croissance est plus importante. L
aussi, si la croissance conomique diffre dans les groupes de comparaison et de
traitement, limpact du programme dassurance maladie sur les dpenses de sant
directes risque dtre difficile isoler de limpact de la croissance conomique sur les
conomies locales. En gnral, il est difficile de tenir compte de ces changements
lorsquils ont lieu des niveaux dintervention levs. Lassignation alatoire des
niveaux dintervention moins levs permet de mieux matriser ces lments menaant la cohrence interne de lvaluation.
Pour viter les problmes lis la mise en uvre dune intervention un niveau
gographique ou administratif lev, les responsables de programme doivent dterminer le niveau minimum auquel le programme peut tre mis en uvre. Cette
chelle minimum dintervention est fonction de plusieurs facteurs:
Les conomies dchelle et la complexit administrative de la mise en uvre du
programme
Les capacits administratives de distribuer le programme au niveau des individus ou des mnages
Les craintes dventuels conits civils
Les craintes de contamination du groupe de comparaison.
Lchelle minimum dintervention dpend gnralement des conomies dchelle et
de la complexit administrative associes la mise en uvre du programme.
Par exemple, un programme dassurance maladie peut ncessiter un bureau pour recevoir les demandes des bnciaires et rgler les fournisseurs. Les cots xes de fonctionnement de ce bureau doivent tre rpartis sur un grand nombre de bnciaires;
il peut donc tre moins rentable dexcuter le programme un niveau individuel quau
niveau communautaire. Toutefois, lorsquil sagit dinterventions nouvelles non encore
prouves, il peut tre plus judicieux daccepter les inefficiences court terme et de
mettre en uvre le programme par district administratif de manire garantir la crdibilit de lvaluation et rduire les cots de collecte des donnes.
Les gouvernements argumentent parfois que pour les programmes administrs
localement, comme les programmes dassurance maladie, les capacits administratives sont insuffisantes pour envisager une mise en uvre au niveau individuel.
Ils estiment en effet quil serait fastidieux de mettre en place des systmes pour offrir
diffrents services diffrents bnciaires lintrieur dunits administratives
locales, et quil nest donc pas possible deffectuer une assignation au groupe de traitement et au groupe de comparaison. Ce problme constitue une srieuse entrave
la conception de lvaluation et, de ce fait, la russite de ltude.
Parfois, les autorits prfrent aussi excuter les programmes un niveau dagrgation plus lev (par exemple au niveau de la communaut) pour viter dventuels
conits si les membres du groupe de comparaison voient leurs voisins du groupe de
traitement bncier du programme avant eux. Dans les faits, il existe peu dl-
151
ments pour appuyer ces craintes. De nombreux programmes sont mis en uvre avec
succs au niveau des individus ou des mnages au sein de communauts sans gnrer de conit; il suffit que lassignation ait lieu de manire quitable, transparente et
que les gestionnaires de programme en soient tenus responsables.
Dautre part, lorsquun programme est mis en uvre un niveau peu lev,
comme lindividu ou le mnage, une contamination du groupe de comparaison peut
compromettre la validit interne de lvaluation. Supposons par exemple que nous
cherchons valuer leffet de lapprovisionnement en eau courante sur la sant des
mnages. Si des robinets sont installs chez un mnage et pas chez son voisin, le
mnage faisant partie du groupe de traitement peut trs bien partager leau avec son
voisin qui, lui, fait partie du groupe de comparaison; ce voisin ne constituera alors
plus un bon point de comparaison du fait de cet effet de dbordement.
Dans les faits, les responsables de programme doivent donc trouver lchelle
minimum dintervention permettant 1) de disposer dun chantillon dvaluation
suffisamment important, 2) de matriser les risques sur le plan de la validit interne,
et 3) de sadapter au contexte oprationnel. Lencadr 10.1 illustre le choix et les
implications de lchelle minimum dintervention dans le cas des programmes de
transferts montaires.
Sources : Behrman et Hoddinott 2001 ; Gertler 2004 ; Levy et Rodrguez 2005 ; Schultz 2004 ; Skoufias et
McClafferty 2001.
152
Concept cl :
Il ne faut jamais
empcher ou retarder
les bnfices offerts
par un programme
cause de lvaluation.
153
dination des travaux des comits dthique institutionnels mis en place dans toutes
les universits et institutions de recherche. Ce bureau publie aussi une compilation de plus dun millier de lois, rglementations et directives relatives au sujet de
la recherche humaine dans 96 pays et tablit des liens avec les codes thiques et les
normes rglementaires en vigueur dans les principales organisations internationales et rgionales.
Par exemple, toutes les recherches menes aux tats-Unis ou nances par des
agences fdrales amricaines comme linstitut national de la sant (National Institutes of Health) ou lagence amricaine de dveloppement international (USAID)
doivent tre conformes aux principes thiques et aux exigences rglementaires de la
lgislation fdrale2. La lgislation amricaine sur la protection des sujets de
recherche humains se base sur le Rapport Belmont et prvoit:
une slection quitable des sujets
la minimisation des risques pour les sujets
une exposition au risque raisonnable, proportionnelle aux bnces attendus
lobtention du consentement clair de chaque sujet ou de son reprsentant lgal
ladoption de dispositions visant protger les donnes personnelles concernant
les sujets et garantir la condentialit
la mise en place de dispositions particulires pour protger les sujets plus vulnrables comme les enfants, les dtenus ou les moins nantis.
Les principes lmentaires de protection des droits et de promotion du bien-tre
de tous les sujets, initialement dicts pour les essais mdicaux, sappliquent aussi
aujourdhui en recherche sociale. Pour lvaluation des programmes sociaux, les
trois premiers points de la liste ci-dessus renvoient aux questions thiques lies
lattribution des bnces. Les trois derniers concernent les protocoles selon
lesquels les sujets humains sont tudis dans le cadre de lvaluation3.
Au moment de concevoir ou de commissionner une valuation, il convient de
bien vrier que chaque tape est en conformit avec les lois ou procdures dexamen en vigueur qui rgissent la recherche sur les sujets humains, que ce soit dans
le pays o lvaluation est effectue, ou dans le pays de lorganisme qui nance
lvaluation.
154
en dterminant si lvaluation est ncessaire, en formulant les questions dvaluation, en mettant disposition les ressources adquates pour la ralisation de lvaluation, en assurant la supervision des travaux, et en utilisant les rsultats pour informer
leur prise de dcision. Les valuateurs sont responsables des aspects techniques,
savoir la dnition de la mthodologie, la constitution de lchantillon dvaluation,
la collecte des donnes et lanalyse.
Une valuation est un juste quilibre entre les comptences techniques et limpartialit dun groupe dvaluateurs externes dune part, et la pertinence politique,
lorientation stratgique et la coordination oprationnelle des dcideurs dautre part.
Dans ce partenariat, le degr de sparation institutionnelle entre ceux qui ralisent
lvaluation et ceux qui en exploitent les rsultats constitue un lment cl. Lindpendance des valuateurs par rapport linstitution responsable du projet qui fait
lobjet de lvaluation est primordiale pour en garantir lobjectivit. Toutefois, les
valuations peuvent souvent servir plusieurs objectifs, parmi lesquels le renforcement des capacits des institutions publiques en matire dvaluation et la sensibilisation des gestionnaires du programme aux effets de leurs projets sur le terrain
durant leur mise en uvre.
Pour quune valuation dimpact soit une russite, les valuateurs et les dcideurs doivent imprativement collaborer. Lvaluation doit tre mene par un
groupe externe de manire en assurer lobjectivit et la crdibilit ; toutefois, elle
ne saurait tre dtache des rgles oprationnelles. Il convient en particulier de
tenir compte des rgles de mise en uvre du programme pour garantir une bonne
conception de lvaluation et pour sassurer que le programme et lvaluation sont
excuts de manire coordonne, lun nentravant pas lautre. En outre, faute dun
engagement marqu des dcideurs ds le dbut du processus, les rsultats ont
moins de chances davoir une pertinence politique directe ou dinuencer les
politiques menes par les autorits.
Concept cl :
Une valuation est
un partenariat entre
des dcideurs et des
valuateurs.
155
156
157
En particulier, en considrant de travailler avec une institution publique, lvaluateur doit bien tudier les capacits de lquipe dvaluation la lumire des autres
activits sa charge. Ceci est encore plus vrai si linstitution en question assume des
responsabilits multiples avec un personnel limit. Mieux vaut avoir une bonne ide
de la charge de travail de linstitution an dvaluer si son volume de travail affectera
la qualit de lvaluation, mais aussi an destimer le cot dopportunit en termes
dautres tches que linstitution pourrait raliser la place. Par exemple, une valuation dimpact dune rforme du systme ducatif ncessitait la participation du personnel de lquipe charge de lvaluation des examens nationaux semestriels.
Cette quipe avait t associe lvaluation dimpact parce quelle regroupait les
professionnels les plus qualis en la matire et que cette opration permettait une
complmentarit entre lvaluation dimpact et les examens nationaux. Toutefois,
tant la rforme que lvaluation dimpact durent tre reportes. Ceci a non
seulement remis en cause le travail denqute, mais a aussi retard la ralisation des
examens naux qui nont pas eu lieu selon le calendrier prvu. En plus de lvaluation, le pays a ainsi perdu une belle occasion de faire le suivi du progrs de son
systme ducatif. Il est possible dviter les problmes de ce type en assurant une
bonne coordination entre les responsables de lunit charge de lvaluation
dimpact, de manire permettre une planication adquate des diverses activits
ainsi quune bonne rpartition du personnel et des ressources.
158
dj t largi (King et Behrman 2009, p. 56). Les lments suivants doivent tre
pris en considration lorsquil sagit de dterminer le calendrier de collecte des
donnes de suivi4:
Le cycle du programme, notamment la dure, le temps ncessaire la mise en
uvre et les retards ventuels
Le temps jug ncessaire pour que le programme produise des rsultats ainsi que
la nature des rsultats ltude
Les cycles dlaboration des politiques publiques.
En premier lieu, lvaluation dimpact doit tre en adquation avec le cycle de mise
en uvre du programme. Lvaluation ne doit pas modier le plan de droulement
du programme. Par essence, lvaluation est soumise au calendrier du programme ;
elle doit se plier la dure prvue du programme. Elle doit galement sadapter
aux ventuels retards de mise en uvre si les services prvus tardent tre offerts
ou sont retards par des facteurs externes5. En gnral, mme sil faut prvoir un
calendrier dvaluation ds la conception du programme, les valuateurs doivent
faire preuve de exibilit et accepter de procder des modications au fur et
mesure du droulement du programme. Il faut en outre prvoir un bon systme de
suivi pour que le rythme de lvaluation puisse sadapter au rythme auquel les
interventions se droulent.
Le calendrier de collecte des donnes de suivi doit tenir compte du temps qui
sera ncessaire aprs la mise en uvre du programme pour que les rsultats se
matrialisent. La chane de rsultats permet justement didentier les indicateurs
de rsultats et de dnir le moment opportun pour les mesurer. Certains programmes (comme les programmes de lets sociaux) visent des bnces court
terme tandis que dautres (comme les programmes dducation de base) sont plus
orients vers le long terme. De plus, certains rsultats ncessitent, par nature, plus
de temps pour se manifester (cest le cas par exemple des rsultats au plan de
lesprance de vie ou de la fcondit dans les rformes de sant) que dautres
(comme les programmes de formation).
Par exemple, dans le cadre de lvaluation du Fonds dinvestissement social en
Bolivie, les donnes de rfrence ont t recueillies en 1993, mais il a fallu attendre
jusquen 1998 pour collecter les donnes de suivi en raison du temps ncessaire
pour que lensemble des interventions soient excutes (projets dapprovisionnement en eau et de rseaux dassainissement, cliniques et coles) et pour que les
effets sur lducation et la sant de la population se fassent sentir (Newman et al.
2002). Une priode de temps similaire a t ncessaire pour lvaluation du projet
dducation primaire au Pakistan, qui reposait sur une approche exprimentale
ayant recours des donnes de rfrence et de suivi pour valuer limpact des
coles communautaires sur les rsultats, notamment scolaires, des tudiants
(King, Orazem et Paterno, 2008).
Le moment o la collecte des donnes de suivi doit avoir lieu dpend donc largement du programme et de lindicateur des rsultats ltude. Pour certaines valuations, les donnes de suivi peuvent tre recueillies alors que le programme est
159
en cours de mise en uvre, ce qui permet de mesurer les impacts court terme et
de faire le suivi de lchantillon dvaluation de manire limiter son attrition dans
le temps. Pour les programmes dont les oprations sont limites dans le temps, la
collecte de donnes de suivi aprs la n du programme peut permettre de mieux
mesurer les changements long terme. Des collectes de donnes de suivi peuvent
mme tre organises plusieurs reprises, ce qui donne la possibilit danalyser et
de comparer les rsultats court et moyen terme.
Les donnes de suivi collectes au cours de la mise en uvre du programme peuvent ne pas suffire pour estimer limpact total du programme si la mesure des indicateurs intervient trop tt. En effet, les programmes ne sont pas forcment pleinement
efficaces au dbut de leur lancement. Les promoteurs et les bnciaires du programme ont besoin dun temps dapprentissage (King et Behrman 2009, 65). Il nen
reste pas moins quil est trs utile davoir des informations sur limpact court terme.
Comme nous lavons dj soulign, certains programmes (comme les programmes
de lets sociaux) visent principalement des objectifs court terme. Des informations sur la performance court terme dun programme peuvent galement donner
des indications sur les rsultats esprs plus long terme. Les indicateurs court
terme permettent souvent de bonnes prdictions des indicateurs plus long terme
(par exemple, les naissances sous assistance mdicale constituent un indicateur
court terme de lvolution de la mortalit infantile). Les donnes de suivi collectes
alors que le programme est en cours de mise en uvre permettent aussi de dgager
des rsultats prliminaires de lvaluation dimpact, ce qui peut tre loccasion de
relancer le dialogue entre les valuateurs et les dcideurs.
Les donnes de suivi qui permettent de mesurer les rsultats long terme aprs
la mise en uvre du programme sont gnralement celles qui permettent de cerner
le mieux lefficacit dun programme. Par exemple, les rsultats positifs mis en vidence par les valuations de limpact long terme des programmes de dveloppement de la petite enfance aux tats-Unis (Currie et Thomas 1995, 2000 ; Currie
2001) et en Jamaque (Grantham-McGregor et al. 1994) ont t dterminants dans la
dcision dinvestir dans ces projets.
Lobtention dimpacts long terme constitue parfois lobjectif explicite de certains programmes, mais ils peuvent aussi rsulter deffets imprvus et indirects,
lis par exemple aux changements de comportement. La dtermination de limpact long terme peut nanmoins se rvler problmatique. Limpact peut tout
simplement disparatre au l du temps. Une mthodologie dvaluation dimpact
bien conue peut tre compromise. Par exemple, des effets de dbordements peuvent se produire entre les bnciaires du programme et les units du groupe
de comparaison.
Bien que les donnes de suivi court et long terme soient complmentaires, le
calendrier de lvaluation doit tenir compte du moment opportun pour que les rsultats de lvaluation clairent les prises de dcision de politique publique. Il doit ainsi
assurer la synchronisation des activits dvaluation et de collecte de donnes avec
les prises de dcision majeures. La production des rsultats doit tre planie de
manire justier les budgets, llargissement ventuel du programme ou toute
autre dcision stratgique de politique publique.
160
Cot total de
lEI (USD)
Cot total du
programme
(USD)
EI/cot
total du
programme
(%)
Pays
Chine
220 000
50 000 000
0,4
Colombie
130 000
86 400 000
0,2
Programme dinvestissement
dans les secteurs sociaux
Rpublique
dominicaine
600 000
19 400 000
3,1
Protection sociale
Jamaque
800 000
40 000 000
2,0
Pakistan
2 000 000
60 000 000
3,3
Panama
1 000 000
24 000 000
4,2
Rwanda
1 000 000
11 000 000
9,1
Rp. du
Ymen
2 000 000
15 000 000
13,3
968 750
38 225 000
4,5
Moyenne
Source : calculs des auteurs partir dun chantillon de programmes de la Banque mondiale dans le secteur de la protection sociale.
Remarque : EI = valuation dimpact
161
162
Tableau 10.3
Rpartition des cots pour un chantillon de projets soutenus par la Banque mondiale
Rpartition des cots de lEI
Pays
Cot total
Dplacements
Personnel
Banque
mondiale
Consultants
(nationaux et
internationaux)
Collecte de
donnes (y.c.
personnel)
Autres (cots
de diffusion et
ateliers)
1 690 000
270 000
200 000
320 000
840 000
60 000
Rmunration la
performance des enseignants
Brsil
513 000
78 000
55 000
105 000
240 000
35 000
Chili
313 000
11 500
35 500
260 000
6 000
Rmunration la
performance dans le secteur
de la sant : valuation du
projet Sant XI
Chine
308 900
60 000
35 000
61 000
152 900
Programme national de
garantie de lemploi rural
Inde
390 000
41 500
50 000
13 500
270 000
15 000
652 087
69 550
60 000
103 180
354 000
65 357
Lesotho
630 300
74 300
9 600
98 400
440 000
8 000
Malawi
1 842 841
83 077
144 000
256 344
1 359 420
Mexique
132 199
2 660
50 409
80 640
1 150
Maroc
674 367
39 907
66 000
142 460
426 000
Mozambique
838 650
86 400
31 000
62 500
638 750
20 000
Nigria
1 024 040
64 000
35 000
106 900
817 740
Sngal
644 047
61 800
60 000
102 890
354 000
65 357
Tanzanie
771 610
60 000
62 000
100 000
518 611
30 999
744 646
71 621
66 031
115 975
482 290
30 686
Moyenne
Source : calculs des auteurs partir dun chantillon dvaluations dimpact finances par le Fonds espagnol dvaluation dimpact.
Remarque : TMC = transferts montaires conditionnels ; = non disponible ; SIEF, Fonds espagnol dvaluation dimpact (Spanish Impact Evaluation Fund).
163
164
165
Tableau 10.4
Nombre
Taux/
unit
Nombre
dunits
Total
Personnel
Personnel charg de lvaluation
(gestionnaire de lvaluation, etc.)
Consultants internationaux et/ou nationaux
(chercheurs/responsable denqutes)
Assistant de recherche
Statisticien
Coordonnateur de terrain
Dplacements
Billets davion/voyages nationaux
et internationaux
Transports routiers
Frais de mission (htels et indemnits
journalires)
Collecte de donnesaa
Conception de linstrument
Pilotage
Formation
Dplacements et indemnits journalires
Matriel et quipement pour lenqute
Impression des questionnaires
Personnel de terrain
Enquteurs
Superviseurs
Transport (vhicules et essence)
Chauffeurs
Saisie et nettoyage des donnes
Analyse et diffusion des donnes
Ateliers
Articles, rapports
Autres
Bureaux
Communications
Logiciels
a. Les calculs relatifs la collecte de donnes doivent reflter les hypothses telles que le nombre de rondes de collecte
ncessaires, le temps ncessaire la collecte, le nombre de villages dans lchantillon, le nombre de mnages par village,
la longueur du questionnaire, les temps de dplacement, etc.
166
Tableau 10.5
A. Salaires du personnel
Units
Cot par
unit
(USD)
Nombre
dunits
Cot
total
(USD)
Semaines
7 500
15 000
B. Frais de consultants
Units
Cot par
unit
(USD)
Nombre
dunits
Semaines
7 500
10 250
Cot total
(USD)
15 000
27 940
Jours
450
15
6 750
Jours
450
Jours
350
10
3 500
Jours
350
10
3 500
Jours
188
Jours
188
130
24 440
Voyages
3 350
3 350
Voyages
3 350
3 350
Jours
150
750
Jours
150
750
Voyages
3 500
7000
Voyages
3 500
7000
Jours
150
20
3 000
Jours
150
20
3 000
14 100
15 450
Voyages
Voyages
1 350
1 350
Jours
Jours
150
cole
120
100
12 000
Enfant
14
3 000
42 000
Enfant
24
3 000
7 200
126 000
V. Autres
Atelier(s)
Diffusion/reporting
Autres 1 (frais gnraux de coordination)
167
Phase de conception
39 350
184 390
( suivre)
168
Tableau 10.5
(suite)
Donnes de suivi Phase I
Units
Cot par
unit
(USD)
Nombre
dunits
Cot
total
(USD)
Semaines
7 500
15 000
Jours
450
15
Jours
350
Jours
A. Salaires du personnel
Units
Cot par
unit
(USD)
Nombre
dunits
Cot total
(USD)
Semaines
7 500
15 000
6 750
Jours
450
10
4 500
20
7 000
Jours
350
10
3 500
188
100
18 800
Jours
188
130
24 440
Voyages
3 350
6 700
Voyages
3 350
6 700
Jours
150
10
1 500
Jours
150
10
1 500
Voyages
3 500
7 000
Voyages
3 500
7 000
Jours
150
20
3 000
Jours
150
20
3 000
Voyages
1 350
1 350
Voyages
1 350
1 350
Jours
150
450
Jours
150
450
B. Frais de consultants
32 550
32 440
20 000
D. Collecte de donnes
20 000
114 000
114 000
Enfant
14
3 000
42 000
Enfant
14
3 000
42 000
Enfant
24
3 000
72 000
Enfant
24
3 000
72 000
V. Autres
65 357
Atelier(s)
20 000
40 000
Diffusion/reporting
5 000
15 000
5 179
10 357
Phase de suivi I
181 550
Phase de suivi II
246 797
652 087
Notes
1. Le contenu de cette section sapplique plus directement la mthode de
lassignation alatoire, mais les mmes principes sappliquent aux valuations
bases sur dautres mthodes.
2. Voir Kimmel 1988 ; NIH 2006; USAID 2008 ; U.S. Department of Health and
Human Services 2010 ; et U.S. National Archives 2009.
3. Parmi les risques et difficults associs la collecte de donnes pour lvaluation
de programmes sociaux citons limpossibilit dobtenir le consentement clair
des sujets, lvaluation du dveloppement cognitif des enfants en prsence des
parents qui peut donner lieu des suppositions sur leur dveloppement futur,
le fait de demander parler en priv des femmes ou dinterviewer des femmes
sur des sujets sensibles en prsence dhommes de la famille, le fait dignorer le
temps ou cot dopportunit de participer une enqute et loffre dune
compensation le cas chant.
4. Pour de plus amples dtails sur les questions de calendrier des valuations de
programmes sociaux, voir King et Behrman (2009).
5. Plusieurs raisons peuvent expliquer pourquoi la mise en uvre dun programme nest pas immdiate ou parfaite, pourquoi la dure dexposition un
traitement varie non seulement dune zone lautre, mais aussi entre chaque
bnciaire nal, et pourquoi des temps dexpositions diffrents peuvent
conduire lestimation dimpacts diffrents (King et Behrman 2009, 56).
6. Dans ce cas, le cot est exprim en pourcentage de la part du cot du projet
nance par la Banque mondiale.
7. Ce chiffre ne comprend pas les cots du personnel local souvent trs impliqu
dans la conception et la supervision de lvaluation, car les donnes relatives
ces cots sont rarement disponibles.
Rfrences
Behrman, Jere R. et John Hoddinott. 2001. An Evaluation of the Impact of
PROGRESA on Pre-school Child Height. FCND Briefs 104, International Food
Policy Research Institute, Washington, DC.
Currie, Janet. 2001. Early Childhood Education Programs. Journal of Economic
Perspectives 15 (2): 21338.
Currie, Janet et Duncan Thomas. 1995. Does Head Start Make a Difference?
American Economic Review 85 (3): 34164.
. 2000. School Quality and the Longer-Term Effects of Head Start. Journal
of Economic Resources 35 (4): 75574.
Gertler, Paul J. 2004. Do Conditional Cash Transfers Improve Child Health?
Evidence from PROGRESAs Control Randomized Experiment. American
Economic Review 94 (2): 33641.
Grantham-McGregor, S., C. Powell, S. Walker et J. Himes. 1994. The Long-Term
Follow-up of Severely Malnourished Children Who Participated in an Intervention Program. Child Development 65: 42893.
Mise en uvre dune valuation dimpact
169
Grosh, Margaret et Paul Glewwe, eds. 2000. Designing Household Survey Questionnaires for Developing Countries: Lessons from 15 Years of the Living Standards
Measurement Study, vols. 1, 2 et 3. Washington DC: Banque mondiale.
Grosh, Margaret, Carlo del Ninno, Emil Tesliuc et Azedine Ouerghi. 2008. For
Protection and Promotion: The Design and Implementation of Effective Safety
Nets. Washington DC: Banque mondiale.
Jalan, Jyotsna et Martin Ravallion. 2003a. Estimating the Benet Incidence of an
Antipoverty Program by Propensity-Score Matching. Journal of Business &
Economic Statistics 21 (1): 1930.
. 2003b. Does Piped Water Reduce Diarrhea for Children in Rural India?
Journal of Econometrics 112 (1): 15373.
Kimmel, Allan. 1988. Ethics and Values in Applied Social Research. Californie: Sage
Publications.
King, Elizabeth M. et Jere R. Behrman. 2009. Timing and Duration of Exposure
in Evaluations of Social Programs. World Bank Research Observer 24 (1):5582.
King, Elizabeth M., Peter F. Orazem et Elizabeth M. Paterno. 2008. Promotion
with and without Learning: Effects on Student Enrollment and Dropout
Behavior. Document de travail consacr la recherche sur les politiques 4722,
Banque mondiale, Washington, DC.
Levy, Santiago et Evelyne Rodrguez. 2005. Sin Herencia de Pobreza: El Programa
Progresa-Oportunidades de Mxico. Washington DC: Banque interamricaine de
dveloppement.
NIH (U.S. National Institutes of Health). 2006. Regulations and Ethical
Guidelines et Rapport Belmont. Office of Human Subjects Research.
http://ohsr.od.nih.gov/index.html.
Newman, John, Menno Pradhan, Laura B. Rawlings, Geert Ridder, Ramiro Coa et
Jose Luis Evia. 2002. An Impact Evaluation of Education, Health, and Water
Supply Investments by the Bolivian Social Investment Fund. tude conomique
de la Banque mondiale 16 (2): 24174.
Rosenbaum, Paul. 2002. Observational Studies. Springer Series in Statistics.
Rosenbaum, Paul et Donald Rubin. 1983. The Central Role of the Propensity Score
in Observational Studies of Causal Effects. Biometrika 70 (1): 4155.
Schultz, Paul. 2004. School Subsidies for the Poor: Evaluating the Mexican
Progresa Poverty Program. Journal of Development Economics 74 (1): 199250.
Skouas, Emmanuel et Bonnie McClafferty. 2001. Is Progresa Working? Summary of the Results of an Evaluation by IFPRI. Institut international de
recherche sur les politiques alimentaires, Washington, DC.
USAID (agence amricaine pour le dveloppement international). 2008.
Procedures for Protection of Human Subjects in Research Supported by
USAID. http://www.usaid.gov/policy/ads/200/humansub.pdf.
U.S. Department of Health and Human Services. 2010. International Compilation
of Human Research Protections. Office for Human Research Protections.
http://www.hhs.gov/ohrp/international/HSPCompilation.pdf.
U.S. National Archives. 2009. Protection of Human Subjects. U.S. Code of Federal
Regulations, Titre 22, partie 225.
170
CHAPITRE11
Choisir lchantillon
Une fois que vous avez choisi une mthode de slection du groupe de comparaison,
ltape suivante de la planication dune valuation dimpact consiste dterminer
les donnes et lchantillon ncessaires pour estimer avec prcision les diffrences
de rsultats entre le groupe de traitement et le groupe de comparaison. Vous devez
dterminer la taille de lchantillon et la faon de prlever les units de la population
ltude pour former cet chantillon.
171
Concept cl :
Les indicateurs choisis
doivent couvrir toute
la chane de rsultats
afin de mesurer les
rsultats finaux, les
rsultats intermdiaires, la mise en
uvre de lintervention,
les facteurs exognes
et les caractristiques
de contrle.
172
Il est utile dlaborer, pour chaque valuation, une matrice comprenant la liste
des questions ltude, les indicateurs de rsultats pour chaque question, les autres
types dindicateurs indispensables et les sources des donnes, comme indiqu la
gure 2.3 (chapitre 2).
Les donnes existantes sont-elles suffisantes ?
Certaines donnes existantes sont presque toujours indispensables au dbut dun
programme pour estimer les valeurs de rfrence des indicateurs ou pour effectuer
des calculs de puissance, comme nous le verrons plus loin. Au-del de ltape de
planication, lutilisation de donnes existantes peut nettement diminuer le cot
dune valuation dimpact.
Toutefois, il est rare que les donnes existantes suffisent. Les valuations dimpact ncessitent des donnes exhaustives couvrant un chantillon suffisamment
important et reprsentatif la fois du groupe de traitement et du groupe de comparaison. Des donnes de recensement couvrant lensemble des groupes de traitement et
de comparaison sont rarement disponibles. Mme si des recensements ont t raliss, les donnes ne contiennent gnralement quun nombre limit de variables ou
ne sont pas collectes rgulirement. Les enqutes nationales auprs des mnages
comportent parfois une gamme tendue de variables, mais contiennent rarement
suffisamment dobservations la fois pour le groupe de traitement et le groupe de
comparaison pour permettre une valuation dimpact. Admettons par exemple que
vous souhaitiez valuer un vaste programme national qui concerne 10 % des mnages
dans un pays donn. Si une enqute nationale est ralise chaque anne auprs de
5000 mnages, elle couvrira peut-tre 500 mnages bnciant du programme valu. Cet chantillon est-il suffisant pour raliser une valuation dimpact ? Les calculs
de puissance peuvent permettre de rpondre cette question, mais dans la plupart
des cas, la rponse est non.
Il convient toutefois denvisager srieusement lutilisation de donnes administratives existantes pour raliser des valuations dimpact. Les donnes administratives sont collectes dans le cadre des activits ordinaires des organismes
responsables de lexcution des programmes, le plus souvent au moment de la
prestation des services. Dans certains cas, les donnes de suivi contiennent des
indicateurs de rsultats. Par exemple, certaines coles compilent les taux de scolarisation, de frquentation ou les rsultats aux examens tandis que certains centres
de sant enregistrent les donnes anthropomtriques et les vaccinations ou les
dossiers de sant de leurs patients. Certaines valuations rtrospectives marquantes sont fondes sur des registres administratifs (par exemple, ltude de
Galiani, Gertler et Schargrodsky publie en 2005 sur la politique dalimentation en
eau en Argentine).
An de dterminer si les donnes existantes peuvent tre utilises pour une valuation dimpact donne, les questions suivantes doivent tre poses:
Taille. Les bases de donnes existantes sont-elles assez grandes pour dtecter
un changement des indicateurs de rsultats avec une puissance suffisante?
Choix de lchantillon
173
denqute. Sils sappliquent principalement aux enqutes auprs des mnages, ces
principes peuvent galement tre appliqus la plupart des autres types de donnes denqute2.
Avant de dcider si vous allez utiliser les donnes existantes ou collecter de
nouvelles donnes denqute, il convient de dterminer la taille de lchantillon
ncessaire. Si les donnes existantes contiennent un nombre suffisant dobservations, vous pourriez tre en mesure de les utiliser. Dans le cas contraire, des donnes supplmentaires devront tre collectes. Une fois que vous avez dcid de
collecter des donnes denqute pour votre valuation, vous devez:
dterminer qui va collecter les donnes ;
laborer et tester des questionnaires ;
effectuer des travaux de collecte sur le terrain et des contrles de qualit ; et
traiter et stocker les donnes.
Dans la suite de ce chapitre, nous verrons comment dterminer la taille de
lchantillon ncessaire et la faon de procder lchantillonnage. Les autres tapes
de la collecte de donnes sont abordes au chapitre 12. La mise en uvre des diffrentes tapes est gnralement cone un organisme indpendant, mais il est
essentiel de comprendre leur porte et leurs principales composantes pour grer
efficacement une valuation dimpact.
Choix de lchantillon
Concept cl :
Les calculs de
puissance indiquent la
taille de lchantillon
ncessaire pour quune
valuation fournisse
une estimation prcise
de limpact dun
programme
(cest--dire de la
diffrence des
rsultats entre le
groupe de traitement
et le groupe de
comparaison).
175
Un petit
chantillon
Population ltude
Choix de lchantillon
Un grand
chantillon
177
lhypothse alternative:
Ha : impact 0
178
Choix de lchantillon
Concept cl :
La puissance est la
probabilit dobserver
un impact sil se
produit. La puissance
dune valuation
dimpact est leve
si le risque de ne pas
observer un impact
existant, cest--dire
de commettre une
erreur de type II,
est faible.
179
nobserver, par (bon ou mauvais) hasard, que des enfants ayant le mme poids. Avec
de grands chantillons, la diffrence de moyennes entre un chantillon de traitement
et un chantillon de comparaison fournit une estimation able de la vritable diffrence qui existe entre toutes les units traites et toutes les units du groupe
de comparaison.
La puissance (ou puissance statistique) dune valuation dimpact correspond la
probabilit quelle dtecte une diffrence entre les groupes de traitement et de comparaison, si une telle diffrence existe. La puissance dune valuation dimpact est
leve si le risque de ne pas observer un impact qui existe, cest--dire de commettre
une erreur de type II, est faible. Les exemples cits plus haut montrent que la taille
de lchantillon est un facteur dterminant de la puissance dune valuation
dimpact. Nous allons approfondir cette intuition dans les sections suivantes.
Pourquoi les calculs de puissance sont dterminants pour les dcisions
politiques
Les calculs de puissance permettent de dterminer la taille dchantillon ncessaire
pour viter de conclure quun programme na pas eu dimpact alors quil en a en fait
eu un (erreur de type II). La puissance dun test est gale un moins la probabilit
dune erreur de type II.
La puissance dune valuation dimpact est leve si une erreur de type II est peu
probable, cest--dire quil y a peu de chance que vous obteniez des rsultats indiquant que le programme valu na pas eu dimpact alors quil en a bel et bien eu un.
Dans une perspective purement politique, les valuations dimpact de faible
puissance qui prsentent un fort risque derreur de type II sont potentiellement
non seulement inutiles, mais galement trs coteuses. La forte probabilit derreur de type II compromet la abilit de tout rsultat nindiquant pas dimpact.
Consacrer des ressources des valuations dimpact faible puissance est donc un
investissement risqu.
Les valuations faible puissance peuvent galement avoir des consquences
dramatiques sur le plan pratique. Par exemple, dans notre exemple prcdent du
programme de nutrition, si vous concluez que le programme na pas dimpact alors
quil en a bel et bien eu un, les dcideurs seront susceptibles de mettre n un programme qui est en fait bnque pour les enfants. Il est donc essentiel de limiter la
probabilit derreurs de type II en utilisant des chantillons assez grands dans le
cadre des valuations dimpact. Cest la raison pour laquelle il est si important et
pertinent deffectuer des calculs de puissance.
Les calculs de puissance tape par tape
Nous abordons maintenant les principes fondamentaux de calculs de puissance
partir du cas simple dun programme assign alatoirement. Pour raliser des
calculs de puissance, il faut poser les six questions suivantes:
1. Le programme produit-il des grappes?
2. Quel est lindicateur de rsultat?
180
Tableau 11.1
Exemples de grappes
Traitement
Niveau dassignation
du traitement (grappe)
Unit auprs de
laquelle le rsultat
est mesur
Transferts montaires
conditionnels
Village
Mnages
Traitement contre
le paludisme
cole
Individus
Programme de formation
Quartier
Individus
Choix de lchantillon
181
182
tillons utiliss pour lvaluation dimpact pourront tre plus petits. Il convient nanmoins de dterminer leffet minimal dtectable avec prudence tant donn que tout
impact infrieur leffet minimal dsir risque de ne pas tre dtect.
Cinquimement, lvaluateur doit consulter des statisticiens pour dterminer un
niveau de puissance raisonnable pour lvaluation prvue. Comme nous lavons mentionn, la puissance dun test est gale un moins la probabilit dune erreur de
type II. La puissance est donc comprise entre zro et un et plus elle est leve, moins
il y a de risque de ne pas dtecter un impact existant. Une puissance de 80% est un
niveau frquemment utilis pour les calculs de puissance. Cela signie que vous
allez dtecter un impact existant dans 80 % des cas. Un niveau de puissance plus
lev de 0,9(ou 90 %) constitue souvent un niveau utile, bien que plus prudent et
entranant par consquent une hausse de la taille de lchantillon requis7.
Siximement, vous devez demander un statisticien destimer certains paramtres de rfrence comme la moyenne et la variance des indicateurs de rsultats.
Ces valeurs de rfrence doivent de prfrence tre obtenues partir de donnes
existantes collectes dans un contexte comparable celui du programme ltude8.
Il est trs important de noter que plus un indicateur de rsultat est variable, plus il
sera difficile de formuler une estimation able de leffet du traitement. Dans
lexemple du programme de nutrition, le poids des enfants est le rsultat ltude. Si
tous les enfants psent le mme poids dans lenqute de rfrence, il sera possible
destimer limpact de lintervention partir dun chantillon relativement rduit.
En revanche, si les poids de rfrence des enfants affichent une grande variance, un
chantillon plus grand sera ncessaire pour estimer limpact du programme.
lissue de ces six tapes, le statisticien peut effectuer le calcul de puissance en
utilisant un logiciel statistique standard9. Le calcul de puissance qui en rsultera
indiquera la taille de lchantillon ncessaire en fonction des paramtres dnis aux
tapes 1 6. Les calculs de puissance sont faciles raliser une fois que les questions
dordre politique (points 3 et 4) ont t rsolues.10
Lorsquun statisticien est mandat pour faire des calculs de puissance, il est
recommand de demander une analyse de la sensibilit des calculs de puissance
aux changements dhypothses. Ceci est important pour comprendre dans quelle
mesure la taille de lchantillon devra tre augmente pour que les hypothses de
dpart deviennent plus conservatrices (baisse de limpact espr, hausse de la
variance dans lindicateur de rsultat ou niveau de puissance plus lev). Il est
galement utile de demander des calculs de puissance pour diffrents indicateurs
de rsultats tant donn que la taille de lchantillon ncessaire peut considrablement changer si certains indicateurs de rsultats sont plus ou moins variables
que dautres.
Enn, les calculs de puissance permettent dtablir la taille minimum de
lchantillon ncessaire. Dans la pratique, les problmes de mise en uvre impliquent souvent que la taille de lchantillon effectif soit infrieure la taille prvue.
Toute dviation de ce type doit tre envisage avec prudence, mais il est conseill
dajouter une marge de 10 20% la taille de lchantillon prvue par les calculs
de puissance11.
Choix de lchantillon
Concept cl :
La taille de lchantillon requis augmente
si leffet minimal
dtectable est faible,
si lindicateur de
rsultat est trs
variable ou sil sagit
dun vnement rare,
et si lvaluation vise
comparer les impacts
entre diffrents
sous-groupes.
183
184
Choix de lchantillon
185
Groupe de
traitement
Groupe de
comparaison
chantillon total
$1
1 344
1 344
2 688
$2
336
336
672
$3
150
150
300
Remarque : leffet minimal dtectable correspond la rduction minimum des dpenses de sant
directes des mnages que lvaluation dimpact doit pouvoir dtecter.
Le statisticien produit ensuite un deuxime tableau pour un niveau de puissance de 0,8. Le tableau11.3 montre que les tailles dchantillons ncessaires sont
infrieures pour une puissance de 0,8 que pour une puissance de 0,9. Pour dtecter
une baisse de deux dollars des dpenses de sant directes des mnages, un chantillon total dau moins 502 units est suffisant. Pour dtecter une baisse de troisdollars, au moins 224 units sont ncessaires. Toutefois, pour dtecter une baisse de
undollar, au moins 2008 units sont ncessaires.
Le statisticien explique que les rsultats sont typiques des calculs de puissance:
Plus le niveau de puissance est lev (ou prudent), plus la taille de lchantillon
ncessaire est importante.
Plus limpact dtecter est rduit, plus lchantillon ncessaire est grand.
Groupe de
traitement
Groupe de
comparaison
chantillon total
1$
1 004
1 004
2 008
2$
251
251
502
3$
112
112
224
Remarque : leffet minimal dtectable correspond la rduction minimum des dpenses de sant
directes des mnages que lvaluation dimpact doit pouvoir dtecter.
186
Groupe de
traitement
Groupe de
comparaison
chantillon total
9 717
9 717
19 434
2 430
2 430
4 860
1 080
1 080
2 160
QUESTION 8
Choix de lchantillon
187
Lorsquil existe des grappes, il convient de noter que le nombre de grappes est un
paramtre beaucoup plus important que le nombre dindividus qui composent les
grappes. Un nombre suffisant de grappes est ncessaire pour pouvoir identier avec
un degr de certitude suffisant lventuel impact dun programme en comparant les
rsultats des chantillons de traitement et de comparaison.
Si vous assignez de faon alatoire un traitement au sein dun petit nombre de
grappes, il est peu probable que les groupes de traitement et de comparaison soient
identiques. Lassignation alatoire entre deux districts, deux coles ou deux hpitaux ne garantit pas que les deux grappes soient similaires. En revanche, lassignation alatoire dune intervention entre 100districts, 100coles ou 100hpitaux a
plus de probabilits de crer un groupe de traitement et un groupe de comparaison
similaires. En rsum, un nombre suffisant de grappes est ncessaire pour sassurer
quun quilibre est atteint. Par ailleurs, le nombre de grappes joue galement un rle
dans la prcision des effets estims. Un nombre suffisant de grappes est ncessaire
pour tester lhypothse selon laquelle un programme a un impact avec une puissance
satisfaisante. Il est donc trs important de sassurer que le nombre de grappes disponibles pour lassignation alatoire est assez grand.
Sur la base de lintuition dcrite ci-dessus, vous pouvez dnir le nombre de
grappes ncessaire pour effectuer un test dhypothse prcis en effectuant des
calculs de puissance. La ralisation de calculs de puissance pour des chantillons
grappes ncessite une tape supplmentaire par rapport la procdure de base:
1. Le programme produit-il des grappes?
2. Quel est lindicateur de rsultat?
3. Souhaitez-vous comparer les impacts du programme entre plusieurs
sous-groupes?
4. Quel est le niveau minimum dimpact qui justierait linvestissement effectu
dans lintervention?
5. Quelle est la moyenne de rfrence de lindicateur de rsultat?
6. Quelle est la variance de lindicateur de rsultat dans la population ltude?
7. Quelle est la variance de lindicateur de rsultat au sein des grappes?
Par rapport aux calculs de puissance sans grappe, une tape est ajoute : vous
devez demander votre statisticien quel est le degr de corrlation entre les rsultats au sein des grappes. lextrme, tous les rsultats dune mme grappe peuvent
afficher une corrlation parfaite. Par exemple, il est possible que les revenus des
mnages ne soient pas particulirement variables au sein dun village, mais que
dimportantes ingalits existent entre diffrents villages. Dans ce cas, si vous souhaitez ajouter un individu votre chantillon dvaluation, laddition dun individu
dun nouveau village augmentera plus la puissance que laddition dun individu
188
venant dun village dj reprsent. En effet, dans ce dernier cas, le deuxime villageois sera trs probablement similaire au villageois dj inclus dans lchantillon.
En gnral, plus la corrlation intra-grappe des rsultats est leve, plus le nombre
de grappes ncessaire pour obtenir un niveau de puissance donn augmente.
Dans les chantillons par grappes, les calculs de puissance mettent en vidence la
balance ncessaire entre lajout de nouvelles grappes lchantillon et de nouvelles
observations dans les grappes de lchantillon. Laugmentation relative de la puissance due lajout dune unit au sein dune nouvelle grappe est presque toujours
plus importante que lajout dune unit au sein dune grappe existante. Bien que
laugmentation de puissance associe lajout dune nouvelle grappe puisse tre
importante, lajout de grappes peut aussi avoir des consquences oprationnelles et
affecter le cot de la collecte de donnes. La section suivante explique comment
raliser des calculs de puissance avec des grappes dans lexemple du PSAM+
et certaines des dcisions possibles.
Dans de nombreux cas, il faut au moins 30 50grappes dans le groupe de traitement et dans le groupe de comparaison pour obtenir une puissance suffisante et
garantir lquilibre des caractristiques de rfrence avec la mthode dassignation
alatoire. Toutefois, le nombre peut varier en fonction des diffrents paramtres
mentionns ci-dessus, tout comme le degr de corrlation intra-grappe. De plus,
le nombre de grappes ncessaire est gnralement plus lev avec des mthodes
autres que lassignation alatoire (toutes choses gales par ailleurs).
Concept cl :
Pour les calculs de
puissance, le nombre
de grappes est plus
important que le
nombre dindividus
au sein des grappes.
Il faut le plus souvent
au moins 30 grappes
dans chaque groupe
(groupe de traitement
et groupe de
comparaison).
Choix de lchantillon
189
Nombre de
grappes
Units par
grappe
chantillon
total avec
grappes
chantillon
total sans
grappe
1$
Impossible
Impossible
Impossible
2 688
2$
100
900
672
3$
85
340
300
Remarque : leffet minimal dtectable correspond la rduction minimum des dpenses de sant
directes des mnages que lvaluation dimpact doit pouvoir dtecter.
190
Effet minimal
dtectable
Nombre de
grappes
Units par
grappe
chantillon
total avec
grappes
chantillon
total sans
grappe
$1
100
102
10 200
2 008
$2
90
630
502
$3
82
246
224
Remarque : leffet minimal dtectable correspond la rduction minimum des dpenses de sant
directes des mnages que lvaluation dimpact doit pouvoir dtecter.
Le statisticien calcule alors comment le nombre total dobservations ncessaires varie en fonction du nombre de grappes. Il dcide de refaire les calculs pour
un effet minimal dtectable de deuxdollars et une puissance de0,9. La taille de
lchantillon total ncessaire pour estimer un tel impact augmente fortement
lorsque le nombre de grappes diminue (tableau11.7). Pour 100 grappes,900 observations sont ncessaires. Pour 30 grappes, lchantillon total doit alors contenir
6690 observations. En revanche, pour 157grappes, seules 785observations sont
ncessaires.
QUESTION 9
Nombre de
grappes
Units par
grappe
chantillon total
sans grappe
2$
30
223
6 690
2$
60
20
1 200
2$
86
11
946
2$
100
900
2$
120
840
2$
135
810
2$
157
785
Choix de lchantillon
191
En rsum
Concept cl :
Les mthodes
dvaluation dimpact
quasi exprimentales
ncessitent presque
toujours des
chantillons plus
grands que le cas
de rfrence de
lassignation alatoire.
192
Concept cl :
Le cadre dchantillonnage est la liste
existante la plus
exhaustive des units
constituant la
population ltude.
Un biais de couverture
apparait sil y a une
divergence entre le
cadre dchantillonnage et la population
ltude.
Cadre
dchantillonnage
valide
Cadre
dchantillonnage
invalide
Population
ltude
Choix de lchantillon
193
Concept cl :
Lchantillonnage
est le processus par
lequel les units sont
prleves du cadre
dchantillonnage.
Lchantillonnage
probabiliste attribue
chaque unit une
probabilit bien dfinie
dtre slectionne.
194
La stratication est essentielle pour les valuations qui visent comparer les impacts dun programme entre diffrents sous-groupes.
chantillonnage par grappes. Les units sont divises en grappes et un chantillon alatoire de grappes est prlev. Lensemble des units des grappes prleves constitue alors lchantillon ou seul un certain nombre dunits sont slectionnes de manire alatoire au sein de chaque grappe. Par consquent, chaque
grappe a une probabilit bien dnie dtre slectionne, et les units slectionnes de chaque grappe ont elles aussi une probabilit bien dnie dtre
prleves.
Dans le contexte dune valuation dimpact, la procdure de prlvement dun
chantillon dpend souvent des rgles dligibilit du programme valuer.
Comme nous lavons mentionn dans la section consacre la taille des chantillons, si la plus petite unit de mise en uvre viable est plus grande que lunit
dobservation, lassignation alatoire du traitement engendrera la cration de
grappes. Pour cette raison, lchantillonnage par grappes est souvent utilis dans
les tudes dvaluation dimpact.
Lchantillonnage non probabiliste peut entraner de graves erreurs dchantillonnage. Lchantillonnage dirig ou lchantillonnage de commodit sont parfois
utiliss la place des procdures dchantillonnage probabilistes dcrites ci-dessus. Dans ces cas, des erreurs dchantillonnage peuvent survenir mme si le cadre
dchantillonnage couvre lensemble de la population et quil nexiste aucun biais
de couverture. Considrons par exemple que pour une enqute nationale, un
groupe denquteurs est mandat de collecter des donnes sur les mnages en se
rendant dans les foyers les plus proches de lcole dans chaque village. En suivant
cette procdure dchantillonnage non probabiliste, il est probable que lchantillon ne sera pas reprsentatif de lensemble de la population ltude. Un biais de
couverture sera cr, car les foyers loigns ne seront pas couverts par lenqute.
En n de compte, il faut choisir avec prudence son cadre dchantillonnage et sa
procdure dchantillonnage pour assurer la validit externe des rsultats obtenus
pour lensemble de la population ltude. Mme si le cadre dchantillonnage prsente une couverture parfaite et quune procdure dchantillonnage probabiliste est
utilise, des erreurs non lies lchantillonnage peuvent affecter la validit externe
de lchantillon. Nous abordons ces erreurs dans le prochain chapitre.
Notes
1. Les donnes sur les cots sont galement ncessaires pour lanalyse
cot-bnce.
2. Pour une description dtaille des enqutes auprs des mnages, voir Grosh
et Glewwe (2000) et ONU (2005). Dal Poz et Gupta (2009) abordent certains
problmes spciques la collecte des donnes dans le secteur de la sant.
3. ce stade, la discussion peut sappliquer nimporte quelle population:
lensemble de la population ltude, la population du groupe de traitement
ou la population du groupe de comparaison.
Choix de lchantillon
195
var( y ) =
6.
7.
8.
9.
10.
11.
12.
13.
196
.
n
Plus la taille de lchantillon n augmente, plus la variance des estimations
dchantillon sapproche de zro. Autrement dit, la moyenne est estime avec
plus de prcision avec de grands chantillons quavec de petits chantillons.
Lallocation du traitement par grappe est souvent incontournable cause de
considrations sociales ou politiques qui rendent impossible lassignation alatoire
lintrieur des grappes. Dans le contexte dune valuation dimpact, la cration de
grappes est souvent ncessaire en raison du risque de dbordements ou de
diffusion des bnces du programme entre les individus au sein des grappes.
Outre la puissance, il convient galement de xer un niveau de conance
tablissant une probabilit acceptable derreur de type I, gnralement
0,05(ou 0,01 pour un niveau plus conservateur).
Si les calculs de puissance sont effectus partir de lenqute de rfrence,
lauto-corrlation des rsultats au l du temps doit galement tre prise
en compte.
Par exemple, Spybrook et al. (2008) ont dvelopp Optimal Design, un logiciel
convivial permettant de raliser des calculs de puissance.
Il est gnralement souhaitable davoir des groupes de traitement et de
comparaison de la mme taille. En effet, pour un nombre donn dobservations dans un chantillon, la puissance est optimise en allouant la moiti des
observations au groupe de traitement et lautre moiti au groupe de comparaison. Toutefois, les groupes de traitement et de comparaison ne doivent pas
systmatiquement tre de la mme taille. Informez votre statisticien de toute
contrainte sopposant lutilisation de deux groupes de mme taille ou de
toute raison justiant lutilisation de groupes de tailles ingales.
Les questions de non-rponse et dattrition sont abordes au chapitre 12 de
manire plus dtaille.
Dans le contexte de lvaluation dun programme, lensemble de la population ltude peut tre assign au groupe de traitement ou au groupe de
comparaison. Cette section dcrit de faon gnrale la faon de prlever
un chantillon de la population ltude totale.
Si lon procde un chantillonnage par grappes et que la liste des units au
sein des grappes nest plus dactualit, il faut envisager la possibilit deffectuer
une numration exhaustive des units au sein de chaque grappe. Par exemple,
si lchantillon est prlev au sein dune communaut, lagence charge de la
collecte des donnes peut commencer par dresser la liste de tous les mnages
du village avant de raliser lenqute.
Lvaluation dimpact en pratique
14. Voir Cochran (1977); Lohr (1999); Kish (1995); Thompson (2002) ou, pour une
prsentation trs abordable, Kalton (1983) pour une description de lchantillonnage (y compris dautres mthodes comme lchantillonnage systmatique ou en plusieurs tapes) plus approfondie que les concepts de base abords
ici. Grosh et Muoz (1996); Fink (2008); Iarossi (2006); et ONU (2005)
formulent des conseils pratiques sur lchantillonnage.
15. Au sens strict, les chantillons sont prlevs partir de cadres dchantillonnage. Nous partons de lhypothse selon laquelle ce cadre concide parfaitement avec la population.
Rfrences
Cochran, William G. 1977. Sampling Techniques. 3e dition. New York: John Wiley.
Dal Poz, Mario et Neeru Gupta. 2009. Assessment of Human Resources for
Health Using Cross-National Comparison of Facility Surveys in Six Countries.
Human Resources for Health 7: 22.
Fink, Arlene G. 2008. How to Conduct Surveys: A Step by Step Guide. 4e dition.
Beverly Hills, CA: Sage Publications.
Galiani, Sebastian, Paul Gertler et Ernesto Schargrodsky. 2005. Water for Life:
The Impact of the Privatization of Water Services on Child Mortality. Journal
of Political Economy 113 (1): 83120.
Grosh, Margaret et Paul Glewwe, eds. 2000. Designing Household Survey Questionnaires for Developing Countries: Lessons from 15 Years of the Living Standards
Measurement Study. Washington DC: Banque mondiale.
Grosh, Margaret et Juan Muoz. 1996. A Manual for Planning and Implementing
the Living Standards Measurement Study Survey. Document de travail LSMS
126, Banque mondiale, Washington, DC.
Iarossi, Giuseppe. 2006. The Power of Survey Design: A Users Guide for Managing
Surveys, Interpreting Results, and Inuencing Respondents. Washington DC:
Banque mondiale.
Kalton, Graham. 1983. Introduction to Survey Sampling. Beverly Hills, CA: Sage
Publications.
Kish, Leslie. 1995. Survey Sampling. New York: John Wiley.
Lohr, Sharon. 1999. Sampling: Design and Analysis. Pacic Grove, CA: Brooks Cole.
Pradhan, Menno et Laura B. Rawlings. 2002. The Impact and Targeting of Social
Infrastructure Investments: Lessons from the Nicaraguan Social Fund. tude
conomique de la Banque mondiale 16 (2): 27595.
Rosenbaum, Paul. 2009. Design of Observational Studies. New York: Springer Series
in Statistics.
Spybrook, Jessaca, Stephen Raudenbush, Xiaofeng Liu, Richard Congdon et Andrs
Martinez. 2008. Optimal Design for Longitudinal and Multilevel Research: Documentation for the Optimal Design Software. New York: William T. Grant Foundation.
Thompson, Steven K. 2002. Sampling. 2e dition. New York: John Wiley.
ONU (Organisation des Nations Unies). 2005. Household Sample Surveys in Developing
and Transition Countries. New York: Organisation des Nations Unies.
Choix de lchantillon
197
CHAPITRE12
199
200
possdent pas toujours les capacits suffisantes pour entreprendre des missions
supplmentaires en dehors de leurs activits rgulires. Ils peuvent galement ne
pas avoir lexprience ncessaire pour raliser des enqutes dans le cadre dvaluation dimpact, par exemple la mise en place de procdures de suivi des individus
dans le temps. Dans ce cas, il peut tre plus pratique de faire appel une socit
ou un groupe spcialis dans la collecte de donnes.
Il nest pas impratif que la mme entit collecte les donnes de rfrence et de
suivi. Par exemple, pour lvaluation dimpact d'un programme de formation dont la
population cible est compose des personnes stant inscrites, linstitution charge
de la formation peut tre responsable de la collecte des donnes de rfrence au
moment de linscription des participants. Il est toutefois peu probable que cette
mme institution soit la mieux place pour collecter les donnes de suivi pour les
groupes de traitement et de comparaison. Dans ce contexte, il peut tre avantageux
de contracter sparment la collection des diverses rondes de collectes de donnes,
tout en sassurant quaucune information utile au suivi des mnages ou des individus
ne soit perdue entre les rondes et que les mmes procdures soient utilises pour les
enqutes de rfrence et de suivi.
Pour dterminer lorganisme le mieux mme de collecter les donnes pour
lvaluation dimpact, il faut tenir compte de toute une srie de facteurs, y compris
lexprience en collecte de donnes, la capacit collaborer avec lorganisme responsable de lexcution du programme, limpartialit, les opportunits de renforcer les
capacits locales, la facult dadaptation au contexte de lvaluation dimpact, ainsi
que la qualit probable des donnes collectes. Rdiger un cahier des charges et solliciter des propositions techniques et nancires est un moyen efficace de dterminer lorganisme le mieux plac pour collecter des donnes de qualit.
tant donn que les dlais de ralisation du travail et la qualit des donnes sont
des facteurs dterminants pour la abilit de lvaluation dimpact, le contrat avec
lagence de collecte des donnes doit tre rdig avec prudence. La porte des travaux et des rsultats attendus doit tre dcrite de manire trs prcise. Il est galement recommand dintroduire au sein des contrats des mesures incitatives associes
de clairs indicateurs de qualit. Par exemple, comme nous le verrons ci-aprs, le
taux de non-rponse est un indicateur cl de la qualit des donnes. An dencourager les agences de collecte de donnes limiter le taux de non-rponse, le contrat
peut par exemple stipuler le paiement dun cot unitaire pour 90% de lchantillon,
dun cot unitaire suprieur pour les units comprises entre 90% et 95% et dun
cot unitaire encore plus lev pour les units comprises entre 95% et 100%. Un
contrat spar peut aussi tre conclu pour la phase de suivi des non-rpondants.
laboration du questionnaire
Au moment de commanditer une collecte de donnes, vous devez dnir des objectifs prcis et donner des directives spciques sur le contenu de linstrument ou du
201
202
auprs des mnages (voir Grosh et Glewwe[2000] et ONU[2005])1 ou les procdures dtailles suivre pour collecter des rsultats dexamen ou des indicateurs de
sant. Si ces considrations peuvent sembler laborieuses, elles nen sont pas moins
essentielles. Nous nonons ici quelques principes gnraux qui vous guideront
dans la supervision de la collecte de donnes.
Les indicateurs de rsultat doivent, dans la mesure du possible, tre conformes
aux meilleures pratiques locales et internationales. Il est toujours utile de se pencher
sur la faon dont les indicateurs ltude ont t mesurs dans des enqutes antrieures, la fois sur le plan local et international. Lutilisation des mmes indicateurs
(et des mmes modules ou questions pour lenqute) permet de garantir la comparabilit entre les donnes existantes et les donnes collectes pour lvaluation dimpact. Si vous dcidez de choisir un indicateur qui nest pas parfaitement comparable
ou qui nest pas bien mesur, vous limitez lutilit des rsultats de lvaluation.
Tous les indicateurs doivent tre mesurs exactement de la mme faon pour
toutes les units du groupe de traitement et du groupe de comparaison. Lutilisation
de mthodes de collecte diffrentes (par exemple une enqute tlphonique dans un
cas et des entretiens en face face dans lautre) risque de gnrer un biais. Ce risque
est galement prsent si vous collectez des donnes des moments diffrents pour
les deux groupes (par exemple si vous collectez les donnes du groupe de traitement
pendant la saison des pluies et celles du groupe de comparaison pendant la saison
sche). Cest pourquoi les procdures utilises pour mesurer un indicateur de rsultat doivent tre formules de manire trs prcise. Le processus de collecte des donnes doit tre exactement le mme pour toutes les units. Dans le questionnaire,
chaque module associ au programme doit tre introduit sans affecter lordre ou le
contexte des rponses dans dautres sections du questionnaire.
Formatage des questionnaires
Des rponses diffrentes peuvent tre obtenues en posant une mme question de
manire lgrement diffrente. Par consquent, le contexte et la formulation des
questions doivent tre les mmes pour toutes les units an dviter tout biais dans
les rponses. Glewwe (ONU2005) formule six recommandations spciques sur le
contenu des questionnaires denqutes auprs des mnages. Ces recommandations
sappliquent aussi la plupart des autres instruments de collecte de donnes:
1. Chaque question doit tre rdige dans son intgralit dans le questionnaire
an que lenquteur puisse raliser son entretien en lisant chaque question mot
pour mot.
2. Le questionnaire doit inclure des dnitions prcises de tous les concepts cls
mentionns dans lenqute an que lenquteur puisse y faire rfrence pendant
lentretien si ncessaire.
203
3. Chaque question doit tre aussi courte et simple que possible et tre rdige dans
des termes simples du quotidien.
4. Les questionnaires doivent tre conus de faon ce que les rponses presque
toutes les questions soient prcodes.
5. Le systme de codage doit tre le mme pour toutes les questions.
6. Lenqute doit clairement indiquer les questions sauter en fonction des rponses aux questions prcdentes.
Une fois le questionnaire rdig par la personne mandate, il doit tre prsent une
quipe de spcialistes. Toutes les personnes participant lvaluation (dcideurs,
chercheurs, analystes et collecteurs de donnes) doivent tre consultes pour savoir
si le questionnaire permettra dobtenir toutes les informations ncessaires.
Pilotage du questionnaire
Il est important que le questionnaire fasse lobjet dun pilotage sur le terrain avant
dtre nalis. La ralisation dun pilote permet de tester son contenu, son formatage et la formulation des questions. Il est essentiel de procder un pilotage complet du questionnaire sur le terrain dans des conditions relles an de vrier la
dure dadministration et de sassurer que son contenu est suffisamment cohrent
et complet pour mesurer toutes les informations pertinentes. Le pilotage sur le
terrain fait partie intgrante du travail de conception du questionnaire.
Travail de terrain
Mme si vous engagez un partenaire externe pour la collecte des donnes, il est
essentiel que vous compreniez toutes les tapes de ce processus pour pouvoir
garantir que les mcanismes de contrle de qualit et les mcanismes incitatifs
appropris sont en place. Lorganisme de collecte des donnes doit coordonner les
travaux d'un grand nombre d'intervenants, parmi lesquels les enquteurs, les
superviseurs, les coordonnateurs de terrain ainsi que le personnel d'appui logistique en plus d'une quipe de programmateurs, de superviseurs et d'oprateurs de
saisie. Un plan de travail prcis doit tre mis en place pour coordonner le travail de
toutes ces quipes; le plan de travail constitue donc un produit important.
Ds le dbut, le plan de travail doit prvoir une sance de formation de lquipe
de collecte avant que la collecte ne commence. ce titre, un manuel de rfrence
doit tre rdig et utilis tout au long du travail sur le terrain. La formation est
204
essentielle pour s'assurer que les donnes sont collectes de la mme manire par
tous les intervenants. Le processus de formation est galement une bonne occasion pour reprer les meilleurs enquteurs et effectuer un dernier test des instruments et des procdures dans des conditions relles. Une fois lchantillon prlev,
les instruments conus et tests, et les quipes formes, la collecte des donnes
peut commencer. Il est utile de veiller ce que le plan du travail de terrain prvoie
que chaque quipe collecte des donnes pour le mme nombre dunits de traitement et de comparaison.
Comme nous lavons vu au chapitre 11, la qualit de lchantillonnage dpend
essentiellement de la qualit des donnes recueillies. Toutefois, de nombreuses
erreurs non lies lchantillonnage peuvent survenir pendant la collecte de donnes.
Dans le contexte dune valuation dimpact, cela est dautant plus problmatique si
ces erreurs diffrent entre les groupes de traitement et de comparaison.
Une non-rponse apparait sil est impossible de collecter des donnes exhaustives
pour certaines units de lchantillon. Les chantillons effectifs se limitent aux units pour lesquelles des donnes peuvent tre collectes, les units qui choisissent de
ne pas participer une enqute peuvent rendre l'chantillon moins reprsentatif et
crer un biais dans les rsultats de l'valuation. Lattrition est une forme courante de
non-rponse. Elle se produit lorsque des units quittent lchantillon entre deux
rondes de collecte de donnes, par exemple par manque de suivi des migrants.
La non-rponse et lattrition sont particulirement problmatiques dans le
contexte des valuations dimpact, car elles peuvent crer des diffrences entre le
groupe de traitement et le groupe de comparaison. Par exemple, lattrition peut
varier dans les deux groupes : lors de la collecte de donnes de suivi, le taux de
rponse parmi les units traites pourra tre suprieur celui des units de comparaison. Par exemple, ceci peut tre d au fait que les units de comparaison sont
dues de ne pas avoir t slectionnes pour le programme ou sont plus susceptibles de migrer. Un problme de non-rponse peut galement survenir si un questionnaire nest pas complet pour certaines units.
Lerreur de mesure est un autre type de problme pouvant gnrer un biais si elle
est systmatique. Une erreur de mesure survient lorsquil existe une diffrence entre
la valeur dune caractristique fournie par le sond et sa vritable valeur (inconnue)
(Kasprzyk2005). Cette diffrence peut tre due la faon dont le questionnaire est
formul ou la mthode de collecte des donnes choisie. Elle peut galement survenir par la faute des enquteurs ou des sonds.
La qualit dune valuation dimpact dpend directement de la qualit des donnes collectes. Toutes les parties prenantes doivent connatre les normes de qualit
qui rgissent la collecte de donnes; il faut notamment insister sur limportance de
ces normes durant la formation des enquteurs et dans les manuels de rfrence.
Il est galement essentiel de dnir des procdures dtailles pour rduire le taux de
non-rponse ou (si cela est jug acceptable) remplacer les units introuvables de
lchantillon prvu. Lagence de collecte de donnes doit parfaitement comprendre
Concept cl :
La non-rponse
caractrise le manque
des donnes pour
certaines units de
lchantillon prvu.
La non-rponse peut
entraner un biais
dans les rsultats
de lvaluation.
Concept cl :
Les meilleures
pratiques en matire
dvaluation dimpact
visent limiter le taux
de non-rponse et
dattrition 5 %.
205
quels sont les taux de non-rponse et dattrition acceptables. Les meilleures pratiques en matire dvaluation dimpact visent limiter le taux de non-rponse et
dattrition 5%. Cet objectif nest pas toujours ralisable au sein de populations trs
mobiles, mais il fournit toutefois une rfrence utile. Il arrive que, pour limiter le
taux de non-rponse, les sonds se voient offrir une compensation. Dans tous les cas,
le contrat avec lagence de collecte des donnes doit prvoir des mesures incitatives
claires, par exemple une rmunration suprieure si le taux de non-rponse est infrieur 5% ou tout autre taux jug acceptable.
En parallle, des procdures dassurance de la qualit bien dnies doivent tre
tablies toutes les tapes du processus de collecte de donnes: conception des procdures dchantillonnage, formulation du questionnaire, tapes de prparation, collecte, saisie, nettoyage et stockage des donnes.
Les contrles de qualit doivent tre considrs comme une priorit pendant les
travaux sur le terrain an de limiter les erreurs de non-rponse pour chaque unit.
Des procdures prcises doivent tre mises en place pour revisiter les units qui
nont fourni aucune information ou pour lesquelles les informations sont incompltes. Le processus de contrle de la qualit doit comporter plusieurs ltres en prvoyant par exemple que les enquteurs, les superviseurs et, si ncessaire, les
coordonnateurs de terrain vrient les cas de non-rponse. Les questionnaires correspondant aux cas de non-rponses doivent tre clairement cods et consigns. Une
fois les donnes saisies, le taux nal de non-rponse peut tre tabli en rvisant le
statut de toutes les units de lchantillon prvu.
Des contrles de qualit doivent galement tre effectus si les donnes dun
questionnaire sont incompltes. L encore, le processus de contrle de la qualit doit
comporter plusieurs ltres. Lenquteur est charg de vrier les donnes immdiatement aprs leur collecte. Le superviseur et le coordonnateur de terrain doivent
effectuer ultrieurement des vrications alatoires.
Les contrles visant dtecter les erreurs de mesure sont plus compliqus, mais
eux aussi essentiels pour dterminer si les informations ont t collectes correctement. Des contrles de cohrence peuvent tre intgrs au questionnaire.
Par ailleurs, les superviseurs doivent effectuer des vrications ponctuelles et des
contre-vrications pour s'assurer que les enquteurs collectent les donnes conformment aux normes tablies. Les coordonnateurs de terrain doivent galement participer ces contrles pour rduire le risque de conits dintrts au sein de la socit
de sondage.
Il est essentiel que toutes les tapes du contrle de la qualit soient rendues explicites pour lorganisme charg de la collecte des donnes. Vous pouvez galement
envisager de faire appel un organisme indpendant pour superviser la qualit des
activits de collecte de donnes. Ceci permet de limiter de faon signicative les
problmes pouvant survenir en raison d'une supervision insuffisante de lquipe de
collecte de donnes.
206
207
Encadr 12.1 : Collecte de donnes pour lvaluation des programmes pilotes Atencin a Crisis au Nicaragua
En 2005, le Gouvernement du Nicaragua lance
le programme pilote Atencin a Crisis. Lobjectif
est d'valuer limpact de la combinaison d'un
programme de transferts montaires conditionnels (TMC) et de transferts productifs, tels que
des transferts pour des investissements dans
des activits non agricoles ou la participation
des formations professionnelles. Le projet pilote
est mis en uvre par le ministre de la Famille
avec le soutien de la Banque mondiale.
Une assignation alatoire en deux tapes est
utilise pour l'valuation. Dans un premier temps,
106 communauts cibles sont rparties de manire
alatoire entre le groupe de comparaison et le
groupe de traitement. Dans un second temps, au
sein des communauts traites, les mnages ligibles sont slectionns de manire alatoire pour
recevoir trois types de prestations : 1) un transfert
montaire conditionnel ; 2) un TMC plus une
bourse permettant lun des membres du mnage
de choisir une formation professionnelle ; et 3) un
TMC plus un transfert pour permettre un investissement productif dans une activit non agricole,
dans le but de crer des actifs et de diversifier les
revenus (Macours et Vakis 2009).
Une enqute de rfrence est ralise en
2005, avec une premire enqute de suivi en
2006 et une deuxime enqute de suivi en 2008,
deux ans aprs la fin de lintervention. Des
contrles de qualit rigoureux sont mis en place
toutes les tapes du processus de collecte des
donnes. Premirement, les questionnaires sont
tests sur le terrain et les enquteurs sont forms la fois dans des conditions thoriques et
pratiques. Deuximement, un systme de supervision sur le terrain est mis en place afin que tous
les questionnaires soient rviss plusieurs fois
par les enquteurs, les superviseurs, les coordonnateurs de terrain et dautres examinateurs.
Troisimement, un systme de saisie des donnes en double aveugle est utilis avec un programme complet de contrle de la qualit capable
de reprer les questionnaires incomplets ou
incohrents. Les questionnaires prsentant des
non-rponses ou des incohrences sont syst-
matiquement renvoys sur le terrain pour vrification. Ces procdures et exigences sont
dcrites avec prcision dans les termes de rfrence de lagence de collecte des donnes.
Par ailleurs, des procdures de suivi dtailles
sont mises en place pour limiter lattrition. Au
dbut, un recensement complet des mnages
rsidant dans les communauts de traitement et
de comparaison en 2008 est entrepris en collaboration troite avec les dirigeants communautaires.
Au vu de limportante mobilit gographique de la
population, des mesures incitatives sont mises en
place pour encourager la socit de collecte de
donnes suivre les migrants dans tout le pays.
Grce cette initiative, seulement 2 % des
4 359 mnages dorigine ne sont pas interrogs
en 2009. La socit de collecte de donnes est
galement mandate pour suivre tous les individus des mnages interrogs en 2005. L encore,
seuls 2 % des individus auxquels les transferts du
programme sadressaient ne sont pas suivis (2 %
tant par ailleurs dcds). Le taux dattrition
stablit 3 % pour tous les enfants des mnages
interrogs en 2005 et 5 % pour tous les individus des mnages interrogs en 2005.
Les taux dattrition et de non-rponse donnent une bonne indication de la qualit de lenqute. La socit de collecte des donnes a
dploy dimportants efforts et mis en place des
mesures incitatives pour obtenir ces rsultats
remarquables. Il convient galement de mentionner que le cot unitaire par mnage ou individu
suivi est galement beaucoup plus lev. De
plus, les contrles de qualit rigoureux entranent
une augmentation des cots et un allongement
des dlais de collecte des donnes. Toutefois,
dans le contexte du projet pilote Atencin a Crisis, lchantillon reste reprsentatif la fois au
niveau des mnages et des individus plus de
quatre ans aprs l'enqute de rfrence, l'erreur
de mesure est minimise et la fiabilit de l'valuation est renforce. Tous ces lments font du
programme Atencin a Crisis lun des projets de
protection sociale dont la fiabilit peut tre tudie avec le plus de confiance.
208
Note
1. Voir galement Fink et Kosecoff (2008) ; Iarossi (2006) ; et Leeuw, Hox et
Dillman (2008), qui fournissent de nombreux conseils pratiques sur la collecte
de donnes.
Rfrences
Fink, Arlene G. et Jacqueline Kosecoff. 2008. How to Conduct Surveys: A Step
by Step Guide. 4e dition. Londres: Sage Publications.
Glewwe, Paul. 2005. An Overview of Questionnaire Design for Household
Surveys in Developing Countries. In Household Sample Surveys in
Developing and Transition Countries, chapitre 3. New York: Organisation
des Nations Unies.
Grosh, Margaret et Paul Glewwe, eds. 2000. Designing Household Survey
Questionnaires for Developing Countries: Lessons from 15 Years of the Living
Standards Measurement Study. Washington DC: Banque mondiale.
Iarossi, Giuseppe. 2006. The Power of Survey Design: A Users Guide for Managing
Surveys, Interpreting Results, and Inuencing Respondents. Washington DC:
Banque mondiale.
Kasprzyk, Daniel. 2005. Measurement Error in Household Surveys: Sources and
Measurement. In Household Sample Surveys in Developing and Transition
Countries, chapitre 9. New York: Organisation des Nations Unies.
Leeuw, Edith, Joop Hox et Don Dillman. 2008. International Handbook of Survey
Methodology. New York: Taylor & Francis Group.
Macours, Karen et Renos Vakis. 2009. Changing Household Investments and
Aspirations through Social Interactions: Evidence from a Randomized
Experiment. Document de travail consacr la recherche sur les politiques5137, Banque mondiale, Washington, DC.
Muoz, Juan. 2005. A Guide for Data Management of Household Surveys. In
Household Sample Surveys in Developing and Transition Countries, chapitre 15.
New York: Organisation des Nations Unies.
ONU (Organisation des Nations Unies). 2005. Household Sample Surveys in
Developing and Transition Countries. New York: Organisation des Nations Unies.
209
CHAPITRE13
Production et diffusion
des rsultats
Dans ce chapitre, nous abordons le contenu et la diffusion des divers rapports produits au cours dune valuation dimpact. Pendant la phase de prparation, le gestionnaire de lvaluation commence par laborer un plan de ralisation de lvaluation
dimpact qui dtaille les objectifs, la mthode, les stratgies dchantillonnage et de
collecte de donnes pour lvaluation (lencadr13.1 propose une bauche du plan
dvaluation). Les diffrents lments du plan dvaluation sont prsents dans les
chapitres1 12 ci-dessus.
Une fois lvaluation en cours, les valuateurs produisent plusieurs rapports, dont
un rapport de rfrence, au moins un rapport dvaluation dimpact et des notes de
synthse politique. Les valuateurs fournissent galement des bases de donnes
documentes. Lorsque le rapport dvaluation dimpact est termin et que les rsultats sont connus, il faut dterminer la meilleure faon de diffuser les conclusions
auprs des dcideurs et autres parties prenantes concernes. Le prsent chapitre est
consacr la production et la diffusion des rsultats de lvaluation dimpact.
211
tion dun rapport nal dvaluation peut prendre plusieurs annes puisque les
conclusions ne peuvent tre obtenues que lorsque toutes les donnes de suivi ont
t collectes. En raison de ce dlai, les dcideurs demandent souvent recevoir
des rapports dvaluation intermdiaires, comme un rapport de rfrence, an de
disposer dinformations prliminaires pour alimenter le dialogue et les dcisions
de politique publique1.
Comme nous lavons vu au chapitre10, le gestionnaire de lvaluation travaille en
collaboration avec des analystes pour produire le rapport de rfrence et le rapport
nal. Les analystes sont des experts en statistique ou en conomtrie qui peuvent
212
213
214
215
216
puis dcrire lintervention (bnces et rgles dassignation), les objectifs de lvaluation (thorie du changement, principales questions de politique, hypothses et
indicateurs), la mthode dvaluation et la faon dont elle a t mise en uvre.
En gnral, linterprtation des rsultats dpend de la faon dont lintervention a
t mise en uvre. Le rapport dvaluation nal doit donc aborder en dtail la faon
dont lintervention a t mise en uvre. Ces informations peuvent tre prsentes
avant les rsultats, par exemple en dcrivant les donnes sur la mise en uvre du
programme obtenues partir des enqutes de suivi ou de sources administratives
complmentaires.
La section sur lchantillonnage et les donnes doit contenir une description de la
stratgie dchantillonnage et des calculs de puissance avant lanalyse dtaille des
donnes de rfrence et de suivi. Les indicateurs cls de qualit des donnes, comme
les taux de non-rponse et dattrition, doivent tre prsents pour chaque ronde de
donnes. Si ces taux sont levs, lanalyste doit expliquer dans quelle mesure ils peuvent affecter linterprtation des rsultats. Par exemple, il est essentiel de vrier si
les niveaux dattrition ou de non-rponse sont similaires dans les groupes de comparaison et de traitement.
Une fois les donnes dcrites, le rapport peut prsenter les rsultats pour chaque
question de politique ainsi que pour tous les indicateurs de rsultat identis dans
les objectifs de lvaluation. La structure de la prsentation des rsultats dpend du
type de questions de politique ltude. Par exemple, lvaluation vise-t-elle prouver la validit de diffrentes alternatives de conception de programme ou seulement
lefficacit dune intervention ? Cela intresse-t-il les dcideurs de savoir si les
impacts du programme varient entre diffrents sous-groupes? Pour les valuations
bien conues et bien mises en uvre, des rsultats rigoureux peuvent tre prsents
de manire intuitive.
Comme nous lavons mentionn, le rapport dvaluation dimpact doit tablir que
les impacts estims sont entirement attribuables au programme. Il doit donc comporter une tude approfondie de la validit de la mthode dvaluation, en commenant par prsenter les rsultats des tests de falsication effectus avec les donnes de
rfrence (encadr8.1, chapitre8), puis des tests ventuellement effectus partir
des donnes de suivi. Par exemple, si la mthode de la double diffrence est choisie,
certains des tests de falsication dcrits dans lencadr8.1 ne peuvent tre effectus
que si les donnes de suivi sont disponibles.
Lintroduction du rapport dvaluation doit numrer toute difficult rencontre
par la mthode dvaluation entre lenqute de rfrence et lenqute de suivi. Par
exemple, le manque dadhrence des participants au groupe de traitement ou au
groupe de comparaison a des implications importantes au niveau de lanalyse et de
linterprtation des rsultats et doit donc tre mentionn ds le dbut du rapport.
217
Le rapport doit galement contenir des renseignements sur le nombre dunits assignes au groupe de traitement nayant pas bnci du programme et sur le nombre
dunits assignes au groupe de comparaison en ayant bnci. Lanalyse doit tre
ajuste pour prendre en compte toute diffrence observe par rapport lassignation
initiale (ces techniques sont dcrites dans la partie2).
En parallle aux tests sur la validit de la mthode dvaluation, le rapport nal
doit fournir une analyse approfondie de la nature, de la abilit et de la sensibilit
des rsultats. Il doit contenir une srie de tests de sensibilit portant sur la mthodologie dvaluation employe. Par exemple, si une mthode dappariement est utilise,
le rapport doit prsenter les rsultats de plusieurs techniques dappariement alternatives. Les analystes ont la responsabilit de dterminer et de prsenter les tests de
robustesse ncessaires lvaluation. La dernire partie du rapport doit fournir une
rponse claire toutes les questions de politique motivant lvaluation et prsenter
des recommandations de politique dtailles fondes sur les rsultats.
Il est particulirement important de comprendre comment lintervention a t
mise en uvre si les rsultats de lvaluation font tat dun impact limit ou ngatif.
Labsence de rsultats ou des rsultats ngatifs ne justient pas des sanctions lencontre du programme ou des valuateurs. Au contraire, ils constituent une occasion
dexpliquer clairement ce qui na pas fonctionn comme prvu, un lment essentiel
pour amliorer les programmes et politiques. Lorsque des signes indiquent que
lvaluation va produire des rsultats nuls ou ngatifs, il est particulirement important que lquipe dvaluation communique continuellement avec les dcideurs et
responsables du programme. Des valuations de processus ou des travaux qualitatifs
complmentaires peuvent contribuer expliquer la raison pour laquelle un programme na pas produit les rsultats escompts. Une absence de rsultats cause par
la mise en uvre imparfaite du programme doit tre diffrencie dune absence de
rsultats cause par un programme bien mis en uvre, mais mal conu5. En gnral,
les valuations dalternatives de conception dun mme programme sont les plus
utiles pour distinguer formellement les caractristiques qui fonctionnent ou pas.
Globalement, lanalyse nale des donnes doit gnrer des preuves convaincantes que les impacts dtects sont effectivement attribuables au programme. Pour
garantir lobjectivit et la lgitimit des rsultats, tous les rapports doivent faire lobjet dune revue critique externe et de consultations techniques rigoureuses avant
dtre naliss. Le contenu du rapport nal dvaluation dimpact peut par la suite
tre retravaill et publi dans un journal acadmique plus technique, renforant
ainsi la crdibilit des rsultats de lvaluation.
218
219
220
Notes
1. Une valuation peut gnrer dautres produits intermdiaires. Par exemple,
des valuations qualitatives ou de processus fournissent de prcieuses informations complmentaires avant la rdaction du rapport dvaluation dimpact nal.
Nous nous concentrons ici sur le rapport de rfrence, car il constitue le
principal produit intermdiaire des valuations dimpact quantitatives qui
font lobjet de cet ouvrage.
2. Khandker et al. (2009) prsentent une introduction lvaluation qui comprend
une revue de lanalyse des donnes, y compris les commandes Stata correspondantes chaque mthode dvaluation dimpact.
3. Cette structure est indicative et peut tre adapte en fonction de la nature de
chaque valuation, par exemple en modiant lordre ou le contenu des diffrentes sections.
221
Rfrences
Basinga, Paulin, Paul J. Gertler, Agnes Binagwaho, Agnes L. B. Soucat, Jennifer R.
Sturdy et Christel M. J. Vermeersch. 2010. Paying Primary Health Care
Centers for Performance in Rwanda. Document de travail consacr la
recherchesur les politiques 5190, Banque mondiale, Washington, DC.
Card, David, Pablo Ibarraran, Ferdinando Regalia, David Rosas et Yuri Soares. 2007.
The Labor Market Impacts of Youth Training in the Dominican Republic:
Evidence from a Randomized Evaluation: Evidence from a Randomized
Evaluation. NBER Working Paper 12883, National Bureau of Economic
Research, Washington, DC.
Cattaneo, Matias, Sebastian Galiani, Paul Gertler, Sebastian Martinez et Rocio
Titiunik. 2009. Housing, Health and Happiness. American Economic Journal :
Economic Policy 1 (1): 75105.
Khandker, Shahidur R., Gayatri B. Koolwal et Hussain A. Samad. 2009. Handbook
on Impact Evaluation: Quantitative Methods and Practices. Washington DC:
Banque mondiale.
Levy, Dan et Jim Ohls. 2007. Evaluation of Jamaicas PATH Program: Final
Report. Ref. No. 8966-090, Mathematica Policy Research, Inc., Washington, DC.
Maluccio, John et Rafael Flores. 2005. Impact Evaluation of a Conditional Cash
Transfer Program: The Nicaraguan Red de Proteccion Social. Rapport de
recherche 141, Institut international de recherche sur les politiques alimentaires, Washington, DC.
Morgan, Lindsay. 2010. Signed, Sealed, Delivered? Evidence from Rwanda on the
Impact of Results-Based Financing for Health. Note de synthse politique
HRBF, Banque mondiale, Washington, DC.
Poverty Action Lab. 2008. Solving Absenteeism, Raising Test Scores. Policy
Briefcase 6. http://www.povertyactionlab.org.
Skouas, Emmanuel. 2005. PROGRESA and Its Impacts on the Welfare of Rural
Households in Mexico. Rapport de recherche 139, Institut international de
recherche sur les politiques alimentaires, Washington, DC.
Rseau de dveloppement humain de la Banque mondiale. 2010. Does Linking
Teacher Pay to Student Performance Improve Results? Notes de synthse
politique, srie1, Banque mondiale, Washington DC.
http://www.worldbank.org/hdchiefeconomist.
222
CHAPITRE 14
Conclusion
Le prsent ouvrage est un guide pratique sur la conception et la mise en uvre
des valuations dimpact. Son contenu sadresse trois groupes de lecteurs :
1) les dcideurs qui exploitent les informations gnres par les valuations
dimpact, 2)les gestionnaires de projet et les professionnels du dveloppement qui
commanditent des valuations, et 3)les techniciens qui conoivent et mettent en
uvre des valuations dimpact. Lvaluation dimpact vise essentiellement
gnrer des preuves quant lefficacit ou linefficacit des politiques sociales. Une
valuation dimpact classique compare les rsultats en la prsence et en labsence
dun programme ltude. Les valuations dimpact peuvent galement permettre
dtudier diffrentes options de mise en uvre dun mme programme ou de comparer les performances de diffrents programmes.
Les valuations dimpact constituent, selon nous, un investissement justi
pour de nombreux programmes. Compltes par des mthodes de suivi et dautres
formes dvaluation, elles permettent de mieux comprendre lefficacit des politiques sociales. Nous avons prsent diffrentes mthodes dvaluation dimpact
ainsi que leurs avantages et leurs inconvnients en termes de mise en uvre,
dconomie politique, de contraintes nancires et dinterprtation des rsultats.
Nous avons montr quune bonne mthode est une mthode qui sadapte au
contexte oprationnel et non le contraire. Enn, nous avons formul des conseils
pratiques et pass en revue des outils qui visent faciliter la conduite dune valuation et lexploitation de ses rsultats.
223
Les valuations dimpact sont des entreprises complexes ncessitant la coordination de nombreux partenaires et activits. La liste suivante contient un rsum des
principaux lments qui caractrisent une bonne valuation dimpact :
Une question de politique concrte (fonde sur une thorie du changement)
laquelle lvaluation dimpact peut fournir une rponse
Une stratgie didentication (ou mthodologie dvaluation) valide, compatible
avec les rgles oprationnelles du programme, qui illustre la relation causale
entre le programme et les rsultats ltude
Un chantillon avec une puissance suffisante pour dtecter des impacts signicatifs du point de vue politique et un chantillon reprsentatif qui permet de gnraliser les rsultats une population plus tendue
Une base de donnes de qualit fournissant les variables requises pour lanalyse,
incluant la fois des donnes de rfrence et des donnes de suivi, tant pour le
groupe de traitement que pour le groupe de comparaison
Une quipe dvaluation bien organise qui travaille en troite collaboration avec
les dcideurs et gestionnaires du programme
Un rapport dimpact et des notes de synthse politique diffuss rapidement au
public cible, qui fournissent des informations pertinentes pour la conception du
programme et qui alimentent les dialogues de politique.
Nous soulignons ci-aprs quelques conseils formuls dans cet ouvrage pour limiter
les risques auxquels les valuations dimpact font souvent face :
Il est largement prfrable de concevoir lvaluation dimpact au dbut du cycle
de projet dans le cadre de la conception du programme. Une planication mene
suffisamment tt permet de concevoir une valuation prospective fonde sur la
meilleure mthodologie et laisse le temps ncessaire pour collecter des donnes
de rfrence avant le lancement du programme dans les zones values.
Les rsultats doivent tre tays par des donnes complmentaires provenant
dvaluations de processus et de donnes de suivi qui fournissent une image
claire de la mise en uvre du programme. Si un programme est efficace, il est
important de comprendre pourquoi. Si un programme choue, il est important de
pouvoir distinguer entre un programme mal mis en uvre et un programme
mal conu.
Collectez des donnes de rfrence et intgrez une mthode de rechange
votre plan dvaluation. Si la mthode dvaluation initialement prvue nest
pas valide (par exemple si le groupe de comparaison initial bncie du programme), un plan de rechange peut viter de devoir renoncer entirement
lvaluation.
224
Conservez un identiant unique pour chaque unit dans toutes les bases de donnes an de pouvoir exploiter facilement toutes les ressources disponibles au
moment de lanalyse. Par exemple, un mnage donn doit avoir le mme identiant tant dans les systmes de suivi que dans les enqutes de rfrence et de suivi.
Les valuations dimpact sont utiles aussi bien pour comprendre comment un
programme fonctionne et prouver diffrentes alternatives de conception de
programmes que pour valuer limpact global dun programme au bnce
unique. La dsagrgation des divers lments dun programme, mme universel
et trs tendu, peut tre un excellent moyen dapprendre et de tester des innovations dans le cadre dvaluations dimpact bien conues. Le dveloppement dune
innovation en tant que projet pilote petite chelle dans le contexte dune valuation plus tendue peut fournir de prcieuses informations pour les prises de
dcision futures.
Les valuations dimpact doivent tre pleinement considres comme lune des
composantes du programme ; il faut y consacrer le personnel et le budget adquats ainsi que des ressources techniques et nancires suffisantes. Soyez raliste quant aux cots et la complexit que reprsente une valuation dimpact.
La conception de lvaluation et la collecte des donnes de rfrence peuvent
durer environ un an. Une fois le programme lanc, il faut une priode dexposition suffisante avant que lintervention naffecte les rsultats. Selon le programme, cette priode peut stendre entre un cinq ans, voire plus. La collecte
dune ou de plusieurs enqutes de suivi, la ralisation des analyses et la diffusion des rsultats ncessitent galement des efforts importants sur plusieurs
mois. Un cycle dvaluation dimpact complet ncessite gnralement au moins
trois ou quatre ans defforts soutenus. Des ressources nancires et techniques
adquates sont ncessaires chaque tape du processus.
Au nal, les valuations dimpact fournissent des rponses concrtes des questions
de politique spciques. Mme si les rponses sont tailles en fonction des besoins
de lentit qui commandite et nance lvaluation, dautres organismes travers le
monde peuvent en tirer des enseignements et les utiliser dans leurs propres prises de
dcisions. Par exemple, plusieurs rcents programmes de transferts montaires
conditionnels en Afrique, en Asie et en Europe ont tir des enseignements des valuations novatrices des programmes Familias en Accin (Colombie), Progresa
(Mexique) et dautres programmes de transferts montaires mis en uvre en Amrique latine. Dans ce sens, les valuations dimpact peuvent tre considres comme
un bien public global. Les conclusions dune valuation alimentent les connaissances
globales sur le sujet en question. Cet ensemble de preuves peut par la suite tre utilis par dautres pays et dans dautres contextes pour formuler des dcisions de politique claires. Dans ce sens, la communaut internationale renforce de plus en plus
son support aux initiatives dvaluations rigoureuses.
Conclusion
225
226
Nombre dvaluations
dimpact en cours
350
300
250
200
150
100
50
0
2004
2005
2006
2007
2008
2009
2010
Asie du Sud
Moyen-Orient et Afrique du Nord
Amrique latine et Carabes
Europe et Asie centrale
Asie de lEst et Pacifique
Afrique
Source : Banque mondiale.
Conclusion
227
Note
1. Pour en savoir plus, voir Savedoff, Levine et Birdsall (2006).
Rfrences
Legovini, Arianna. 2010. Development Impact Evaluation Initiative: A World
BankWide Strategic Approach to Enhance Development Effectiveness.
Rapport prliminaire aux Vice-prsidents, Oprations, Banque mondiale,
Washington, DC.
Savedoff, William, Ruth Levine et Nancy Birdsall. 2006. When Will We Ever
Learn? Improving Lives through Impact Evaluation. CGD Evaluation Gap
Working Group Paper, Center for Global Development, Washington, DC.
http://www.cgdev.org/content/publications/detail/7973.
228
GLOSSAIRE
229
Calculs de puissance. Les calculs de puissance indiquent la taille que doit avoir lchantillon
pour dtecter leffet minimal dsir dans une valuation. Les calculs de puissance dpendent
de paramtres comme la puissance (ou la probabilit dune erreur de type II), le seuil de signication, la variance et la corrlation intra-grappe du rsultat ltude.
Chane de rsultats. Une chane de rsultats dcrit la logique de ralisation des objectifs de
dveloppement dun programme. Elle montre les liens entre les intrants et les rsultats en
passant par les activits et les extrants.
Comparaison avant-aprs. galement appele comparaison pr-post et comparaison
rexive, la comparaison avant-aprs vise valuer limpact dun programme en procdant
un suivi de lvolution des rsultats obtenus par les participants au programme au l du
temps, en particulier en comparant les rsultats avant et aprs sa mise en uvre.
Contrefactuel. Le contrefactuel est une estimation de ce quaurait t le rsultat (Y) pour un
participant au programme en labsence du programme (P). Par dnition, le contrefactuel
nest pas observable. Il faut donc lestimer en recourant des groupes de comparaison.
Corrlation intra-grappe. La corrlation intra-grappe est la corrlation (ou lassociation)
des rsultats ou des caractristiques entre les units dune mme grappe. Par exemple, les
enfants qui frquentent la mme cole proviennent dordinaire de la mme zone dhabitation
ou du mme milieu socioconomique, ce qui implique une source de corrlation.
Donnes denqute. Donnes qui correspondent un chantillon de la population ltude.
Se diffrencie des donnes de recensement.
Donnes de recensement. Donnes qui recouvrent toutes les units de la population
ltude. Se diffrencie des donnes denqute.
Double Diffrence. galement appele diffrence des diffrences ou DD. La double
diffrence estime le contrefactuel pour le changement du rsultat dans le groupe de traitement
par le changement du rsultat dans le groupe de comparaison. Cette mthode permet de
prendre en compte toute diffrence entre le groupe de traitement et le groupe de comparaison qui est invariable dans le temps. Les deux diffrences sont donc celle de lavant et de
laprs, et celle entre le groupe de traitement et le groupe de comparaison.
chantillon. En statistique, un chantillon est un sous-ensemble dune population. En rgle
gnrale, la taille de la population est trs grande, ce qui rend son recensement, cest--dire
une numration exhaustive de toutes ses units, impraticable ou impossible. Les chercheurs
prlvent la place laide dun cadre dchantillonnage un sous-ensemble reprsentatif de
la population, et recueillent des statistiques pour cet chantillon. Ces statistiques permettent
alors dinfrer ou dextrapoler les paramtres pour lensemble de la population. Le processus
par lequel lchantillon est obtenu de la population ltude sappelle lchantillonnage.
chantillon alatoire. La meilleure faon dviter quun chantillon soit biais ou non
reprsentatif est de le prlever de faon alatoire. Un chantillon alatoire est un chantillon
probabiliste pour lequel toutes les units de la population ltude ont la mme probabilit
dtre slectionnes.
chantillon par grappes. chantillon obtenu par le prlvement dun chantillon alatoire
de grappes, aprs quoi soit lensemble des units des grappes slectionnes constitue
lchantillon, soit un certain nombre dunits est slectionn de manire alatoire dans
chaque grappe prleve. Chaque grappe a une probabilit bien dnie dtre slectionne,
et les units slectionnes de chaque grappe ont elles aussi une probabilit bien dnie
dtre prleves.
230
231
Erreur de type II. Erreur commise en acceptant (en ne rejetant pas) lhypothse nulle alors
que celle-ci nest pas valable. Dans le contexte dune valuation dimpact, une erreur de
type II est commise lorsquune valuation conclut quun programme na aucun impact,
cest--dire que lhypothse nulle selon laquelle il ny a aucun impact nest pas rejete, alors
que le programme a, en ralit, un impact, et que lhypothse nulle nest donc pas valable.
La probabilit de commettre une erreur de type II est gale 1 moins la puissance.
Estimateur. Un estimateur est une statistique (une fonction des donnes observe dun
chantillon observables) qui sert estimer un paramtre inconnu de la population. Lestimation est le rsultat de lapplication de la fonction un chantillon de donnes.
Estimateur de lintention de traiter ou de lIDT. Lestimateur de lIDT est la simple diffrence entre lindicateur de rsultat Y pour le groupe auquel on a offert le traitement et le
mme indicateur pour le groupe auquel on na pas offert le traitement. Se diffrencie de leffet
du traitement sur les traits.
valuation. Les valuations sont des apprciations priodiques et objectives de projets ou
de programmes ou de politiques prvus, en cours de ralisation ou raliss. Les valuations
fournissent des informations sur des questions prcises, souvent lies la conception, la
mise en uvre et aux rsultats.
valuation dimpact. Une valuation dimpact est une valuation qui tente dtablir un lien
causal entre un programme et des indicateurs de rsultats. Une valuation dimpact tente de
savoir si le programme est directement responsable de changements dans les indicateurs de
rsultats ltude. Se diffrencie de lvaluation de processus.
valuation de processus. Une valuation de processus tente de dterminer la qualit ou le
degr de performance des processus dun programme, comme ladquation des procdures
administratives, lacceptabilit des bnces dun programme, la clart dune campagne dinformation, les mcanismes internes des organismes de mise en uvre, leurs moyens daction,
leurs dispositifs de prestation de service, leurs pratiques de gestion. Se diffrencie de
lvaluation dimpact.
Extrant. Les biens ou services qui sont produits ou offerts directement par une intervention.
Les extrants comprennent parfois des changements dcoulant de lintervention et qui contribuent lobtention des rsultats.
Grappe. Une grappe est un groupe dunits qui se ressemblent dune faon ou dune autre.
Dans un chantillonnage dcoliers, par exemple, les enfants qui se rendent la mme cole
appartiennent une mme grappe car ils frquentent les mmes installations scolaires, ils
disposent des mmes enseignements et ils habitent le mme quartier.
Groupe de comparaison. galement appel groupe de contrle ou groupe tmoin
dans le cadre dun essai contrl randomis. Un groupe de comparaison valable a les mmes
caractristiques que le groupe de participants au programme (groupe de traitement), la
seule exception que les units du groupe de comparaison ne participent pas au programme.
Les groupes de comparaison servent estimer le contrefactuel.
Groupe de traitement. galement appel groupe dintervention. Le groupe de traitement
est le groupe des units qui bncient dune intervention, tandis que le groupe de comparaison nen bncie pas.
Hypothse. Une hypothse est une explication avance dun phnomne observable. Voir
galement hypothse nulle et hypothse alternative.
232
Glossaire
233
Promotion alatoire. La promotion alatoire est une mthode proche de celle de loffre alatoire. Au lieu de slectionner au hasard les units auxquelles on offre le traitement, les units
sont slectionnes au hasard pour recevoir une promotion et ainsi augmenter la probabilit
quelles participent au traitement. De cette faon, le programme demeure ouvert tous.
Puissance. La puissance est la probabilit dobserver un impact sil existe. La puissance dun
test est gale un moins la probabilit dune erreur de type II, allant de zro un. La puissance
varie le plus souvent entre 0,8 et 0,9. Les valeurs leves de la puissance sont plus conservatrices. Elles rduisent le risque des erreurs de typeII. La puissance dune valuation dimpact
est leve si le risque de ne pas observer dimpacts, cest--dire de commettre une erreur de
typeII, est faible.
Puissance statistique. La puissance dun test statistique est la probabilit que le test aboutisse au rejet de lhypothse nulle lorsque lhypothse alternative est valable (cest--dire quaucune erreur de typeII nest commise). Le risque de commettre une erreur de typeII dcroit au
fur et mesure que la puissance augmente. La probabilit de commettre une erreur de typeII
est dsigne par le taux de faux-ngatif (). La puissance est donc gale 1 .
Rapport cot-efficacit. Pour dterminer le rapport cot-efficacit, il faut comparer des
interventions similaires sur les plans du cot et de lefficacit. Ainsi, les valuations dimpact
de divers programmes ducatifs permettent aux dcideurs de prendre des dcisions claires
sur lintervention qui permet de produire les rsultats souhaits au moindre cot et en fonction des contraintes qui sont les leurs.
Rgression. En statistique, lanalyse de rgression comprend lensemble des techniques
pour modliser et analyser plusieurs variables en considrant le lien entre une variable
dpendante et une ou plusieurs variables indpendantes. Dans lvaluation dimpact, lanalyse de rgression permet de comprendre comment lindicateur de rsultat Y (variable dpendante) volue en fonction de laffectation au traitement, ou groupe de comparaison P, (variable
indpendante) alors que les caractristiques des participants (variables indpendantes) ne
changent pas.
Rsultat. Intermdiaire ou nal. Un rsultat est le produit de linteraction entre des facteurs
doffre et de demande. Par exemple, si une intervention renforce loffre des services de vaccination, le nombre de vaccinations constitue alors un rsultat, celui-ci ne dpendant pas seulement de loffre en vaccins, mais aussi du comportement des personnes cibles: se rendent-elles
au centre de vaccination pour se faire vacciner ? Les rsultats naux et les rsultats long
terme sont plus distants, soit dans la dimension temporelle (une longue priode est ncessaire
pour arriver au rsultat), soit dans la dimension causale (un grand nombre de liens de cause
effet sont ncessaires pour atteindre le rsultat).
Slection alatoire (ou essai contrl randomis). La slection alatoire est considre
comme la mthode la plus rigoureuse pour estimer le contrefactuel. Elle est souvent dcrite
comme ltalon-or de lvaluation dimpact. Les bnciaires de lintervention sont slectionns au hasard parmi la population ligible. Tous les individus ligibles ont donc la mme
chance de participer au programme. Avec des chantillons de taille suffisante, la slection
alatoire garantit que les caractristiques, observes et non observes des groupes de traitement et de contrle soient semblables, liminant ainsi le biais de slection.
234
Glossaire
235
ECO-CONTRLE
Dclaration davantages environnementaux
La Banque Mondiale a pris lengagement de
prserver les forts et les ressources naturelles. La maison ddition a dcid dimprimer
Levaluation dimpact en practique sur du papier
recycl comprenant 50 pourcent de papier dj
utilis, selon les standards recommands par
Green Press Initiative, un programme but non
lucratif incitant les maisons ddition utiliser
du bois qui ne provienne pas de forts en danger.
Pour plus dinformations, vous pouvez visiter
www.greenpressinitiative.org.
Sauvs:
8 arbres
2 millions BTU
327 kg deffet de serre net
13.128 litres deau use
96 kg de dchets solides
Cet ouvrage constitue un guide pratique, complet et clair sur lvaluation dimpact. Son contenu,
quitraitedes raisons de procder des valuations dimpact, des avantages des diffrentes mthodologies,
en passant par les calculs de puissance et les cots, est prsent de manire trs claire et couvre un grand
nombre de domaines. Ce manuel deviendra un guide de rfrence incontournable et inuencera
llaboration des politiques pour les annes venir.
Orazio Attanasio, Professor of Economics, University College London; Director, Centre for the Evaluation
of Development Policies, Institute for Fiscal Studies, Royaume-Uni.
Ce prcieux ouvrage sadresse celles et ceux qui visent mener des valuations dimpact dans les pays
en dveloppement. Il dcrit les enjeux conceptuels et pratiques des valuations en sappuyant sur
des exemples tirs dexpriences rcentes.
Michael Kremer, Gates Professor of Developing Societies, Department of Economics, Harvard University,
tats-Unis.
Les ingrdients de base indispensables la russite des valuations de politiques publiques sont
a)des mthodologies appropries, b)la capacit rsoudre des problmes pratiques tels que la collecte
dedonnes, les limites budgtaires ou la rdaction du rapport nal et c)la responsabilisation des
gouvernements. Cet ouvrage prsente des outils mthodologiques solides pour valuer limpact des
programmes publics. Il expose aussi de nombreux exemples et nous emmne au cur de la mise en uvre
des valuations dimpact, de ltape qui consiste convaincre les dcideurs celle de la diffusion des
rsultats. Si davantage de praticiens et de dcideurs lisent ce manuel, nous aurons de meilleures politiques
et de meilleurs rsultats dans de nombreux pays. Si les gouvernements se responsabilisent aussi davantage,
limpact de ce manuel nen sera que plus important.
Gonzalo Hernndez Licona, Executive Secretary, National Council for the Evaluation of Social
Development Policy (CONEVAL), Mexique.
Je recommande cet ouvrage comme un guide clair et accessible pour faire face aux ds pratiques
ettechniques inhrents la conception des valuations dimpact. Le manuel est fond sur des ressources
prouves lors dateliers conduits travers le monde et constitue une rfrence utile tant pour les
praticiens, que pour les dcideurs ou les valuateurs.
Nick York, Head of the Evaluation Department, Department for International Development,
Royaume-Uni.
La connaissance est un atout essentiel pour comprendre la nature complexe du processus de
dveloppement. Les valuations dimpact contribuent combler le foss entre lintuition et les preuves
et ainsi amliorer llaboration de politiques publiques. Cet ouvrage est lun des produits concrets
duFonds espagnol pour lvaluation dimpact. Il munit les praticiens en matire de dveloppement humain
doutils de pointe qui leur permettront de gnrer des preuves au sujet de quelles politiques sont efficaces
et pourquoi. Parce quil amliore notre capacit atteindre des rsultats, cet ouvrage devrait transformer
en profondeur les pratiques de dveloppement.
Soraya Rodrguez Ramos, Secretary of State for International Cooperation, Espagne.
ISBN 978-0-8213-8752-8
BANQUE MONDIALE
SKU 18752