Vous êtes sur la page 1sur 256

Lvaluation

dimpact
en pratique

Paul J. Gertler, Sebastian Martinez,


Patrick Premand, Laura B. Rawlings,
Christel M. J. Vermeersch

BANQUE MONDIALE

Lvaluation
dimpact
en pratique

La version anglaise de lvaluation dimpact en pratique est


disponible sous la forme dun manuel interactif ladresse
suivante : http://www.worldbank.org/pdt. La version
lectronique permet la communaut des praticiens qui
travaillent dans des rgions ou des secteurs diffrents
ainsi quaux tudiants et aux enseignants de partager des
informations et des notes qui favorisent lapprentissage
multimdia et les changes de connaissances.
Des documents complmentaires au prsent ouvrage
sont disponibles ladresse suivante :
http://www.worldbank.org/ieinpractice.

Ce manuel a t rendu possible par le soutien du Fonds


espagnol dvaluation dimpact (SIEF). Lanc en 2007
avec un don de 14,9 millions de dollars du Gouvernement
espagnol et complment par un don de 2,1 millions de
dollars du dpartement britannique du dveloppement
international (DFID), le SIEF est le plus grand fonds
consacr lvaluation dimpact jamais mis en place par la
Banque mondiale. Son objectif principal est de renforcer
lensemble des preuves existantes sur les programmes
qui fonctionnent en matire de sant, dducation et de
protection sociale et, de ce fait, dinformer les dcisions
sur les politiques de dveloppement.
http://www.worldbank.org/sief.

Lvaluation
dimpact
en pratique
Paul J. Gertler, Sebastian Martinez,
Patrick Premand, Laura B. Rawlings,
Christel M. J. Vermeersch

BANQUE MONDIALE

2011 Banque internationale pour la reconstruction et le dveloppement/Banque mondiale


1818 H Street NW
Washington DC 20433
Tlphone : 202-473-1000
Internet: www.worldbank.org
Tous droits rservs
1 2 3 4 14 13 12 11
Cet ouvrage a t ralis par le personnel de la Banque internationale pour la
reconstruction et le dveloppement/Banque mondiale. Les observations,
interprtations et conclusions quil contient ne retent pas ncessairement lopinion
du Conseil dadministration de la Banque mondiale ou des pays quil reprsente.
La Banque mondiale ne garantit pas lexactitude des donnes contenues dans cet
ouvrage. Les frontires, les couleurs, les dnominations et toute autre information
gurant sur les cartes du prsent ouvrage nimpliquent de la part de la Banque
mondiale aucun jugement quant au statut juridique dun territoire quelconque et ne
signient nullement que linstitution reconnat ou accepte ces frontires.
Droits et licences
Le contenu de la prsente publication fait lobjet dun dpt lgal. La reproduction ou la
transmission dune partie ou de lintgralit de cette publication peuvent constituer une
violation de la lgislation en vigueur. La Banque internationale pour la reconstruction et
le dveloppement/Banque mondiale encourage la diffusion de ses travaux et, en rgle
gnrale, accorde rapidement lautorisation den reproduire des extraits.
Pour obtenir lautorisation de reproduire des extraits du prsent ouvrage,
veuillez adresser une demande en fournissant tous les renseignements ncessaires
ladresse suivante : Copyright Clearance Center, Inc., 222 Rosewood Drive, Danvers,
MA 09123, tats-Unis ; tlphone : 978-750-8400 ; tlcopie : 978-750-4470 ; Internet :
www.copyright.com.
Pour tout autre renseignement sur les droits et licences, y compris les droits
drivs, veuillez vous adresser au service suivant : Office of the Publisher,
The World Bank, 1818 H Street NW, Washington, DC 20433, tats-Unis ;
tlcopie : 202-522-2422 ; e-mail : pubrights@worldbank.org.
ISBN: 978-0-8213-8752-8
eISBN: 978-0-8213-8681-1
DOI: 10.1596/978-0-8213-8752-8
Donnes de catalogage avant publication de la Bibliothque du Congrs
Lvaluation dimpact en pratique/Paul J. Gertler ... [et al.].
p. cm.
Comprend des rfrences bibliographiques et un index.
ISBN 978-0-8213-8541-8 -- ISBN 978-0-8213-8593-7 (lectronique)
1. Projets de dveloppement conomique--valuation. 2. tude dvaluation (programmes
daction sociale) I. Gertler, Paul, 1955- II. Banque mondiale.
HD75.9.I47 2010
338.90072--dc22
2010034602
Maquette de couverture : Naylor Design.

TABLES DES MATIRES


Prface

xiii

PARTIE UN. INTRODUCTION LVALUATION DIMPACT 1


Chapitre 1. Pourquoi valuer ?

laboration des politiques fonde sur les preuves


Quest-ce que lvaluation dimpact ?
Lvaluation dimpact pour les dcisions politiques
Dcider quand valuer
Analyse du rapport cot-efficacit
valuation prospective et valuation rtrospective
tudes defficacit pilotes et tudes defficacit lchelle
Combiner les sources dinformation pour valuer tant le
pourquoi que le comment
Notes
Rfrences

3
7
8
10
11
13
14
15
17
18

Chapitre 2. Formulation des questions dvaluation

21

Types de questions dvaluation


Thories du changement
Chane de rsultats
Hypothses pour lvaluation
Slection des indicateurs de performance
Feuille de route pour les parties 2 et 3
Note
Rfrences

22
22
24
27
27
29
30
30

PARTIE DEUX. COMMENT VALUER ?

31

Chapitre 3. Infrence causale et contrefactuel

33

Infrence causale
Estimation du contrefactuel

33
36
v

Deux contrefactuels contrefaits


Notes

40
47

Chapitre 4. Mthodes de slection alatoire

49

Assignation alatoire du traitement


Deux variations de lassignation alatoire
Estimation dimpact pour loffre alatoire
Notes
Rfrences

50
64
66
79
80

Chapitre 5. Modle de discontinuit de la rgression

81

Cas 1 : subvention des engrais pour la riziculture


Cas 2 : transferts montaires
Utilisation du modle de discontinuit de la rgression pour
valuer le Programme de subvention de lassurance maladie (PSAM)
Le modle de discontinuit de la rgression en pratique
Limites et interprtation du modle de discontinuit de la rgression
Note
Rfrences

82
84

Chapitre 6. Double diffrence

95

En quoi la mthode de la double diffrence est-elle utile ?


Utilisation de la double diffrence pour valuer le Programme
de subvention de lassurance maladie (PSAM)
La mthode de la double diffrence en pratique
Limites de la mthode de la double diffrence
Notes
Rfrences

98
102
103
104
104
105

Chapitre 7. Appariement

107

Utilisation des techniques dappariement pour le Programme


de subvention de lassurance maladie (PSAM)
La mthode dappariement en pratique
Limites de la mthode dappariement
Notes
Rfrences

111
113
114
115
116

Chapitre 8. Combinaisons de mthodes


Combinaisons de mthodes
Adhrence non totale
Effets de diffusion

vi

86
89
91
93
93

117
119
120
123

Lvaluation dimpact en pratique

Considrations supplmentaires
Un plan de rechange pour votre valuation
Note
Rfrences

125
127
127
128

Chapitre 9. valuation de programmes multiples facettes

129

valuation de programmes diffrents niveaux de traitement


valuation de traitements multiples laide dtudes croises
Note
Rfrences

130
132
137
137

PARTIE TROIS. COMMENT METTRE EN UVRE


UNE VALUATION DIMPACT

139

Chapitre 10. Mettre en uvre une valuation dimpact

143

Choisir une mthode dvaluation


Lvaluation est-elle thique ?
Comment constituer une quipe dvaluation ?
Quand effectuer lvaluation ?
Comment tablir le budget dune valuation dimpact ?
Notes
Rfrences

143
153
154
158
161
169
169

Chapitre 11. Choisir lchantillon

171

Quelles sont les donnes ncessaires ?


Calculs de puissance : quelle est la taille de lchantillon ncessaire ?
Choisir une stratgie dchantillonnage
Notes
Rfrences

171
175
192
195
197

Chapitre 12. Collecter des donnes

199

Choisir une entit comptente pour collecter les donnes


laboration du questionnaire
Pilotage du questionnaire
Travail de terrain
Saisie et validation des donnes
Note
Rfrences

199
201
204
204
207
209
209

Table des matires

vii

Chapitre 13. Production et diffusion des rsultats

211

Les produits de lvaluation


Diffusion des rsultats
Notes
Rfrences

211
219
221
222

Chapitre 14. Conclusion

223

Note
Rfrences

228
228

Glossaire

229

Encadrs
1.1
1.2
1.3
1.4
2.1
3.1
4.1
4.2
4.3
5.1
5.2
5.3
6.1
7.1
7.2
8.1
8.2
8.3

viii

valuation et durabilit politique : le programme de transferts


montaires conditionnels Progresa/Oportunidades au Mexique
5
Lvaluation au service dune meilleure allocation des
ressources : planification familiale et fcondit en Indonsie
6
Lvaluation au service dune meilleure conception des
programmes : malnutrition et dveloppement cognitif en Colombie 9
valuation du rapport cot-efficacit : comparaison de stratgies
pour accrotre la frquentation scolaire au Kenya
12
Thorie du changement : des sols en ciment font
le bonheur des Mexicains
23
Estimation du contrefactuel : mademoiselle Unique et
le programme de transferts montaires conditionnels
36
Transferts montaires conditionnels et ducation au Mexique
64
Offre alatoire de bons dducation en Colombie
70
Promotion des investissements dans les infrastructures
dducation en Bolivie
78
Aide sociale et offre de main-duvre au Canada
89
Frais de scolarit et taux de scolarisation en Colombie
90
Filets de protection sociale fonds sur un indice
de pauvret en Jamaque
91
Privatisation de lapprovisionnement en eau
et mortalit infantile en Argentine
103
Programme demploi public et revenus en Argentine
113
Eau courante et sant infantile en Inde
114
Liste des tests de vrification et de falsification
118
Double diffrence apparie : sols en ciment,
sant infantile et bonheur maternel au Mexique
121
Programme avec effets de diffusion : traitement vermifuge,
effets externes et ducation au Kenya
124
Lvaluation dimpact en pratique

9.1
9.2
10.1
12.1
13.1
13.2
13.3
13.4

Comparer des alternatives de programmes


de prvention du VIH/sida au Kenya
Comparer diffrents programmes de suivi de la corruption
en Indonsie
Programmes de transferts montaires et chelle minimum
dintervention
Collecte de donnes pour lvaluation des programmes
pilotes Atencin a Crisis au Nicaragua
Exemple de structure dun plan dvaluation dimpact
Exemple de structure dun rapport de rfrence
Exemple de structure dun rapport dvaluation
Diffuser les rsultats dune valuation pour amliorer
les politiques

135
136
152
208
212
213
216
221

Figures
2.1
2.2
3.1
3.2
3.3
4.1
4.2
4.3
4.4
4.5
4.6
4.7
4.8
4.9
5.1
5.2
5.3
5.4
5.5

Quest-ce quune chane de rsultats ?


Chane de rsultats dun programme de mathmatiques
du cycle secondaire
Le clone parfait
Un groupe de comparaison valide
Estimations avant et aprs dun programme de microfinance
Caractristiques des groupes constitus par assignation alatoire
du traitement
chantillonnage alatoire et assignation alatoire du traitement
tapes de lassignation alatoire du traitement
Assignation alatoire du traitement avec utilisation dune
feuille de calcul
Estimation dimpact avec assignation alatoire
Offre alatoire dun programme
Estimation de limpact du traitement sur les traits
en cas doffre alatoire
Promotion alatoire
Estimation dimpact en cas de promotion alatoire
Rendement rizicole
Dpenses des mnages et niveau de pauvret
(avant lintervention)
Seuil dligibilit au programme de transferts montaires
Dpenses des mnages et niveau de pauvret
(aprs lintervention)
Indice de pauvret et dpenses de sant avant le lancement
du Programme de subvention de lassurance maladie

Table des matires

25
26
37
39
41
52
54
57
58
61
67
67
74
75
83
84
85
86
87

ix

5.6
6.1
6.2
7.1
7.2
8.1
9.1
9.2
9.3
P3.1
11.1
11.2
14.1

Indice de pauvret et dpenses de sant deux ans aprs le


lancement du Programme de subvention de lassurance maladie
Double diffrence
Double diffrence en cas de divergence des tendances
du rsultat
Appariement exact sur la base de quatre caractristiques
Appariement par le score de propension et support commun
Effets de diffusion
tapes de lassignation alatoire deux niveaux de traitement
tapes de lassignation alatoire pour deux interventions
Groupe de traitement et groupe de comparaison pour
un programme deux interventions
Feuille de route de la mise en uvre dune valuation dimpact
Un grand chantillon ressemble mieux la population
Un cadre dchantillonnage valide couvre lintgralit
de la population ltude
Nombre dvaluations dimpact effectues par
la Banque mondiale par rgion, 2004-2010

88
97
100
108
110
125
131
133
134
141
177
193
227

Tableaux
2.1
3.1
3.2
3.3
3.4
4.1
4.2
4.3
4.4
4.5
5.1

lments dun plan de suivi et valuation


Cas 1 Impact du PSAM selon la mthode avant-aprs
(comparaison de moyennes)
Cas 1 Impact du PSAM selon la mthode avant-aprs
(analyse de rgression)
Cas 2 Impact du PSAM selon la mthode avec-sans
(comparaison de moyennes)
Cas 2 Impact du PSAM selon la mthode avec-sans
(analyse de rgression)
Cas 3 Comparaison entre villages de traitement
et villages de comparaison
Cas 3 Impact du PSAM selon la mthode dassignation
alatoire (comparaison de moyennes)
Cas 3 Impact du PSAM selon la mthode dassignation
alatoire (analyse de rgression)
Cas 4 Impact du PSAM selon la mthode de promotion
alatoire (comparaison de moyennes)
Cas 4 Impact du PSAM selon la mthode de promotion
alatoire (analyse de rgression)
Cas 5 Impact du PSAM selon le modle de discontinuit de la
rgression (analyse de rgression)

28
44
44
46
47
62
63
63
76
77
88

Lvaluation dimpact en pratique

6.1
6.2
6.3
7.1
7.2
7.3
10.1
10.2
10.3
10.4
10.5
11.1
11.2

11.3

11.4

11.5

11.6

11.7

Double diffrence
Cas 6 Impact du PSAM selon la mthode de
la double diffrence (comparaison de moyennes)
Cas 6 Impact du PSAM selon la mthode de
la double diffrence (analyse de rgression)
Estimation du score de propension sur la base
des caractristiques observes
Cas 7 Impact du PSAM selon la mthode dappariement
(comparaison des moyennes)
Cas 7 Impact du PSAM selon la mthode dappariement
(analyse de rgression)
Relations entre les rgles oprationnelles dun programme
et les mthodes dvaluation dimpact
Cots dvaluations dimpact de projets soutenus
par la Banque mondiale
Rpartition des cots pour un chantillon de projets soutenus
par la Banque mondiale
Feuille de calcul pour lestimation du cot dune valuation
dimpact
Budget dune valuation dimpact
Exemples de grappes
Taille de lchantillon ncessaire selon les diffrents effets
minimums dtectables (baisse des dpenses de sant
des mnages), puissance = 0,9, sans grappe
Taille de lchantillon ncessaire selon les diffrents effets
minimums dtectables (baisse des dpenses de sant
des mnages), puissance = 0,8, sans grappe
Taille de lchantillon ncessaire pour dtecter diffrents
effets minimum dsirs (hausse du taux dhospitalisation),
puissance = 0,9, sans grappe
Taille de lchantillon ncessaire pour diffrents effets
minimums dtectables (baisse des dpenses de sant
des mnages), puissance = 0,9, 100 grappes maximum
Taille de lchantillon ncessaire pour diffrents effets
minimums dtectables (baisse des dpenses de sant
des mnages), puissance = 0,8, 100 grappes maximum
Taille de lchantillon ncessaire pour dtecter un impact
minimum de deux dollars pour diffrents nombres de grappes,
puissance = 0,9

Table des matires

98
102
102
111
112
112
148
161
162
166
167
181

186

186

187

190

191

191

xi

PRFACE

Ce manuel constitue une introduction accessible lvaluation dimpact et sa


pratique dans le domaine du dveloppement. Il est principalement destin aux professionnels du dveloppement et aux dcideurs, mais peut galement tre utile aux
tudiants et toute personne intresse lvaluation dimpact. Les valuations
dimpact prospectives visent dterminer si un programme a atteint ou non les
rsultats esprs ou tester diffrentes stratgies pour atteindre ces rsultats.
Nous considrons quune augmentation du nombre dvaluations et une amlioration de leur qualit permettront de renforcer lensemble des preuves existantes au
sujet de lefficacit des politiques et programmes de dveloppement dans le monde.
Notre espoir est que les gouvernements et les professionnels du dveloppement
puissent prendre des dcisions fondes sur des rsultats prouvs, tels que les
preuves gnres par les valuations dimpact, de manire rendre plus efficace
lutilisation des ressources pour rduire la pauvret et amliorer le bien-tre des
populations. Les trois parties du manuel constituent une introduction non technique
lvaluation dimpact. Elles dcrivent ce quil convient dvaluer et pourquoi
(partie 1) ; exposent des mthodes dvaluation (partie 2) ; et indiquent comment
mettre en uvre une valuation (partie 3). Ces tapes constituent des lments
essentiels la ralisation dune valuation dimpact.
Lapproche de lvaluation dimpact que nous privilgions dans ce manuel est largement intuitive et nous essayons de minimiser les aspects techniques. Nous prsentons au lecteur une gamme doutils dvaluation dimpact (les concepts et mthodes
sous-jacents toute valuation dimpact) et illustrons leur application de rels programmes de dveloppement. Les mthodes voques sont directement issues de la
recherche applique en sciences sociales et ont de nombreux points communs avec
les mthodes de recherche utilises en sciences naturelles. En ce sens, lvaluation
dimpact combine les outils de recherche empiriques couramment utiliss en conomie et dans dautres sciences sociales avec les ralits oprationnelles et politicoconomiques de la mise en uvre de politiques et de pratiques de dveloppement.
Dun point de vue mthodologique, notre approche est essentiellement pragmatique : nous estimons que la mthode dvaluation la plus pertinente doit tre dnie

xiii

en fonction du contexte oprationnel, et non le contraire. En ce sens, il est essentiel


dintgrer des valuations dimpact prospectives la mise en uvre des projets ds
leur conception. Au-del de la mthode, il est tout aussi important de crer un
consensus parmi les parties prenantes un programme et dlaborer une valuation
en adquation avec le contexte politique et oprationnel. Par ailleurs, il nous semble
primordial dtre transparent par rapport aux limites des valuations dimpact. Finalement, nous encourageons vivement les dcideurs et les responsables de programme considrer lvaluation dimpact partir dun cadre logique mettant
clairement en vidence les relations causales travers lesquelles un programme produit des extrants et inuence les rsultats naux. Complmenter les valuations
dimpact avec des donnes de suivi et des valuations dautres types permet aussi de
mieux apprhender la performance dun programme.
Loriginalit du prsent manuel rside surtout dans son approche visant
illustrer lapplication des outils dvaluation dimpact la ralit des programmes de
dveloppement. Nos expriences et observations relatives la mise en pratique
dvaluations dimpact dcoulent de notre travail de formation et de collaborations
avec des centaines de partenaires chevronns issus dinstitutions publiques, duniversits et dorganisations actives dans le domaine du dveloppement. Entre les
auteurs, le manuel tire ainsi parti de dizaines dannes dexprience dans la ralisation dvaluation dimpact travers le monde.
Ce livre est fond sur une srie de ressources pdagogiques mises au point pour
les ateliers Turning Promises to Evidence , organiss par le bureau de lconomiste en chef pour le dveloppement humain, en partenariat avec les units
rgionales et le groupe de recherche en conomie du dveloppement de la Banque
mondiale. Au moment de la rdaction du prsent ouvrage, ces ateliers se sont tenus
plus dune vingtaine de fois dans toutes les rgions du globe. Tant le manuel que les
ateliers ont t raliss grce aux gnreuses contributions du Gouvernement
espagnol et du dpartement britannique du dveloppement international (DfID)
par le biais du Fonds espagnol pour lvaluation dimpact (SIEF). Le manuel,
des prsentations et des documents complmentaires sont disponibles sur le site
http://www.worldbank.org/ieinpractice.
Dautres ressources de qualit proposent une introduction lvaluation dimpact, notamment Baker 2000 ; Ravallion 2001, 2008, 2009 ; Duo, Glennerster et
Kremer 2007 ; Duo et Kremer 2008 ; Khandker, Koolwal et Samad 2009 ; ainsi que
Leeuw et Vaessen 2009. La particularit du prsent manuel est quil combine une
revue non technique des mthodes dvaluation quantitatives tout en tablissant un
lien direct avec les rgles oprationnelles des programmes et en abordant de nombreux aspects pratiques lis la ralisation dvaluations. Il est complt par des
outils didactiques au sujet de lvaluation dimpact.
Les ressources pdagogiques sur lesquelles repose le manuel ont t enseignes
et amliores par de nombreux experts renomms ayant tous laiss leur empreinte
et leur perspective sur les mthodes dvaluation dimpact. Paul Gertler, Sebastian
Martinez, Sebastian Galiani et Sigrid Vivo ont compil une premire version de ces

xiv

Lvaluation dimpact en pratique

ressources pour un atelier organis par le ministre mexicain du Dveloppement


social (SEDESOL) en 2005. Christel Vermeersch a dvelopp et reformul des sections importantes des modules techniques et adapt une tude de cas pour les
besoins de latelier. Laura Rawlings et Patrick Premand ont dvelopp des ressources
utilises dans les versions plus rcentes de latelier.
Nous souhaitons remercier de nombreuses personnes qui ont assur des formations dans le cadre de latelier pour leur importante contribution, en particulier
Felipe Barrera, Sergio Bautista-Arredondo, Stefano Bertozzi, Barbara Bruns, Pedro
Carneiro, Nancy Qian, Jishnu Das, Damien de Walque, David Evans, Claudio Ferraz,
Jed Friedman, Emanuela Galasso, Sebastian Galiani, Gonzalo Hernndez Licona,
Arianna Legovini, Phillippe Leite, Mattias Lundberg, Karen Macours, Juan Muoz,
Plamen Nikolov, Berk zler, Gloria M. Rubio et Norbert Schady. Nous remercions
galement Barbara Bruns, Arianna Legovini, Dan Levy et Emmanuel Skouas pour
leur revue critique dune version prliminaire de ce manuel, tout comme Bertha
Briceno, Gloria M. Rubio et Jennifer Sturdy pour leurs commentaires. Nous tenons
galement saluer la grande qualit du travail de lquipe dorganisation de latelier,
en particulier Paloma Acevedo, Theresa Adobea Bampoe, Febe Mackey, Silvia
Paruzzolo, Tatyana Ringland, Adam Ross, Jennifer Sturdy et Sigrid Vivo.
Ce manuel repose sur des transcriptions de prsentations effectues lors dun
atelier tenu Beijing en Chine en juillet 2009. Nous remercions toutes les personnes
qui ont particip la rdaction des transcriptions originales, notamment Paloma
Acevedo, Carlos Asenjo, Sebastian Bauhoff, Bradley Chen, Changcheng Song, Jane
Zhang et Shufang Zhang. Nous tenons galement exprimer notre reconnaissance
Kristine Cronin pour la qualit de son travail dassistance de recherche, Marco
Guzman et Martin Ruegenberg pour leurs illustrations ainsi qu Cindy A. Fisher,
Fiona Mackintosh et Stuart K. Tucker pour leur travail ditorial lors de la rdaction
de ce manuel.
Nous voudrions aussi reconnatre le soutien et lengagement en faveur de ce type
de travaux au sein de la Banque mondiale, notamment de la part dAriel Fiszbein,
Arianna Legovini et Martin Ravallion.
Enn, nous voudrions remercier lensemble des participants aux ateliers qui se
sont tenus Mexico, New Delhi, Cuernavaca, Ankara, Buenos Aires, Paipa, Fortaleza, Soa, Managua, Madrid, Washington, Manille, Pretoria, Tunis, Lima, Amman,
Beijing, Sarajevo, San Salvador, Katmandu, Rio de Janeiro, Accra, Soul ainsi quau
Caire et au Cap. Leur intrt, leurs questions pertinentes et leur enthousiasme nous
ont peu peu appris ce que les dcideurs recherchaient en matire dvaluations
dimpact. Nous esprons que ce manuel rete leurs ides.

Prface

xv

Rfrences
Baker, Judy. 2000. Evaluating the Impact of Development Projects on Poverty.
Washington DC : Banque mondiale.
Duo Esther, Rachel Glennerster et Michael Kremer. 2007. Using Randomization
in Development Economics Research: A Toolkit. Document de travail du
CEPR no 6059. Center for Economic Policy Research, Londres, Royaume-Uni.
Duo Esther et Michael Kremer. 2008. Use of Randomization in the Evaluation
of Development Effectiveness. In Evaluating Development Effectiveness, vol. 7.
Washington, DC : Banque mondiale.
Khandker, Shahidur R., Gayatri B. Koolwal et Hussain Samad. 2009. Handbook on
Quantitative Methods of Program Evaluation. Washington DC : Banque mondiale.
Leeuw, Frans et Jos Vaessen. 2009. Impact Evaluations and Development. NONIE
Guidance on Impact Evaluation. Washington DC : NONIE et Banque mondiale.
Ravallion, Martin. 2001. The Mystery of the Vanishing Benets: Ms. Speedy
Analysts Introduction to Evaluation. tude conomique de la Banque mondiale
15 (1) : 11540.
. 2008. Evaluating Anti-Poverty Programs. In Handbook of Development
Economics, vol, 4., d. Paul Schultz et John Strauss. Amsterdam :
Hollande-Septentrionale
. 2009. Evaluation in the Practice of Development. World Bank Research
Observer 24 (1) : 2953.

xvi

Lvaluation dimpact en pratique

Partie 1

INTRODUCTION
LVALUATION DIMPACT

La premire partie de louvrage prsente un aperu gnral de lvaluation


dimpact. Dans le chapitre 1, nous exposons les raisons pour lesquelles lvaluation dimpact est importante et comment elle sinscrit dans le cadre de la
formulation de politiques fonde sur les preuves. Nous comparons lvaluation
dimpact avec dautres mthodes dvaluation courantes telles que le suivi et
les valuations de processus. Nous prsentons aussi diffrents types dvaluation dimpact, comme les valuations prospectives et rtrospectives ou encore
les tudes defficacit pilotes et les tudes defficacit lchelle.
Dans le chapitre 2, nous traitons de la formulation de questions dvaluation et
dhypothses utiles aux dcisions de politiques. Ces questions et hypothses
jouent un rle primordial, car elles dterminent lobjectif de lvaluation.

CHAPITRE 1

Pourquoi valuer?
Les politiques et les programmes de dveloppement sont gnralement conus pour
amliorer des indicateurs de rsultats, par exemple pour augmenter les revenus,
faciliter lapprentissage ou faire reculer la maladie. Savoir si les changements esprs
se sont effectivement produits est une question de politique publique importante, et
pourtant rarement considre. Le plus souvent, les responsables de programme et
les dcideurs mettent laccent sur le contrle et la mesure des intrants et des produits immdiats (par exemple le montant dargent dpens et la quantit de livres
distribus) plutt que sur la question de savoir si les programmes ont atteint leurs
objectifs en termes damlioration du bien-tre des bnciaires.

laboration des politiques fonde sur les preuves


Les valuations dimpact sinscrivent dans la vaste tendance de llaboration de
politiques fonde sur les preuves. Cette tendance internationale croissante accorde
une attention particulire aux extrants et aux rsultats au-del des seuls intrants.
Dans ce cadre, la mise en uvre de politiques publiques est en train de se transformer, comme lillustrent les Objectifs de dveloppement pour le Millnaire ou les initiatives de paiement la performance des prestataires de services. Une attention
particulire sur les rsultats est utile pour xer des objectifs nationaux et internationaux et en garantir le suivi. Elle est galement de plus en plus requise des responsables de programme pour davantage les responsabiliser, justier les allocations
budgtaires et orienter les dcisions de politique publique.
Le suivi et lvaluation sont au cur de llaboration de politiques fonde sur les
preuves. Ils constituent en effet les outils lmentaires que les diverses parties pre3

nantes peuvent utiliser pour vrier et amliorer la qualit, lefficience et lefficacit


des programmes diffrents stades de mise en uvre. Autrement dit, le suivi et lvaluation permettent de se focaliser sur les rsultats. Tant les officiels des gouvernements que les acteurs extrieurs peuvent bncier de lusage du suivi et de
lvaluation. Dans un ministre ou un organisme public, les fonctionnaires ont souvent besoin de prouver leurs suprieurs que les programmes produisent des rsultats an dobtenir les allocations budgtaires ncessaires la poursuite ou
lamplication desdits programmes. Au plan national, les ministres sectoriels sont
parfois en concurrence directe pour obtenir des fonds du ministre des Finances.
Les gouvernements eux-mmes doivent convaincre leurs lecteurs que les investissements quils ont choisis portent leurs fruits. En ce sens, les informations et des
preuves solides constituent un moyen de sensibiliser le public et dencourager la responsabilisation du gouvernement. Linformation produite par les systmes de suivi
et dvaluation peut tre rgulirement mise la disposition des citoyens pour les
informer des rsultats des programmes publics, renforant ainsi les pratiques de
transparence et de responsabilisation des gouvernements.
Dans un contexte o les dcideurs et la socit civile demandent des rsultats et
exigent que les responsables de programme rendent compte de la performance de
leurs interventions, lvaluation dimpact fournit des donnes solides et ables qui
indiquent si un programme donn a effectivement atteint les objectifs esprs. Au
plan international, les valuations dimpact jouent galement un rle crucial dans la
mesure o elles permettent de mieux cerner lefficacit des programmes de dveloppement en mettant en vidence ce qui fonctionne et ce qui ne fonctionne pas en
matire de rduction de la pauvret et damlioration du bien-tre des populations.
En rsum, une valuation dimpact permet didentier les changements du
bien-tre des individus qui peuvent tre attribus un projet, un programme ou une
politique particulire. Le concept de lattribution est au cur des valuations dimpact.
De ce fait, le principal d dune valuation dimpact est didentier la relation causale
entre un projet, un programme ou une politique et les rsultats ltude.
Comme nous le verrons ci-dessous, les valuations dimpact visent gnralement
estimer limpact moyen dun programme sur le bien-tre des bnciaires. Par
exemple, la mise en uvre dun nouveau programme scolaire entrane-t-elle de
meilleurs rsultats aux examens ? Un programme daccs leau potable permet-il
damliorer les indicateurs de sant des bnciaires ? Un programme de formation
des jeunes permet-il dencourager lentrepreneuriat et daugmenter les revenus? En
outre, si lvaluation dimpact est fonde sur un chantillon suffisamment grand, les
impacts du programme peuvent galement tre compars entre divers sous-groupes
de bnciaires. Par exemple, le lancement dun nouveau programme scolaire
entrane-t-il de meilleurs rsultats aux examens tant pour les lles que pour les garons? Les valuations dimpact peuvent aussi permettre de tester explicitement des
options alternatives de concevoir des programmes. Par exemple, une valuation peut
comparer la performance dun programme de formation visant renforcer les connaissances nancires des bnciaires par contraste avec une campagne de promotion
ayant les mmes objectifs. Dans chaque cas, lvaluation dimpact donne des informations sur limpact gnral du programme contrairement aux tudes de cas ou aux anecdotes fournissant des informations parcellaires qui ne retent pas forcment limpact

Lvaluation dimpact en pratique

gnral du programme. Dans ce sens, une valuation bien conue et correctement


mise en uvre permet dobtenir des donnes convaincantes et exhaustives qui peuvent tre utilises pour orienter les dcisions de politique et informer lopinion
publique. Lencadr 1.1 illustre comment lvaluation dimpact a contribu au dbat sur
llargissement dun programme de transferts montaires conditionnels au Mexique1.

Encadr 1.1 : Evaluation et durabilit politique


Le programme de transferts montaires conditionnels Progresa/Oportunidades au Mexique
Dans les annes 90, les autorits mexicaines lancent un programme innovateur de transferts montaires conditionnels (TMC) baptis Progresa.
Les objectifs de ce programme sont de fournir
aux mnages pauvres un soutien financier court
terme et dencourager linvestissement dans le
capital humain des enfants, essentiellement en
octroyant aux mres des mnages pauvres une
allocation montaire condition que leurs enfants soient scolariss et effectuent rgulirement des examens de sant.
Ds le dpart, le gouvernement met laccent
sur limportance du suivi et de lvaluation du
programme. Les responsables chargent un
groupe de chercheurs de concevoir une valuation dimpact et de lappliquer au programme au
fur et mesure de son expansion aux diverses
communauts concernes.
Les lections prsidentielles de 2000
conduisent un changement du parti au pouvoir. En 2001, les valuateurs externes du programme Progresa prsentent leurs conclusions
la nouvelle administration. Les rsultats
savrent impressionnants : le programme est
bien cibl aux populations pauvres et engendre
des changements prometteurs en matire de
capital humain. Schultz (2004) montre que le
programme augmente le taux de scolarisation
et allonge la dure de la scolarisation de

0,7 anne en moyenne. De plus, selon Gertler


(2004), lincidence des maladies recule de
23 % chez les enfants tandis que pour les
adultes le nombre de jours de travail perdus
pour cause de maladie ou dincapacit diminue
de 19 %. Au niveau nutritionnel, Behrman and
Hoddinott (2001) montrent que le programme
rduit le retard de croissance denviron 1 cm
par an chez les enfants se situant dans la
tranche dge critique de 12 36 mois.
Ces rsultats permettent dalimenter un
dialogue politique fond sur des preuves et
incitent la nouvelle administration maintenir le
programme. Le gouvernement largit mme la
couverture du programme, y intgrant loctroi de
bourses pour le collge et le lyce ainsi que des
programmes damlioration de la sant des
adolescents. Paralllement, les rsultats de
lvaluation conduisent modifier dautres programmes dassistance sociale. Par exemple, le
programme de subvention de tortilla , couteux et moins bien cibl, est revu la baisse.
Le succs de lvaluation du programme
Progresa contribue aussi au rapide dveloppement des TMC travers le monde ainsi qu
ladoption dune loi exigeant que tous les projets
sociaux fassent lobjet dune valuation au
Mexique.

Source : Behrman et Hoddinott 2001 ; Gertler 2004 ; Fiszbein et Schady 2009 ; Levy et Rodriguez 2005 ;
Schultz 2004 ; Skoufias et McClafferty 2001.

Pourquoi valuer ?

Lencadr 1.2 montre, quant lui, comment lvaluation dimpact a men lamlioration de lallocation des ressources du gouvernement indonsien en permettant didentier les politiques les plus efficaces pour rduire le taux de fcondit.

Encadr 1.2 : Lvaluation au service dune meilleure allocation


des ressources
Planification familiale et fcondit en Indonsie
Dans les annes 70, la politique de planification familiale indonsienne acquiert une reconnaissance
internationale pour ses succs en matire de
baisse du taux de fcondit. Cette renomme provient de deux phnomnes parallles : 1) le taux de
fertilit diminue de 22 % entre 1970 et 1980, de
25 % entre 1981 et 1990, et dun peu moins entre
1991 et 1994 ; et 2) au cours de la mme priode,
le Gouvernement indonsien augmente fortement
les ressources consacres la planification familiale (notamment les subventions pour les contraceptifs). Ces deux phnomnes tant concomitants, nombreux sont ceux qui concluent que la
hausse des investissements dans la planification
familiale provoque la baisse de la fcondit.
Sceptiques, des chercheurs se demandent si
les programmes de planification familiale sont
rellement lorigine de la baisse de la fcondit. Contre toute attente, ils dcouvrent que
ces programmes nont quun impact limit sur la
fcondit et concluent que cette baisse sexplique essentiellement par un changement du
statut des femmes. Les chercheurs font remarquer quavant le lancement du programme de
planification familiale, trs peu de femmes en
ge de procrer avaient termin le cycle
primaire. En parallle la planification familiale,

le gouvernement avait lanc un vaste programme de scolarisation des filles, impliquant


quelles sont plus nombreuses avoir acquis
une ducation au moment datteindre lge de
procration. Paralllement, la croissance conomique et loffre accrue demplois engendres
par le boom ptrolier entranent une augmentation du nombre de femmes instruites dans la
population active. Laugmentation du temps de
travail des femmes saccompagne dune hausse
de lusage des contraceptifs. In fine, laugmentation des revenus et lautonomisation des
femmes expliquent 70 % de la baisse de fcondit observe, soit plus que les investissements
dans les programmes de planification familiale.
Ces rsultats permettent aux dcideurs politiques de rorienter lallocation des ressources
en connaissance de cause : les subventions en
faveur de la contraception sont rduites au profit
des programmes encourageant la scolarisation
des femmes. Les objectifs finaux des deux
types de programmes sont certes les mmes,
mais les tudes dvaluation ont mis en vidence que, dans le cas de lIndonsie, les investissements dans lducation sont plus efficaces
que les investissements dans la planification
familiale pour rduire la fcondit.

Source : Gertler et Molyneaux 1994, 2000.

Lvaluation dimpact en pratique

Quest-ce que lvaluation dimpact ?


Lvaluation dimpact fait partie dune large gamme de mthodes complmentaires
contribuant llaboration de politiques fonde sur des preuves. Le prsent ouvrage
est consacr aux mthodes dvaluation dimpact quantitatives; nous allons cependant
commencer par les placer dans le cadre plus gnral de la gestion publique axe sur
les rsultats, qui comprend aussi le suivi et dautres types dvaluation.
Le suivi est un processus continu qui consiste surveiller le droulement dun programme et qui sappuie sur les donnes collectes pour amliorer la mise en uvre du
programme, sa gestion et les dcisions quotidiennes le concernant. Ce processus sappuie essentiellement sur les donnes administratives pour comparer la performance
du programme aux rsultats esprs, comparer les programmes entre eux et analyser
des tendances travers le temps. Le suivi se concentre gnralement sur les intrants,
les activits et les extrants, ainsi quoccasionnellement les rsultats, comme les progrs
vers les objectifs de dveloppement nationaux.
Lvaluation est une apprciation priodique et objective de projets, programmes
ou politiques prvus, en cours de ralisation ou achevs. Les valuations permettent
de rpondre des questions prcises lies la conception, la mise en uvre ou les
rsultats des programmes. Contrairement au suivi, qui est continu, les valuations
sont priodiques et effectues un moment donn, gnralement par des spcialistes extrieurs au programme. La conception, la mthodologie et le cot des valuations varient fortement en fonction du type de question laquelle elles rpondent.
Dune manire gnrale, les valuations sattlent trois types de questions
(Imas et Rist, 2009) :
Les questions descriptives : ce niveau, lvaluation vise montrer ce qui se passe,
dcrire les processus, les conditions qui prvalent, les relations organisationnelles et les points de vue des diverses parties prenantes au programme.
Les questions normatives : lvaluation compare ce qui se passe ce qui devrait se
passer; elle consiste tudier les activits et estimer si les objectifs ont t atteints ou non. Les questions normatives peuvent concerner les intrants, les activits et les extrants.
Les questions de cause effet : lvaluation se concentre sur les rsultats et
cherche dterminer dans quelle mesure lintervention entraine des changements des rsultats.
Les valuations dimpact sont un type particulier dvaluation qui porte sur les questions de cause effet. Contrairement aux valuations gnrales qui peuvent rpondre
plusieurs types de questions, les valuations dimpact sont structures autour dun
type particulier de question : quel est limpact (ou leffet causal) dun programme sur un
rsultat donn ? La dimension causale est primordiale. Nous nous intressons ici
limpact du programme, savoir les changements des rsultats causs directement par
celui-ci. Lvaluation dimpact vise ainsi dterminer quels changements peuvent tre
attribus directement et exclusivement au programme.

Pourquoi valuer ?

Concept cl :
La question
fondamentale de
lvaluation dimpact
peut tre formule
ainsi : quel est limpact
(ou leffet causal) dun
programme sur un
rsultat donn ?

Lvaluation dimpact se distingue par sa focalisation sur la causalit et lattribution


des changements, deux concepts qui dnissent aussi lapproche mthodologique.
Pour pouvoir estimer leffet causal ou limpact dun programme sur les rsultats,
la mthode choisie doit permettre de dnir le contrefactuel, cest--dire le rsultat qui
aurait t obtenu pour un groupe de bnciaires si le programme navait pas exist.
Dans les faits, lvaluation dimpact ncessite de trouver un groupe de comparaison
pour estimer les rsultats quauraient connus les participants un programme si ledit
programme navait pas exist. La partie 2 du manuel est consacre aux principales
mthodes utilises pour constituer des groupes de comparaison adquats.
La question fondamentale de lvaluation dimpact ( savoir quel est limpact ou
leffet causal dun programme sur un rsultat donn?) peut tre applique de nombreux contextes. Par exemple, quel est limpact de loctroi de bourses sur la scolarisation et les rsultats acadmiques? Quel est limpact sur laccs aux soins de sant
de la sous-traitance de ces services des prestataires privs? Quel est limpact de
remplacer des sols en terre battue par des sols en ciment sur la sant des enfants?
Lamlioration de ltat des routes permet-elle un meilleur accs au march du travail et une augmentation des revenus des mnages, et si tel est le cas, quel degr?
La taille des classes a-t-elle un impact sur les rsultats scolaires des tudiants et, si
oui, dans quelle mesure? Quelle est lefficacit des campagnes de publipostage relativement des formations pratiques lorsquil sagit daugmenter lutilisation des
moustiquaires dans les zones affectes par le paludisme?

Lvaluation dimpact pour les dcisions politiques


Les valuations dimpact permettent dclairer les responsables politiques lorsquils
prennent plusieurs types de dcisions : interruption des programmes inefficaces,
expansion des interventions prouves, ajustement des bnces, slection
entre plusieurs options de conception de programmes. Pour tre efficaces, les valuations doivent tre utilises de manire slective pour rpondre aux questions de
politique publique les plus importantes. Elles savrent particulirement utiles dans
le cadre des programmes pilotes qui prouvent des approches nouvelles et prometteuses nayant pas encore fait leurs preuves. Lvaluation du programme Progresa/
Oportunidades au Mexique prsente dans lencadr 1.1 a t trs inuente, non seulement du fait du caractre novateur du programme, mais aussi parce quelle a fourni
des preuves ables et solides qui ne pouvaient tre ignores dans les prises de dcision ultrieures. Ladoption et llargissement du programme ont t largement
inuencs par les rsultats de lvaluation. Aujourdhui, le programme Oportunidades bncie prs dun Mexicain sur quatre et forme le cur de la stratgie de
lutte contre la pauvret du Mexique.
Les valuations dimpact peuvent servir analyser diffrents types de questions de
politique publique. Dans leur forme lmentaire, elles permettent de tester lefficacit
dun programme donn. Autrement dit, elles rpondent la question suivante : un programme donn est-il efficace en comparaison labsence de ce programme ? Comme nous

Lvaluation dimpact en pratique

le verrons dans la partie 2, ce type dvaluation dimpact estime lefficacit du programme en comparant un groupe de traitement qui a bnci dun projet, dun programme ou dune politique avec un groupe de comparaison qui ny a pas particip.
Outre la rponse la question fondamentale dvaluation, les valuations peuvent
aussi servir mesurer lefficacit de diverses options de mise en uvre dun programme, autrement dit de rpondre la question suivante : lorsquun programme peut
tre mis en uvre de plusieurs manires, y en a-t-il une qui est plus efficace que les autres?
Dans ce type dvaluation, deux ou plusieurs options de concevoir un mme programme sont compares, de faon dterminer le meilleur moyen datteindre un
objectif particulier. Ces diffrentes options sont souvent appeles branches de traitement . Par exemple, quand la taille du bnce ncessaire pour rendre un programme
efficace nest pas connue (20 heures ou 80 heures de formation?), les valuations dimpact peuvent permettre destimer limpact relatif de traitements dintensits diffrentes (voir exemple de lencadr 1.3). Les valuations dimpact destines tester
diffrentes options de traitement incluent gnralement un groupe de traitement par
branche, ainsi quun groupe de comparaison pur qui, lui, nest pas soumis lintervention. Les valuations dimpact peuvent tre utiles pour tester des innovations ou
des alternatives de mise en uvre dun programme. Par exemple, il est possible de
mettre en uvre plusieurs formes de campagnes de sensibilisation an de dterminer
lapproche la plus efficace : un groupe est slectionn pour recevoir une campagne de
publipostage tandis que dautres groupes recevront des visites domicile.

Encadr 1.3 : Lvaluation au service dune meilleure conception


des programmes
Malnutrition et dveloppement cognitif en Colombie
Au dbut des annes 70, la Human Ecology
Research Station lance, en collaboration avec
le ministre colombien de lducation, un
programme destin lutter contre la malnutrition
infantile dans la ville de Cali en fournissant des
soins de sant, des activits dducation, de la
nourriture et des complments alimentaires.
Dans le cadre de la phase pilote, une quipe
dvaluateurs est charge de dterminer
1) le temps ncessaire pour quun tel programme
rduise la malnutrition chez les enfants dge
prscolaire issus de familles faibles revenus et
2) si les interventions peuvent aussi permettre
des amliorations sur le plan du dveloppement
cognitif.
Le programme est ouvert toutes les
familles ligibles, mais durant la phase pilote

les valuateurs comparent des groupes


similaires denfants ayant reu le traitement sur
des dures diffrentes. Les valuateurs
commencent par slectionner un groupe cible
de 333 enfants souffrant de malnutrition. Ces
enfants sont ensuite classs en 20 secteurs
selon leur lieu dhabitation, et chaque secteur
se voit assign, de manire alatoire, lun des
quatre groupes de traitement. La seule
diffrence entre les groupes est le moment
auquel ils commencent recevoir le traitement
et, de ce fait, la dure pendant laquelle ils
participent au programme. Le groupe 4
commence le premier. Il est donc expos au
traitement le plus longtemps. Suivent les
groupes 3, puis 2, puis 1. Le traitement consiste
en six heures quotidiennes de soins de sant
(suite)

Pourquoi valuer ?

Encadr 1.3 suite

et dactivits ducatives, et en la provision de


nourriture et de complments alimentaires. Au
cours de la priode de mise en uvre du
programme, les valuateurs procdent
intervalles rguliers des tests cognitifs pour
suivre les progrs des enfants de chacun des
quatre groupes.
Les valuateurs dcouvrent que les enfants
ayant particip au programme le plus longtemps
sont ceux qui enregistrent les amliorations

cognitives les plus importantes. Au test


Stanford-Binet, qui value la diffrence entre
lge mental et lge chronologique, les enfants
du groupe 4 ont une diffrence moyenne de
-5 mois, contre -15 mois pour le groupe 1.
Cet exemple montre que les responsables
du programme et les dcideurs politiques
peuvent recourir lvaluation de plusieurs
branches de traitement pour dterminer
lalternative la plus efficace.

Source : McKay et al. 1978.

Dcider quand valuer


Tous les programmes ne ncessitent pas une valuation dimpact. Ces valuations
peuvent tre coteuses et le budget prvu pour les valuations doit tre utilis de
manire stratgique. Si vous lancez un nouveau programme ou si vous envisagez
llargissement dun programme en vigueur et que vous vous demandez si une valuation dimpact est ncessaire, quelques questions peuvent vous aider trancher.
La premire question se poser est la suivante : quels sont les enjeux de ce programme ? La rponse dpend la fois des montants engags et du nombre de
personnes qui sont ou seront touches par le programme. Do les questions
suivantes : Le programme ncessite-t-il ou ncessitera-t-il une grande partie du budget
disponible ? et Le programme touche-t-il ou touchera-t-il un nombre important de
personnes? Sil se trouve que le programme ne consommera pas un budget important ou quil ne concernera quun nombre limit de personnes, une valuation nest
pas forcement utile. Par exemple, pour un programme daide et de soutien dlivrs
par des volontaires des patients hospitaliss, le budget et le nombre de bnciaires peuvent tre tels quune valuation dimpact ne se justie pas. linverse,
pour une rforme des salaires de lensemble des enseignants du primaire dun pays,
les enjeux sont nettement plus importants.
Si vous considrez que les enjeux sont de taille, la question qui se pose alors est de
savoir sil existe des donnes permettant de montrer que le programme donne des
rsultats. En particulier, avez-vous une ide de lampleur de limpact du programme?
Existe-t-il des donnes concernant un pays et un contexte similaires? Sil nexiste
aucune information sur limpact potentiel du programme envisag, vous pouvez
commencer par une phase pilote avec une valuation dimpact. En revanche, si vous
disposez dj de donnes sur une situation similaire, lvaluation dimpact ne se jus-

10

Lvaluation dimpact en pratique

tiera probablement que si elle permet de rpondre une nouvelle question de politique importante. Ce sera par exemple le cas si votre programme contient des
innovations importantes qui nont encore jamais t prouves.
Pour justier la mobilisation des ressources techniques et nancires ncessaires la ralisation dune valuation dimpact de qualit, le programme valuer
doit tre :
Novateur. Il permet de tester une nouvelle approche prometteuse.
Reproductible. Le programme peut tre largi et reproduit dans un autre contexte.
Stratgiquement pertinent. Le programme est une initiative phare ; il ncessite
des ressources importantes; il couvre ou couvrira un grand nombre de bnciaires; ou encore il permettrait de faire des conomies importantes.
Non test auparavant. Lefficacit du programme est mconnue soit au niveau international, soit dans un contexte particulier.
Inuent. Les rsultats du programme permettront dorienter des dcisions de politique cls.

Analyse du rapport cot-efficacit


Lorsque les rsultats de lvaluation dimpact sont disponibles, ils peuvent tre
combins aux donnes sur les cots du programme pour traiter deux autres types
de questions. Tout dabord, pour les valuations dimpact les plus lmentaires, le
fait de prendre en compte les cots permettra de raliser une analyse cot-bnce et de rpondre la question suivante : quel est le rapport cot-bnce dun
programme donn? Lanalyse cot-bnce permet destimer les bnces totaux
esprs du programme par rapport ses cots totaux. Lobjectif est de dterminer
lensemble des cots et des bnces montaires dun programme et de voir ainsi
si les bnces sont suprieurs aux cots.
Dans un monde parfait, une analyse cot-bnce fonde sur les rsultats concrets
de lvaluation dimpact pourrait tre ralise non seulement pour un programme
donn, mais aussi pour toute une srie de programmes ou dalternatives de conception
dun mme programme. Les dcideurs politiques seraient ainsi en mesure de choisir
en toute certitude le programme ou lapproche prsentant le meilleur rapport cotbnce pour atteindre un objectif donn. Lorsquune valuation dimpact porte sur
des alternatives de mise en uvre dun mme programme, la prise en compte des
informations de cots permet de rpondre une seconde question : quels sont les rapports cot-efficacit des diverses approches? Lanalyse cot-efficacit compare la performance relative de deux ou plusieurs programmes ou alternatives de conception
dun programme atteindre un mme rsultat.
Quil sagisse danalyse cot-bnce ou de rapport cot-efficacit, lvaluation
dimpact permet destimer les bnces et lefficacit, tandis que les informations
de cots sont fournies par lanalyse des cots. Le prsent manuel porte sur lva-

Pourquoi valuer ?

Concept cl :
Lanalyse cot-bnfice
permet destimer les
bnfices totaux
esprs du programme
par rapport aux cots
totaux prvus.

Concept cl :
Lanalyse du rapport
cot-efficacit
compare la performance relative de deux
ou plusieurs
programmes ou
alternatives de
conception dun
programme atteindre
un mme rsultat.

11

luation dimpact et ne traite pas en dtail des questions relatives la collecte des
informations sur les cots ou lanalyse cot-bnce2. Il est toutefois primordial
de disposer des informations relatives aux cots du projet, du programme ou de la
politique qui fait lobjet de lvaluation. Lorsque des informations sur limpact et
les cots de divers programmes sont disponibles, le rapport cot-efficacit permet
de dterminer les investissements les plus rentables et dorienter ainsi les dcisions des responsables. Lencadr 1.4 illustre comment les valuations dimpact
peuvent servir dterminer les programmes les plus rentables et mieux allouer
les ressources.

Encadr 1.4 : valuation du rapport cot-efficacit


Comparaison de stratgies pour augmenter la frquentation scolaire au Kenya
En valuant plusieurs programmes dans un
mme contexte, il est possible de comparer
le rapport cot-efficacit de diffrentes approches
visant amliorer un rsultat donn, par exemple
la frquentation scolaire. Au Kenya, lorganisation
non gouvernementale International Child Support
Africa (ICS Africa) met en uvre toute une srie
dinterventions en milieu scolaire qui comprennent un traitement contre les vers intestinaux
ainsi que la fourniture gratuite duniformes et de
repas scolaires. Chacune de ces interventions fait
lobjet dune valuation alatoire et dune
analyse cot-bnfice ; les comparaisons entre
les diffrentes interventions gnrent des informations intressantes sur la meilleure manire
daugmenter la frquentation scolaire.
Un programme proposant des mdicaments
contre les vers intestinaux aux enfants scolariss entrane une hausse de la frquentation de
lordre de 0,14 an par enfant trait, pour un cot
estim 0,49 dollar par enfant. Ceci reprsente
environ 3,50 dollars par anne supplmentaire
de scolarisation, compte tenu des externalits
sur les enfants et les adultes ne frquentant pas
lcole, mais vivant dans les communauts qui
bnficient indirectement dune diminution de
la transmission des vers.
Une seconde intervention, le Child Sponsorship Program, permet de rduire le cot de
scolarisation en fournissant des uniformes sco-

laires aux enfants de sept coles slectionnes


de manire alatoire. Le taux dabandon chute
dans les coles bnficiant de lintervention ;
aprs cinq ans, il est estim que le programme
a permis daugmenter le nombre dannes de
scolarisation de 17 % en moyenne. Toutefois,
mme dans lhypothse la plus optimiste, le
cot de cette augmentation de la frquentation
scolaire par la fourniture dun uniforme scolaire
ressort environ 99 dollars par anne supplmentaire de scolarisation.
Enfin, un programme consistant fournir
gratuitement un petit djeuner aux enfants de
25 coles maternelles slectionnes alatoirement entrane une augmentation de 30 % de la
frquentation scolaire pour un cot estim
36 dollars par anne de scolarisation supplmentaire. Les rsultats aux examens augmentent aussi, denviron 0,4 au niveau de lcart-type,
lorsque lenseignant est bien form avant le lancement du programme.
Bien que des interventions similaires puissent cibler diffrents rsultats (par exemple une
amlioration de ltat de sant grce aux vermifuges ou de meilleurs rsultats scolaires paralllement la hausse de la frquentation scolaire),
la comparaison de diverses valuations menes
dans un mme contexte permet de dterminer
les programmes qui ont atteint lobjectif vis au
meilleur cot

Source : Kremer et Miguel 2004 ; Kremer, Moulin et Namunyu 2003 ; Poverty Action Lab 2005 ; Vermeersch et
Kremer 2005.

12

Lvaluation dimpact en pratique

valuation prospective et valuation rtrospective


Les valuations dimpact peuvent tre regroupes en deux catgories : les valuations prospectives et les valuations rtrospectives. Les valuations prospectives
sont prvues ds la conception du programme et font partie intgrante de sa mise en
uvre. Les donnes de lenqute de base (ou enqute de rfrence) sont collectes
avant la mise en place du programme tant pour le groupe de traitement que pour le
groupe de comparaison. Les valuations rtrospectives portent, quant elles, sur
limpact du programme aprs la mise en uvre de celui-ci, les groupes de traitement
et de comparaison tant dnis ex-post.
En gnral, les valuations dimpact prospectives donnent des rsultats plus
solides et plus ables, et ce pour trois raisons.
En premier lieu, la collecte pralable de donnes de base (ou enqute de rfrence) permet dassurer la mesure des rsultats ltude. Les donnes de base
fournissent des informations sur les bnciaires et les groupes de comparaison
avant la mise en uvre du programme et sont donc primordiales pour connatre la
situation avant le programme. Une enqute de rfrence couvrant le groupe de
traitement et le groupe de comparaison peut tre analyse pour vrier que ces
groupes sont bien similaires. Elle peut par ailleurs permettre dvaluer lefficacit
du ciblage, autrement dit dtablir si le programme touche effectivement les bnciaires viss.
En deuxime lieu, la dnition de mesures pour juger du succs dun programme
ds sa conception permet daxer non seulement lvaluation, mais aussi le programme sur les rsultats esprs. Comme nous le verrons, les valuations dimpact
dcoulent dune thorie du changement ou chane de rsultats. La conception dune
valuation dimpact contribue mieux dnir les objectifs du programme, en particulier parce quelle exige dtablir des mesures pour juger de lefficacit du programme. Les dcideurs doivent dnir des questions et des objectifs dvaluation
clairs de manire ce que les rsultats soient des plus pertinents. Le soutien total
des dcideurs est en effet une condition pralable de la ralisation dune valuation; une valuation dimpact ne doit pas tre engage si les dcideurs ne sont pas
convaincus de sa lgitimit et de son importance pour clairer les dcisions futures.
La troisime raison est la plus importante : dans une valuation prospective, les
groupes de traitement et de comparaison sont dnis avant lentre en vigueur du
programme. Comme nous lexpliquerons plus en dtail dans les chapitres suivants,
de nombreuses options existent pour raliser des valuations valides si celles-ci sont
prvues ds le dpart et informes par la mise en uvre du projet. Comme nous le
montrons dans les parties 2 et 3, si lvaluation prospective est bien conue, une estimation valide du contrefactuel est possible pour tout programme suivant des rgles
dassignation claires et transparentes. En bref, lvaluation prospective a de
meilleures chances de gnrer une estimation valide du contrefactuel. Diffrentes
manires dlaborer un contrefactuel valide peuvent tre considres ds la conception du programme, et la mthodologie dvaluation dimpact peut ainsi tre totalement aligne sur les rgles oprationnelles du programme, son droulement ou son
largissement.

Pourquoi valuer ?

Concept cl :
Les valuations
prospectives sont
labores ds la
conception du
programme et font
partie intgrante de la
mise en uvre du
programme.

13

linverse, dans les valuations rtrospectives, lvaluateur dispose souvent de si


peu dinformations quil lui est difficile de dterminer si le programme a t mis en
uvre avec succs et si les participants y ont effectivement pris part. En effet, pour
de nombreux programmes, il nexiste pas de donnes de base lorsque lvaluation
nest pas intgre au projet ds le dpart. Une fois le programme lanc, il est trop tard
pour collecter les donnes de base ncessaires.
Lvaluation de programmes mis en uvre par le pass ne peut se faire que par une
valuation rtrospective se fondant sur des donnes existantes. Dans ce cas, il est gnralement beaucoup plus difficile de dnir un contrefactuel valide. Lvaluation
dpend de lapplication des rgles oprationnelles prcises de distribution des bnces. Elle est galement tributaire de la disponibilit des donnes pour les groupes de
traitement et de comparaison tant avant quaprs lentre en vigueur du programme.
Par consquent, la faisabilit dune valuation rtrospective dpend du contexte et
nest jamais garantie. Mme lorsquelle est faisable, lvaluation rtrospective repose
souvent sur des mthodes quasi-exprimentales et des hypothses plus fortes ;
les rsultats sont donc plus discutables.

tudes defficacit pilotes et tudes defficacit


lchelle
Le principal rle dune valuation dimpact est de produire des preuves quant lefcacit dun programme lusage des dcideurs politiques, des responsables de programme, de la socit civile ainsi que de toute autre partie prenante. Les rsultats
dune valuation dimpact sont particulirement utiles lorsque les conclusions peuvent tre appliques une population plus large. La question de la gnralisation des
conclusions (ou validit externe dans le jargon des mthodes de recherche) est
centrale pour les dcideurs, car elle permet dtablir si les rsultats obtenus par lvaluation peuvent sappliquer des groupes autres que ceux qui ont t tudis,
ce qui est primordial si un largissement du programme est envisag.
Les premires valuations dimpact de programmes de dveloppement constituaient souvent des tudes defficacit pilotes menes dans des conditions trs particulires. Malheureusement, les rsultats de ces tudes ne pouvaient que rarement
tre gnraliss au-del du contexte de lvaluation. Les tudes defficacit pilotes
sont gnralement ralises dans des conditions trs particulires et avec une assistance technique importante tout au long de la mise en uvre du programme. Ces
tudes sont souvent mises en uvre pour valider un concept ou tester la viabilit
dun nouveau programme. Si le programme ne gnre pas limpact prvu dans les
conditions de ltude, qui sont souvent bien matrises, il a peu de chances de donner
des rsultats sil est appliqu dans des conditions normales. Les tudes pilotes sont
gnralement de petite envergure et mises en uvre dans des conditions troite-

14

Lvaluation dimpact en pratique

ment contrles; limpact quelles permettent de mettre en vidence risque de ne


pas tre reprsentatif de limpact dun projet similaire ralis plus grande chelle
et dans des conditions normales. Par exemple, un projet pilote de mise en vigueur de
nouveaux protocoles mdicaux peut donner de bons rsultats dans un hpital dot
dexcellents gestionnaires et dun bon personnel mdical, mais se rvler totalement
inefficace dans un hpital moyen, si les gestionnaires sont moins attentifs et les
membres du personnel moins nombreux. En outre, le rapport cot-bnce sera diffrent, car les cots xes et les conomies dchelle risquent de ne pas tre pris en
compte dans ltude pilote vu lenvergure limite du projet. Les tudes pilotes peuvent certes tre utiles pour tester une approche novatrice, mais leurs rsultats ont
gnralement une validit externe limite et ne retent pas toujours les conditions
relles auxquelles les dcideurs sont habituellement confronts.
linverse, les tudes defficacit lchelle caractrisent les interventions qui ont
lieu dans des conditions normales et sont mises en uvre par des voies habituelles.
Lorsque les tudes defficacit lchelle sont bien conues et bien ralises, les
rsultats peuvent tre considrs comme valides aussi bien pour lchantillon dvaluation que pour dautres bnciaires potentiels hors de lchantillon. La validit
externe est primordiale pour les dcideurs, car cest elle qui dnit sil sera possible
ou non dutiliser les rsultats de lvaluation pour juger de lopportunit dtendre le
programme au-del de lchantillon dvaluation.

Combiner les sources dinformation pour valuer tant


le pourquoi que le comment
Les valuations dimpact ralises sans tenir compte de diverses sources dinformations sont vulnrables tant sur le plan technique que sur le plan de leur efficacit potentielle. Sans informations sur la nature et le contenu du programme
permettant de replacer les rsultats de lvaluation dans leur contexte, les dcideurs ne pourront pas dterminer les raisons pour lesquelles un rsultat a t
atteint et non un autre. Si les valuations dimpact donnent des estimations relativement ables des effets causaux pour un programme, elles ne sont gnralement pas conues pour permettre danalyser les aspects relatifs lefficience de la
mise en uvre du programme. De plus, elles doivent tre en adquation avec la
ralisation du programme et doivent, en consquence, tenir compte de la manire,
du moment et du lieu o le programme valu est excut.
Des donnes qualitatives, des donnes de suivi ainsi que des valuations de processus sont ncessaires pour documenter la mise en uvre dun programme de
faon clairer et interprter les rsultats des valuations dimpact. cet gard, les
valuations dimpact et les autres outils dvaluation sont complmentaires les uns
des autres plutt que concurrents.

Pourquoi valuer ?

15

Par exemple, les autorits dune province peuvent dcider le versement de


primes aux cliniques rurales qui russissent augmenter le pourcentage des
naissances ayant lieu en prsence dun professionnel de la sant. Si lvaluation
montre quaucun changement na t constat au niveau du pourcentage des
naissances en cliniques, plusieurs explications peuvent tre avances. Il est tout
dabord possible que le personnel des cliniques concernes nait pas t suffisamment inform des primes ou quil nait pas compris les rgles du programme.
Dans ce cas, les autorits provinciales peuvent lancer une campagne dinformation et dducation lattention des centres de sant. Il se peut aussi quun
manque dquipement ou des coupures dlectricit aient empch les cliniques
dadmettre plus de patients. Dans ce cas, il peut savrer ncessaire de renforcer
les quipements et damliorer lapprovisionnement en lectricit. Enn, les
femmes enceintes en milieu rural peuvent tre rticentes accoucher en clinique et prfrer, pour des raisons culturelles, accoucher chez elles, assistes
dune sage-femme. Si tel est le cas, il sera sans doute plus efficace de sattaquer
aux barrires auxquelles se heurtent les femmes que de distribuer des primes
aux cliniques. Une bonne valuation dimpact permettra aux autorits de dterminer si lvolution du taux des naissances en prsence dun professionnel de la
sant est le rsultat ou non de la distribution des primes. Des travaux complmentaires seront toutefois ncessaires pour dterminer si le programme sest
droul comme prvu et quelles en sont les pices manquantes. Dans notre
exemple, les valuateurs peuvent complter leur tude dimpact en interrogeant
le personnel de sant des cliniques pour valuer leur connaissance du programme, en examinant les quipements dont disposent les cliniques, en menant
des discussions de groupe avec des femmes enceintes pour comprendre leurs
prfrences et leurs rticences, et en examinant lensemble des donnes disponibles sur laccs aux centres de sant en milieu rural.
Utiliser des donnes qualitatives
Les donnes qualitatives constituent un complment important aux valuations
dimpact quantitatives, car elles peuvent donner des indications additionnelles sur la
performance dun programme. Les valuations qui combinent lanalyse quantitative
et lanalyse qualitative sont dites mthodes mixtes (Bamberger, Rao et Woolcock, 2010). Les tudes qualitatives ont recours des groupes focaux et des entrevues avec certains bnciaires et dautres personnes susceptibles de fournir des
informations (Rao et Woolcock, 2003). Bien que les points de vue et opinions issus
de ces entretiens et des groupes focaux ne puissent tre considrs comme reprsentatifs de lopinion de lensemble des bnciaires du programme, ils sont particulirement utiles au cours des trois phases de lvaluation dimpact :
1. Lors de la conception de lvaluation dimpact, les valuateurs peuvent avoir
recours des groupes focaux et interroger des personnes cls pour laborer des

16

Lvaluation dimpact en pratique

hypothses sur la manire et les raisons de la russite du programme, le cas


chant, et clarier les questions de recherche auxquelles il sagira de rpondre
lors de lvaluation dimpact quantitative.
2. Au stade intermdiaire, soit avant que les rsultats de lvaluation quantitative
ne soient connus, lanalyse qualitative peut permettre de fournir aux dcideurs
un aperu de lvolution du programme.
3. Au stade de lanalyse, les valuateurs peuvent recourir aux mthodes qualitatives pour replacer les donnes quantitatives dans leur contexte et trouver des
explications, pour mieux tudier les cas particuliers de russite ou dchec, et
pour formuler des explications systmatiques de la performance du programme
tablie par les rsultats quantitatifs. En ce sens, lanalyse qualitative peut
contribuer expliquer certains rsultats observs au terme de lanalyse quantitative et permettre de mieux comprendre ce qui sest pass dans le cadre du
programme (Bamberger, Rao et Woolcock, 2010).

Utiliser des donnes de suivi et des valuations de processus


Les donnes de suivi sont galement particulirement prcieuses pour lvaluation
dimpact. Elles permettent en effet de recenser les participants au programme,
de dterminer la chronologie de dveloppement du programme ou la manire
dont les ressources sont dpenses, ainsi que dune manire plus gnrale de vrier si les activits sont mises en uvre comme prvu. Ces informations sont trs
importantes pour la ralisation de lvaluation, pour sassurer par exemple que les
donnes de lenqute de rfrence sont bien collectes avant lentre en vigueur du
programme ou encore pour vrier ladhrence lassignation aux groupes
de traitement et de comparaison. En outre, le systme de suivi peut fournir des
informations sur le cot de la mise en uvre du programme, particulirement
utiles pour lanalyse cot-bnce.
Pour leur part, les valuations de processus mettent laccent sur lexcution et
le droulement du programme et visent vrier que le processus est conforme
aux prvisions initiales; elles fournissent des informations sur son dveloppement
et son droulement. Ces valuations peuvent gnralement tre effectues assez
rapidement et un cot raisonnable. Dans le cadre des projets pilotes et des phases
initiales de programmes, elles peuvent constituer des sources dinformations intressantes pour amliorer lexcution du programme.

Notes
1. Voir Fiszbein et Schady, 2009, pour un aperu des programmes de TMC et le
rle inuent du programme Progresa/Oportunidades suite lvaluation
dimpact dont il a fait lobjet

Pourquoi valuer ?

17

2. Pour de plus amples informations sur lanalyse cot-bnce, voir Belli et al.
2001; Boardman et al. 2001 ; Brent 1996 ; ou Zerbe et Dively 1994.

Rfrences
Bamberger, Michael, Vijayendra Rao et Michael Woolcock 2010. Using Mixed
Methods in Monitoring and Evaluation: Experiences from International
Development. Document de travail consacr la recherche
sur les politiques 5245, Banque mondiale, Washington, DC.
Behrman, Jere R. et John Hoddinott. 2001. An Evaluation of the Impact of
PROGRESA on Pre-school Child Height. FCND Briefs 104, International
Food Policy Research Institute, Washington, DC.
Belli, Pedro, Jock Anderson, Howard Barnum, John Dixon et Jee-Peng Tan.
2001. Handbook of Economic Analysis of Investment Operations.
Washington DC : Banque mondiale.
Boardman, Anthony, Aidan Vining, David Greenberg et David Weimer. 2001.
Cost-Benet Analysis: Concepts and Practice. New Jersey: Prentice Hall.
Brent, Robert. 1996. Applied Cost-Benet Analysis. Angleterre : Edward Elgar.
Fiszbein, Ariel, et Norbert Schady. 2009. Conditional Cash Transfer, Reducing
Present and Future Poverty. World Bank Policy Research Report. Banque
mondiale, Washington, DC.
Gertler, Paul J. 2004. Do Conditional Cash Transfers Improve Child Health?
Evidence from PROGRESAs Control Randomized Experiment.
American Economic Review 94 (2) : 33641.
Gertler, Paul J. et John W. Molyneaux. 1994. How Economic Development
and Family Planning Programs Combined to Reduce Indonesian Fertility.
Demography 31 (1): 3363.
. 2000. The Impact of Targeted Family Planning Programs in Indonesia.
Population and Development Review 26 : 6185.
Imas, Linda G. M. et Ray C. Rist. 2009. The Road to Results: Designing
and Conducting Effective Development Evaluations. Washington DC :
Banque mondiale.
Kremer, Michael et Edward Miguel. 2004. Worms: Identifying Impacts on
Education and Health in the Presence of Treatment Externalities.
Econometrica 72 (1) : 159217.
Kremer, Michael, Sylvie Moulin et Robert Namunyu. 2003. Decentralization:
A Cautionary Tale. Poverty Action Lab Paper 10, Massachusetts Institute of
Technology, Cambridge, MA.
Levy, Santiago et Evelyne Rodrguez. 2005. Sin Herencia de Pobreza: El Programa
Progresa-Oportunidades de Mxico. Washington DC : Banque interamricaine
de dveloppement.
McKay, Harrison, Arlene McKay, Leonardo Siniestra, Hernando Gomez et
Pascuala Lloreda. 1978. Improving Cognitive Ability in Chronically Deprived
Children. Science 200 (21) : 27078.

18

Impact Evaluation in Practice

Poverty Action Lab. 2005. Primary Education for All. Fighting Poverty:
What Works? N1 (automne) : n.p. http://www.povertyactionlab.org.
Rao, Vijayendra et Michael Woolcock. 2003. Integrating Qualitative and
Quantitative Approaches in Program Evaluation. In The Impact of Economic
Policies on Poverty and Income Distribution: Evaluation Techniques and Tools,
d. F. J. Bourguignon and L. Pereira da Silva, 16590. New York: Oxford
University Press.
Schultz, Paul. 2004. School Subsidies for the Poor: Evaluating the Mexican
Progresa Poverty Program. Journal of Development Economics 74 (1) :
199250.
Skouas, Emmanuel et Bonnie McClafferty. 2001. Is Progresa Working?
Summary of the Results of an Evaluation by IFPRI. Institut international
de recherche sur les politiques alimentaires, Washington, DC.
Vermeersch, Christel et Michael Kremer. 2005. School Meals, Educational
Achievement and School Competition: Evidence from a Randomized Evaluation.
Document de travail consacr la recherche sur les politiques 3523,
Banque mondiale, Washington, DC.
Zerbe, Richard et Dwight Dively. 1994. Benet Cost Analysis in Theory and
Practice. New York : Harper Collins Publishing.

Pourquoi valuer ?

19

CHAPITRE 2

Formulation des questions


dvaluation
Le prsent chapitre sattle aux premires tapes de llaboration dune valuation.
Ces tapes comprennent la dnition du type de questions auxquelles lvaluation
rpond, la construction dune thorie du changement montrant comment le projet
est cens atteindre les rsultats esprs, la ralisation dune chane de rsultats, la
formulation des hypothses qui seront testes par lvaluation et la slection dindicateurs de performance.
Toutes ces tapes contribuent formuler une question dvaluation. Il est primordial quelles soient considres ds la conception du programme, en troite
collaboration avec les parties prenantes, y compris les dcideurs et responsables
du programme, dans loptique dobtenir une vision commune des objectifs et de la
manire de les atteindre. Un tel dialogue permet de forger un consensus sur les
principales questions auxquelles lvaluation rpondra et de renforcer les liens
entre lvaluation, la mise en uvre du programme et llaboration des politiques
publiques. Ces tapes sont aussi essentielles pour tablir la transparence et la spcicit ncessaires la ralisation dune bonne valuation dimpact, tout comme
elles contribuent en parallle la conception et lexcution dun programme efficace. Chaque tape, de la formulation prcise dobjectifs et de questions aux rsultats esprs en passant par la formulation de la thorie du changement, est dnie
dans ce chapitre et articule au sein dune forme de modle logique, la chane
de rsultats.

21

Types de questions dvaluation


Toute valuation dbute par la formulation dune question de recherche propre la
politique ltude. Le travail dvaluation consiste ensuite gnrer des arguments
crdibles pour rpondre cette question. Comme nous lexpliquerons plus tard, la
question fondamentale dune valuation dimpact peut tre formule ainsi : quel est
limpact (ou effet causal) dun programme sur un rsultat donn ? Pour lun des
exemples de la partie 2 de ce livre, la question dtude sarticule comme suit : quel
est limpact dun programme de subvention de lassurance maladie sur les dpenses de
sant des mnages? La question peut galement porter sur lvaluation de plusieurs
options de conception des programmes, par exemple : quelle combinaison de campagnes de publipostage et de sances de conseils aux familles donne les meilleurs
rsultats lorsquil sagit dencourager lallaitement maternel? La formulation dune
question dvaluation claire et pertinente constitue le point de dpart de toute valuation efficace.

Thories du changement
Une thorie du changement est une description de la manire dont une intervention
est cense produire les rsultats esprs. Elle dcrit la logique causale expliquant comment et pourquoi un projet, un programme ou une politique atteindra les rsultats
viss. Lexistence dune thorie du changement est fondamentale pour les valuations
dimpact tant donn limportance quelles portent aux relations de cause effet. La
thorie du changement est lune des premires tapes de la conception dune valuation, car elle contribue la formulation des questions de recherche.
Les thories du changement dcrivent une srie dvnements conduisant un
rsultat; elles noncent les conditions et les hypothses ncessaires pour que des
changements se produisent ; elles mettent en vidence la logique causale
sous-jacente au programme et inscrivent les interventions dans cette logique causale. Un travail conjoint entre les diverses parties prenantes pour dnir une thorie du changement est souvent utile pour clarier et amliorer llaboration du
programme. Ceci est particulirement important dans le cas des programmes qui
visent modier des comportements : les thories du changement peuvent aider
dcomposer les intrants et les activits constituant les interventions, les extrants
quelles produisent et les rsultats qui dcoulent des changements de comportement esprs des bnciaires.
Le dbut du processus de conception du programme constitue le meilleur
moment pour formuler une thorie du changement; les parties prenantes peuvent
alors se runir pour laborer une vision commune du programme, de ses objectifs
et des moyens mettre en uvre pour les atteindre. Les responsables peuvent
ensuite implmenter le programme sur la base dune comprhension commune de
son fonctionnement et de ses objectifs.

22

Lvaluation dimpact en pratique

Par ailleurs, il est important que les concepteurs du programme passent en


revue la littrature au sujet dinterventions ou expriences similaires, et quils
vrient soigneusement le contexte et les hypothses qui sous-tendent la logique
causale de la thorie du changement adopte. Par exemple, pour le projet des sols
en ciment au Mexique (voir encadr 2.1), la littrature existante permet de comprendre les mcanismes de transmission des parasites et la manire dont ils provoquent des diarrhes chez les enfants.

Encadr 2.1 : Thorie du changement


Des sols en ciment font le bonheur des Mexicains
Dans le cadre de leur valuation du Projet Piso
Firme ou sol en dur , Cattaneo et al. (2009)
tudient limpact dune amlioration de lhabitat sur la sant et le bien-tre. Le projet, tout
comme lvaluation, repose sur une thorie du
changement trs claire.
Lobjectif du Projet Piso Firme est damliorer le niveau de vie, notamment ltat de sant,
de groupes vulnrables vivant dans des zones
pauvres forte densit de population. Le programme a dabord t lanc dans le nord du
pays, dans ltat de Coahuila, sur la base dune
apprciation du gouverneur Enrique Martnez
et son quipe de campagne.
La chane de rsultats du programme est
claire. Une enqute porte--porte est effectue
auprs des mnages ligibles, et les mnages
reoivent lquivalent de 50 m2 de ciment. Les
autorits assurent lachat et la livraison du
ciment tandis que les mnages et les volontaires des communauts fournissent la mainduvre. Lextrant du programme est la
construction, en une journe environ, dun sol
en ciment. Les rsultats esprs de cette intervention sont, notamment, une amlioration
de lhygine, de la sant et du bien-tre des
bnficiaires.
La logique sous-jacente cette chane de
rsultats est que les sols en terre battue sont
des vecteurs de transmission des parasites,

car ils sont plus difficiles maintenir propres.


Les parasites vivent et se reproduisent dans les
excrments ; sont introduits dans les logements
par les animaux, les enfants ou les chaussures,
et peuvent tre ingrs. Les donnes montrent
que les enfants en bas ge vivant dans des maisons au sol en terre battue ont plus de risques
dtre contamins par des parasites intestinaux
qui peuvent entraner diarrhes et malnutrition,
elles-mmes responsables de retards dans le
dveloppement cognitif ou de dcs. Les sols
en ciment permettent dinterrompre la transmission parasitaire. Ils permettent en outre de
mieux contrler la temprature et sont plus
esthtiques.
Ces rsultats esprs contribuent formuler
les questions de recherche pour lvaluation effectue par Cattaneo et ses collaborateurs. Ils testent lhypothse que le remplacement des sols
en terre battue par des sols en dur rduit lincidence des diarrhes, de la malnutrition et des
dficiences en oligo-lments. Ils considrent
ensuite si ces changements entrainent aussi une
amlioration du dveloppement cognitif des
enfants en bas ge. Les chercheurs examinent
aussi si lintervention amliore le bien-tre des
adultes tel que mesur par le degr de satisfaction des personnes lgard de leur habitat et par
la baisse du taux de dpression et de stress.

Source : Cattaneo et al. 2009.

Formulation des questions dvaluation

23

Chane de rsultats

Concept cl :
La chane de rsultats
tablit la squence
dintrants, dactivits et
dextrants contribuant
la ralisation des
rsultats intermdiaires
et finaux esprs.

Une thorie du changement peut tre formalise de diffrentes manires, par


exemple par des modles thoriques, des modles logiques ou de chanes de rsultats1. Tous ces modles comprennent les lments fondamentaux dune thorie du
changement. En dautres termes, ils articulent tous une chane causale, des conditions et des inuences extrieures, et des hypothses de base. Dans le prsent
ouvrage, nous allons nous concentrer sur la chane de rsultats. Elle constitue,
selon nous, le modle le plus simple et le plus clair pour laborer une thorie du
changement dans le contexte oprationnel des programmes de dveloppement.
La chane de rsultats est une reprsentation logique et plausible de la manire
dont une squence dintrants, dactivits et dextrants produits par un projet entre
en interaction avec le comportement des bnciaires pour raliser un impact
donn (gure 2.1). Cette chane tablit une logique causale du dbut la n du
projet, depuis la mise disposition des ressources jusquaux objectifs long terme.
Une chane de rsultats est gnralement compose des lments suivants :
Intrants : ressources dont dispose le projet, y compris le personnel et le budget
Activits : actions entreprises ou travaux raliss pour transformer les
intrants en extrants
Extrants : biens et services tangibles produits par les activits du projet (les extrants
sont sous le contrle direct de lagence charge de lexcution du programme)
Rsultats intermdiaires : rsultats susceptibles dtre atteints lorsque la population bnciaire utilise les extrants du projet (rsultats gnralement atteints
court et moyen terme)
Rsultats naux : objectifs naux du projet (ils peuvent subir linuence de
nombreux facteurs et sont gnralement atteints plus long terme).
Une chane de rsultats comprend trois parties principales :
La mise en uvre : travaux prvus raliss par le projet, comprenant les intrants,
les activits et les extrants. Il sagit dlments dont lagence responsable de
lexcution du programme peut faire un suivi direct dans le but de mesurer la
performance du projet.
Les rsultats : les rsultats esprs comprennent les rsultats intermdiaires et
les rsultats naux. Ces rsultats ne sont pas entirement sous le contrle direct
de lagence responsable de lexcution du programme et sont tributaires des
changements de comportement des bnciaires du programme. Autrement dit,
ils dpendent de linteraction entre loffre (mise en uvre) et la demande (bnciaires). Ce sont ces rsultats qui font lobjet dune valuation dimpact en vue
de mesurer lefficacit du programme.

24

Lvaluation dimpact en pratique

Figure 2.1

Quest ce quune chane de rsultats ?

INTRANTS

ACTIVITS

Ressources
mobilises
(financires,
humaines et
autres) pour
raliser les
activits.

Actions
entreprises
ou travaux
effectus pour
transformer
les intrants
en extrants.

Budgets,
personnel,
autres ressources
disponibles.

Ensemble
des activits
entreprises
pour produire
des biens
et des services.

EXTRANTS

RSULTATS
INTERMDIAIRES

Produits
rsultant de la
transformation
des intrants
en extrants.

Utilisation des
extrants par
la population
cible.

Biens et services
produits et fournis
sous le contrle
de lagence
responsable de
lexcution
du programme.

Hors du contrle
direct de lagence
responsable de
lexcution du
programme.

Mise en uvre (OFFRE)

RSULTATS
FINAUX
Objectif
final du
programme.
Objectifs
long terme.

Changements
de rsultats
(facteurs divers).

Rsultats (DEMANDE + OFFRE)

Les hypothses et les risques : Les hypothses et les risques ne sont pas prsents
dans la gure 2.1. Ils comprennent toute information extraite de la littrature
existante qui est pertinente pour la thorie du changement propose, ainsi que
les hypothses sur lesquelles elle repose, des rfrences aux rsultats de programmes similaires, les risques qui pourraient remettre en cause les rsultats
esprs et toute stratgie mise en place pour attnuer ces risques.
Prenons lexemple du ministre de lducation dun pays A qui souhaite lancer
une nouvelle mthode denseignement des mathmatiques dans le cycle secondaire. Comme lillustre la gure 2.2, les intrants du programme se constituent du
personnel du ministre, des enseignants du secondaire, des moyens nanciers
allous au nouveau programme de mathmatiques et des locaux pour organiser
la formation des professeurs. Les activits comprennent la conception du nouveau programme de mathmatiques, la prparation dune formation pour les professeurs, la formation des professeurs ainsi que la commande, limpression et la
distribution des nouveaux manuels. Les extrants sont le nombre de professeurs
forms, le nombre de manuels distribus dans les classes et ladaptation des exa-

Formulation des questions dvaluation

25

Figure 2.2

Chane de rsultats dun programme de mathmatiques du cycle secondaire

INTRANTS

Budget pour le

EXTRANTS

ACTIVITS

nouveau programme
de mathmatiques.
Personnel du
ministre de
lducation,
professeurs
du secondaire.
Locaux pour
la formation.

Conception

du nouveau
programme.
Formation
des professeurs.
Rdaction,
impression
et distribution
des nouveaux
manuels scolaires.

RSULTATS
INTERMDIAIRES

RSULTATS
FINAUX

5 000 professeurs

Augmentation du
Les enseignants
de mathmatiques
taux dachvement
se servent des
du secondaire forms.
du cycle secondaire.
manuels et suivent
le nouveau programme. Hausse des revenus.
100 000 manuels
distribus.
Hausse du
Les lves suivent
taux demploi.
le nouveau programme.
Meilleurs rsultats
aux examens de
mathmatiques.

Mise en uvre (OFFRE)

Rsultats (DEMANDE + OFFRE)

mens de mathmatiques au nouveau programme. Les rsultats court terme


comprennent lutilisation des nouvelles mthodes et des nouveaux manuels par
les enseignants et ladoption du nouveau curriculum. Les rsultats moyen terme
sont lamlioration des rsultats des tudiants aux examens de mathmatiques.
Les rsultats naux incluent un taux accru dtudiants terminant le cycle secondaire, une hausse du taux demploi et des revenus plus levs des diplms.
Les chanes de rsultats sont utiles pour tous les projets, quune valuation dimpact soit prvue ou non. En effet, elles permettent aux dcideurs et aux responsables
de rendre explicites les objectifs du programme, de comprendre sa logique causale et
de dterminer la squence dvnements sur laquelle repose son succs. De plus, les
chanes de rsultats facilitent les discussions relatives au suivi et lvaluation, car
elles mettent en exergue les informations qui doivent faire lobjet dun suivi et les
changements de rsultats sur lesquels lvaluation devra se concentrer.
Pour comparer diffrentes options de mise en uvre dun mme programme,
les chanes de rsultats peuvent tre reprsentes sous la forme darbres de rsultats
indiquant toutes les alternatives envisages au moment de la conception ou de la
restructuration du programme. Ces arbres de rsultats indiquent les diffrentes
options stratgiques et oprationnelles qui peuvent mener aux objectifs spciques
du programme; ils peuvent servir de support de rexion sur les options tester
et valuer. Par exemple, plusieurs interventions peuvent permettre de remplir lobjectif damliorer les connaissances dans le domaine nancier, par exemple une
campagne dinformation ou une formation pour adultes.

26

Lvaluation dimpact en pratique

Hypothses pour lvaluation


Aprs avoir constitu la chane de rsultats, vous pouvez vous atteler la formulation des hypothses tester dans le cadre de lvaluation dimpact. Dans
lexemple du nouveau programme de mathmatiques, les hypothses pourraient
tre les suivantes :
Le nouveau programme est suprieur lancien pour amliorer les connaissances
en mathmatiques.
Les enseignants forms utilisent le nouveau programme plus efficacement que
les autres enseignants.
Si la formation des enseignants et la distribution des manuels sont ralises,
les professeurs utiliseront ces manuels et adopteront le nouveau programme,
et les tudiants suivront ce programme.
Si la formation des enseignants et la distribution des manuels sont ralises,
les rsultats aux examens de mathmatiques augmenteront de cinq points
en moyenne.
Les rsultats obtenus en mathmatiques dans le secondaire ont une inuence
sur le taux dachvement du cycle secondaire et sur linsertion professionnelle
des tudiants.

Slection des indicateurs de performance


Une chane de rsultats clairement articule est utile pour identier les indicateurs
mesurer pour suivre et valuer la performance des programmes. Ces indicateurs
portent aussi bien sur le suivi de la mise en uvre du programme que sur lvaluation des rsultats. L encore, il est utile dassocier lensemble des parties prenantes
au programme la slection des indicateurs an quelles fournissent une mesure
adquate de sa performance. En rgle gnrale, les indicateurs doivent tre :

Concept cl :
Un bon indicateur
est spcifique,
mesurable, attribuable,
raliste et cibl.

Spciques : pour mesurer linformation ncessaire le plus prcisment possible


Mesurables : pour assurer que linformation puisse effectivement tre obtenue
Attribuables : pour pouvoir plausiblement attribuer chaque mesure effectue
aux efforts fournis dans le cadre du projet
Ralistes : pour que les donnes puissent tre obtenues temps, une frquence
et un cot raisonnables
Cibls : pour que les indicateurs visent bien la population cible.

Formulation des questions dvaluation

27

Il est important de dnir des indicateurs tout au long de la chane de rsultats sans se limiter aux rsultats, de manire pouvoir faire le suivi de toute la
logique causale du programme. Mme dans le cadre dune valuation dimpact,
il est essentiel dexaminer les indicateurs de mise en uvre des interventions
pour sassurer quelles ont t menes comme prvu, quelles ont touch les
bnciaires viss et quelles ont t ralises au moment opportun (voir Kusek
et Rist, 2004, ou Imas et Rist, 2009 pour plus dinformations sur la slection des
indicateurs de performance). Faute dindicateurs couvrant toute la chane des
rsultats, lvaluation dimpact risque de devenir une bote noire qui se limite
indiquer si les rsultats attendus se sont matrialiss ou pas sans pour autant
pouvoir expliquer pourquoi.
Outre la slection des indicateurs, il est galement important de dnir do
proviennent les donnes requises la mesure des indicateurs de performance.
Le tableau 2.1 rcapitule les lments de base dun plan de suivi et valuation ainsi
que les modalits suivre pour gnrer chacun des indicateurs de manire able
et opportune.
Tableau 2.1

lments dun plan de suivi et valuation

lment

Description

Rsultats esprs
(rsultats et extrants)

Obtenus partir des documents de conception


du programme et de la chane de rsultats.

Indicateurs (avec valeurs


dans les donnes de base
et objectifs indicatifs)

Tirs de la chane des rsultats ; les indicateurs


doivent tre Spcifiques, Mesurables, Attribuables,
Ralistes, Cibls.

Source des donnes

Sources ou lieu o les donnes seront recueillies,


par exemple un rapport, ou une runion des parties
prenantes au projet.

Frquence des donnes

Frquence de disponibilit des donnes.

Responsabilits

Qui est responsable de lorganisation de la collecte


des donnes ainsi que de la vrification de la qualit
des donnes et des sources ?

Analyse et compte rendu

Frquence des analyses, mthode danalyse


et responsabilit du compte rendu.

Ressources

Estimation des ressources ncessaires et engages


pour raliser les activits de suivi et valuation.

Utilisation finale

Qui recevra les informations et les utilisera ?


Dans quel but ?

Risques

Quels sont les hypothses et les risques lis aux


activits de suivi et dvaluation ? Comment
peuvent-ils affecter les activits de suivi et valuation
prvues ainsi que la qualit des donnes ?

Source : adapt dune publication du PNUD, 2009.

28

Lvaluation dimpact en pratique

Feuille de route pour les parties 2 et 3


Dans cette premire partie de louvrage, nous avons expos pourquoi raliser des
valuations dimpact et quand les mettre en uvre. Nous avons voqu les divers
objectifs des valuations dimpact ainsi que les questions fondamentales de politique auxquelles elles rpondent. Nous avons soulign la ncessit de bien dnir
la thorie du changement pour indiquer les mcanismes par lesquels un programme a un impact sur les rsultats naux. Le but de lvaluation dimpact est
essentiellement de vrier si cette thorie du changement sapplique ou non dans
les faits.
La partie 2, intitule Comment valuer?, porte sur les diverses mthodes qui
permettent de constituer des groupes de comparaison adquats et raliser une
valuation valide des impacts dun programme. Nous commenons par introduire
le contrefactuel, notion fondamentale toute valuation dimpact, en mettant laccent sur les proprits de lestimation du contrefactuel et en donnant des exemples
de contrefactuels non valides ou contrefaits. Nous prsentons ensuite diverses
mthodes pour obtenir une estimation valable du contrefactuel. Nous voquons
notamment lintuition sous-jacente de quatre catgories de mthodologies : la
slection alatoire, le modle de discontinuit de la rgression, la double diffrence et
lappariement. Nous tudions les circonstances dans lesquelles chaque mthode
fournit une estimation valable du contrefactuel, le contexte oprationnel dans
lequel ces mthodes sont appropries et leurs principales limites. Tout au long de
la deuxime partie du manuel, une tude de cas (le Programme de subvention de
lassurance maladie) est utilise pour illustrer les diverses mthodes. Nous prsentons aussi des exemples concrets de lapplication de chacune des mthodes
des programmes de dveloppement.
La partie 3 est consacre aux tapes suivre pour mettre en uvre, grer ou
commissionner une valuation dimpact. ce stade, nous considrons que les
objectifs de lvaluation ont t dnis, quune thorie du changement a t labore et que les questions dvaluation ont t formules. Nous passons en revue les
principaux points rsoudre au moment dlaborer le plan de lvaluation dimpact. Nous prsentons des rgles simples pour choisir le groupe de comparaison le
plus appropri dans un contexte donn. Nous tablissons un cadre qui aide choisir, parmi les mthodes dvaluation prsentes dans la partie 2, la mthode la
mieux adapte un programme en fonction de ses rgles oprationnelles. Nous
passons ensuite en revue les quatre grandes phases de la ralisation dune valuation : mettre en uvre lvaluation, choisir un chantillon, collecter les donnes,
produire et diffuser les conclusions.

Formulation des questions dvaluation

29

Note
1. University of Wisconsin-Extension (2010) propose des informations dtailles
sur la manire darticuler une chane de rsultats, ainsi quune liste complte
de rfrences. Imas et Rist (2009) prsentent une revue plus complte des
thories du changement.

Rfrences
Cattaneo, Matias, Sebastian Galiani, Paul Gertler, Sebastian Martinez et Rocio
Titiunik. 2009. Housing, Health and Happiness. American Economic Journal :
Economic Policy 1 (1) : 75105.
Imas, Linda G. M. et Ray C. Rist. 2009. The Road to Results: Designing and Conducting
Effective Development Evaluations. Washington DC : Banque mondiale.
Kusek, Jody Zall et Ray C. Rist. 2004. Ten Steps to a Results-Based Monitoring
and Evaluation System. Washington DC : Banque mondiale.
PNUD (Programme des Nations Unies pour le dveloppement). 2009. Guide de la
planication, du suivi et de lvaluation axs sur les rsultats du dveloppement.
New York : PNUD.
University of Wisconsin-Extension. 2010. Enhancing Program Performance with
Logic Models. Cours en ligne. http://www.uwex.edu/ces/pdande/evaluation/
evallogicmodel.html.

30

Lvaluation dimpact en pratique

Partie 2

COMMENT VALUER?

Maintenant que nous avons soulign les raisons dvaluer limpact des programmes et des politiques publiques, cette deuxime partie examine comment
procdent les valuations dimpact, les questions auxquelles elles rpondent,
les mthodes dvaluation disposition ainsi que les avantages et les inconvnients de chacune delles. Nous nous intressons notamment aux mthodes
de slection alatoire, au modle de discontinuit de la rgression, la double
diffrence et lappariement.
Comme lexpose la premire partie, une valuation dimpact vise tablir et
quantifier limpact dune intervention sur les rsultats qui intressent les analystes et les dcideurs politiques. Dans cette deuxime partie du manuel, nous
prsentons une tude de cas : le programme de subvention de lassurance
maladie (PSAM). Nous rpondons plusieurs reprises la mme question
concernant lvaluation dimpact du PSAM partir des mmes sources de donnes, mais en utilisant diffrentes mthodes qui fournissent des rponses diffrentes, parfois mme opposes. (Nous supposons ici que les donnes ont

t totalement dpures). Votre tche est didentifier les raisons pour lesquelles
les estimations dimpact du PSAM diffrent selon la mthode dvaluation retenue et de dterminer les rsultats que vous estimez suffisamment fiables pour
fournir des recommandations stratgiques de politiques publiques.
Le contexte de ltude de cas du PSAM est le suivant : les autorits entament
un programme de rformes du secteur de la sant de grande envergure dans le
but damliorer ltat de sant de la population. Lobjectif gnral de ces rformes est damliorer laccs aux services de sant et leur qualit dans les
rgions rurales pour atteindre un niveau similaire aux zones urbaines. Le PSAM
est un projet pilote novateur potentiellement fort coteux. Le programme subventionne le systme dassurance maladie pour quil couvre le cot des soins
de sant primaires et des mdicaments pour les mnages ruraux pauvres. Lobjectif principal du PSAM est de rduire le cot des soins de sant pour les mnages pauvres et, en dfinitive, damliorer les rsultats en matire de sant.
Les autorits envisagent dtendre le PSAM lensemble du pays. Cette dcision coterait des centaines de millions de dollars, mais les dcideurs craignent
que sans subvention, les mnages ruraux pauvres ne soient pas en mesure de
payer les soins de sant de base, ce qui aurait des consquences nfastes sur
leur tat de sant. Dans ce contexte, la question cl dvaluation est la suivante : quel est limpact du PSAM sur les dpenses en soins de sant la
charge des mnages et sur ltat de sant des familles pauvres ? La rponse
de telles questions permet dorienter les dcideurs dans leurs choix de politiques adopter et de programmes mettre en uvre. leur tour, ces programmes peuvent avoir un impact sur le bien-tre de millions de personnes
dans le monde. Les questions dvaluation dimpact sont donc particulirement
importantes, et cette partie du manuel passe en revue comment y rpondre de
manire rigoureuse.

CHAPITRE3

Infrence causale
et contrefactuel
Nous allons tout dabord examiner deux concepts essentiels pour raliser des valuations prcises et ables, savoir linfrence causale et le contrefactuel.

Infrence causale
La question fondamentale de lvaluation dimpact constitue essentiellement un
problme dinfrence causale. valuer limpact dun programme sur une srie de
rsultats revient valuer leffet causal du programme sur lesdits rsultats. La plupart des questions de politique invoquent des relations de cause effet: la formation des professeurs entrane-t-elle une amlioration des rsultats des lves aux
examens? Les programmes de transferts montaires conditionnels entranent-ils
une amlioration de ltat de sant des enfants ? Les programmes de formation
professionnelle entranent-ils une amlioration des revenus des bnciaires?
Mme si les questions qui abordent une relation de cause effet sont courantes,
il nest jamais facile dtablir quune relation est effectivement causale. Par exemple,
le simple fait dobserver que le revenu des bnciaires dun programme de formation professionnelle augmente ne suffit pas tablir un lien de causalit. Le revenu
dun bnciaire pourrait en effet avoir augment mme sil navait pas suivi le programme de formation grce, par exemple, ses propres efforts, lvolution des
conditions sur le march du travail ou tout autre facteur susceptible davoir un
impact sur le revenu travers le temps. Les valuations dimpact permettent dtablir
un lien de causalit en dmontrant empiriquement dans quelle mesure un pro33

gramme donn et uniquement ce programme a contribu changer un rsultat.


Pour tablir un lien de causalit entre un programme et un rsultat, nous utilisons des
mthodes dvaluation dimpact qui permettent dcarter la possibilit que des facteurs autres que le programme ltude puissent expliquer limpact observ.
La rponse la question fondamentale de lvaluation dimpact, savoir quel est
limpact ou leffet causal dun programmeP sur un rsultatY, est donne par la formule
de base dvaluation dimpact :
= (Y | P = 1) (Y | P = 0).
Selon cette formule, leffet causal dun programme (P) sur un rsultat (Y) est
la diffrence entre le rsultat(Y) obtenu avec le programme (autrement dit avec
P = 1) et le mme rsultat (Y) obtenu sans le programme (c.--d. avec P = 0).
Par exemple, si P est un programme de formation professionnelle et Y le revenu,
leffet causal du programme de formation professionnelle est la diffrence entre
le revenu dune personne donne (Y) aprs avoir particip au programme de formation (donc avec P = 1) et le revenu quaurait eu la mme personne (Y) au mme
moment si elle navait pas particip au programme (avec P = 0). Autrement dit,
nous cherchons mesurer le revenu au mme moment et pour la mme unit dobservation (une personne dans le cas prsent), mais dans deux cas de gure diffrents. Sil tait possible de procder ainsi, nous pourrions observer le revenu gagn
par une mme personne au mme moment la fois aprs avoir suivi le programme
de formation professionnelle et sans lavoir suivi, de manire ce que toute diffrence de revenu pour cette personne ne puisse sexpliquer que par sa participation
au programme. En comparant une mme personne elle-mme au mme moment
avec et sans le programme, nous serions capables dliminer tout facteur externe
susceptible de contribuer la diffrence de revenu. Nous pourrions alors conclure
sans aucun doute que la relation entre le programme de formation professionnelle
et le revenu est bel et bien causale.
La formule de base dvaluation dimpact est valable pour toute unit ltude,
quil sagisse dune personne, dun mnage, dune communaut, dune entreprise,
dune cole, dun hpital ou de toute autre unit dobservation qui peut bncier
dun programme. Cette formule est galement applicable tout indicateur de
rsultat (Y) quun programme en place peut de manire plausible affecter. Si nous
parvenons mesurer les deux lments cls de cette formule, savoir le rsultat
(Y) la fois en prsence et en labsence du programme, nous pourrons alors
rpondre nimporte quelle question sur limpact de ce programme.
Contrefactuel
Comme nous lavons vu ci-dessus, limpact dun programme est conceptuellement la diffrence du rsultat (Y) pour une mme personne lorsquelle bncie
dun programme (P) et nen bncie pas. Pourtant, il est bien videmment impossible dobserver la mme personne au mme moment dans deux cas de gure

34

Lvaluation dimpact en pratique

diffrents. Une personne ne peut pas simultanment participer un programme et


ne pas y participer. La personne ne peut donc pas tre observe au mme moment
dans les deux cas de gure (autrement dit, en tant que bnciaire et non-bnciaire du programme). Ce problme sappelle le problme contrefactuel: comment mesurer ce qui se serait pass dans dautres circonstances? Nous pouvons
certes observer et mesurer le rsultat (Y) pour les participants au programme
(Y | P = 1), mais il nexiste aucune donne pour dterminer ce quauraient t les
rsultats pour un bnciaire en labsence du programme (Y | P = 0). Dans la formule de base dvaluation dimpact, le terme (Y | P = 0) reprsente le contrefactuel.
Le contrefactuel peut tre considr comme ce qui serait arriv si un participant
navait en ralit pas bnci du programme. Autrement dit, le contrefactuel est
le rsultat (Y) qui aurait t obtenu en labsence de programme (P).
Prenons lexemple de Monsieur Malchance qui avale un comprim rouge et
dcde cinq jours plus tard. Nous ne pouvons pas conclure que le comprim rouge
a caus la mort de M.Malchance uniquement parce que celui-ci est dcd aprs
avoir pris un comprim. M.Malchance tait peut-tre trs malade lorsquil a aval
ce comprim rouge, auquel cas il est possible que sa maladie et non le comprim ait
provoqu son dcs. Pour infrer un lien de causalit, il faudra carter tout autre
facteur susceptible davoir tenu un rle dans le rsultat, en loccurrence le dcs de
M.Malchance. Dans cet exemple, il sagira de dterminer ce qui se serait pass si
M. Malchance navait pas pris ce comprim. Toutefois, tant donn que
M.Malchance a effectivement pris le comprim rouge, il nest pas possible dobserver directement ce qui serait arriv sil ne lavait pas fait. Ce qui lui serait arriv sil
navait pas pris le comprim rouge constitue le contrefactuel. Le principal d
pour un valuateur est justement de dterminer quoi ressemble un contrefactuel
(voir lencadr3.1).
Dans le cadre dune valuation dimpact, il est relativement facile de mesurer le
premier terme de la formule de base (Y | P = 1), cest--dire le rsultat du groupe
recevant le traitement. Il suffit de mesurer le rsultat pour la population ayant
bnci du programme. En revanche, le second terme de lquation (Y | P = 0) ne
peut pas tre observ directement auprs des bnciaires du programme; il faut
donc reconstituer les lments manquants en estimant le contrefactuel. Pour ce
faire, nous avons recours des groupes de comparaison (ou groupes tmoins).
Le reste de la partie 2 du manuel est consacr aux diffrentes mthodes ou
approches qui peuvent tre utilises pour concevoir des groupes de comparaison
valides, reproduisant ou imitant avec prcision le contrefactuel. Lidentication de
ces groupes de comparaison est la pierre angulaire de toute valuation dimpact,
quel que soit le type de programme valuer. Autrement dit, sans contrefactuel
valide, limpact dun programme ne peut pas tre tabli.

Infrence causale et contrefactuel

Concept cl :
Le contrefactuel est
une estimation de
ce quaurait t le
rsultat (Y) pour
un bnficiaire
du programme
en labsence
du programme (P).

35

Encadr 3.1 : Estimation du contrefactuel


Mademoiselle Unique et le programme de transferts montaires conditionnels
Mademoiselle Unique est un bb dont la maman se voit offrir un transfert montaire mensuel condition quelle assure que sa petite
Unique soit vaccine, effectue rgulirement un
bilan de sant et un suivi de la croissance au
centre de sant local. Les autorits pensent que
le transfert montaire incitera la maman de Mademoiselle Unique recourir aux services de
sant, condition pralable pour bnficier du
programme, et que cela permettra Mademoiselle Unique de devenir une grande fille en
bonne sant. Pour lvaluation dimpact, les autorits choisissent la taille comme un indicateur
de la sant long terme. Supposons que Mademoiselle Unique soit mesure lge de trois
ans. Si vous voulez valuer limpact du programme, lidal serait de pouvoir mesurer Mademoiselle Unique lge de trois ans dans le
cas de figure o sa mre bnficie du transfert
montaire, et de mesurer la mme demoiselle
toujours lge de trois ans, mais cette fois dans
le cas de figure o sa maman ne reoit aucune
allocation. Vous pourriez alors comparer les deux
tailles. Sil tait possible de comparer la taille de
Mademoiselle Unique lge de trois ans alors
que sa maman bnficie du programme et sa
taille au mme ge en labsence du programme,
vous seriez certain que toute diffrence de taille
serait due uniquement la mise en place du programme. Toutes choses tant gales par ailleurs,
pour Mademoiselle Unique, aucun autre facteur
ne pourrait expliquer une ventuelle diffrence
de taille dans les deux cas de figure.

Malheureusement, il est impossible dobserver la taille de Mademoiselle Unique la fois en


prsence et en labsence du programme de
transferts montaires : en effet, soit sa famille
bnficie du programme, soit elle nen bnficie
pas. Autrement dit, on ne peut pas observer le
contrefactuel. La maman de Mlle Unique ayant
bnfici du programme de transferts montaires, nous ne pouvons pas savoir quelle aurait
t la taille de sa fille en labsence du programme. Or, trouver une comparaison pour
Mademoiselle Unique constitue un vritable
dfi, cette demoiselle tant, bien sr, unique.
Son profil socioconomique et ses caractristiques gntiques et personnelles exactes ne
peuvent se retrouver en aucune autre personne.
Si nous comparions Mademoiselle Unique un
enfant (par exemple M. Inimitable) qui ne bnficie pas du programme de transferts montaires, la comparaison pourrait ne pas tre
valable. Mlle Unique nest pas identique M. Inimitable. Mlle Unique et M. Inimitable peuvent
ne pas se ressembler, ils peuvent ne pas vivre
au mme endroit, ils peuvent ne pas avoir les
mmes parents et ils peuvent ne pas avoir eu la
mme taille leur naissance. Donc, si nous
observons que M. Inimitable est moins grand
que Mlle Unique lge de trois ans, nous ne
pouvons pas savoir si cette diffrence de taille
est due au programme de transferts montaires
ou lune des nombreuses diffrences qui peuvent exister entre ces deux enfants.

Estimation du contrefactuel
Pour illustrer lestimation du contrefactuel, nous allons prendre un exemple qui, bien
que sans importance sur le plan politique, nous permettra de mieux apprhender
cette notion cl. Conceptuellement, pour rsoudre le problme du contrefactuel,

36

Lvaluation dimpact en pratique

lvaluateur doit trouver le clone parfait pour chaque participant un programme


(gure3.1). Par exemple, supposons que Fulanito peroive 12dollars supplmentaires
dargent de poche. Nous voudrions mesurer limpact de cette augmentation dargent
de poche sur sa consommation de bonbons. Sil existait un clone parfait de Fulanito,
lvaluation serait aise: il suffirait de comparer le nombre de bonbons consomms
par Fulanito (disons six) avec le nombre de bonbons consomms par son clone ne
recevant pas dargent de poche supplmentaire (disons quatre). Dans ce cas, limpact
de largent de poche serait la diffrence entre ces deux chiffres (deuxbonbons). Dans
la ralit, les clones parfaits nexistent videmment pas. Des diffrences importantes
existent mme entre les vrais jumeaux ayant un patrimoine gntique semblable.
Toutefois, mme sil est impossible de trouver un clone parfait pour chacun des
bnciaires dun programme, certains outils statistiques permettent de gnrer
deux groupes qui, sils sont composs dun nombre assez important dindividus,
sont statistiquement indiscernables lun de lautre. Dans la pratique, lun des objectifs cls dune valuation dimpact est didentier un groupe de participants au
programme (groupe de traitement) et un groupe de non participants (groupe de
comparaison) statistiquement identiques en labsence du programme. Si les deux
groupes sont identiques la seule exception que lun des groupes participe au programme et lautre non, toute diffrence entre les rsultats des deux groupes est
attribuable au programme.
Le principal d est alors de trouver un groupe de comparaison valide ayant les
mmes caractristiques que le groupe de traitement. Plus prcisment, le groupe de
traitement et le groupe de comparaison doivent tre semblables en au moins trois
points. En premier lieu, les groupes de traitement et de comparaison doivent tre

Figure 3.1 Le clone parfait

Bnficiaire

Clone

X
6 bonbons

4 bonbons

Impact = 6 - 4 = 2 bonbons

Infrence causale et contrefactuel

37

Concept cl :
Un groupe de
comparaison valide
doit avoir les mmes
caractristiques que
le groupe de
participants au
programme ( groupe
de traitement ) la
seule diffrence que
les units du groupe
de comparaison
ne bnficient pas
du programme.

Concept cl :
Quand le groupe de
comparaison nest pas
valide, lestimation de
limpact du programme
ne sera pas valide non
plus : elle ne permettra
pas destimer limpact
causal rel du
programme. En
termes statistiques,
lestimation est
dite biaise .

38

identiques en labsence du programme. Il nest pas ncessaire que toutes les units
du groupe de traitement soient identiques toutes celles du groupe de comparaison,
mais en moyenne, les caractristiques des deux groupes doivent tre les mmes. Par
exemple, lge moyen dans le groupe de traitement doit tre le mme que lge moyen
dans le groupe de comparaison. En deuxime lieu, les deux groupes doivent ragir
de la mme manire au programme. Par exemple, le revenu des units du groupe de
traitement doit potentiellement augmenter la suite dun programme de formation
dans la mme mesure que celui des units du groupe de comparaison si celles-ci
avaient aussi reu le programme. En troisime lieu, les groupes de traitement et de
comparaison ne doivent pas tre exposs de manire diffrencie dautres interventions au cours de la priode dvaluation. Par exemple, si nous voulons valuer
limpact de loctroi supplmentaire dargent de poche sur la consommation de bonbons, le groupe de traitement ne doit pas avoir t invit se rendre au magasin de
bonbons plus de fois que le groupe de comparaison, car il deviendrait alors difficile
de distinguer les effets de laccs accru aux bonbons des effets de laugmentation du
montant dargent de poche.
Quand ces trois conditions sont runies, seul le programme peut expliquer les
diffrences de rsultat(Y) entre les deux groupes aprs sa mise en uvre. Ceci est
d au fait que la seule diffrence entre le groupe de traitement et le groupe de comparaison est que les membres du groupe de traitement bncient du programme,
mais pas les membres du groupe de comparaison. Quand les diffrences de rsultat
peuvent tre totalement attribues au programme, leffet causal du programme est
tabli. Ainsi, au lieu de sintresser uniquement limpact de loctroi supplmentaire dargent de poche Fulanito, il est possible danalyser limpact pour tout un
groupe denfants (gure 3.2). Si vous pouvez identier un autre groupe denfants
totalement similaire, la seule diffrence quils ne recevront pas dargent de poche
supplmentaire, votre estimation de limpact du programme sera alors la diffrence de consommation moyenne de bonbons entre les deux groupes. Par exemple,
si la consommation moyenne du groupe de traitement est de sixbonbons par enfant
et celle du groupe de comparaison de quatrebonbons, limpact moyen de loctroi
dargent de poche supplmentaire sur la consommation de bonbons est de deux.
Maintenant que nous avons dni ce quest un groupe de comparaison valide,
considrons les implications de mener une valuation sans un tel groupe. Intuitivement, un groupe de comparaison non valide est un groupe qui diffre du groupe
de traitement autrement que par la seule absence du traitement ltude. Ces
autres diffrences peuvent rendre lestimation dimpact invalide ou, en termes statistiques, biaise. En effet, en prsence dautres diffrences entre les groupes de
traitement et de comparaison, lestimation ne permettra pas de dterminer
limpact rel du programme, car elle confondra leffet du programme avec les effets
des autres diffrences.

Lvaluation dimpact en pratique

Figure 3.2 Un groupe de comparaison valide


Groupe de
traitement

Groupe de
comparaison

Moyenne Y = 6 bonbons

Moyenne Y = 4 bonbons

Impact = 6 - 4 = 2 bonbons

Deux types destimation dimpact


Aprs avoir estim limpact du programme, lvaluateur doit interprter les rsultats
correctement. Une valuation consiste toujours estimer limpact dun programme
en comparant les rsultats obtenus par le groupe de traitement avec les estimations
du contrefactuel obtenues dun groupe de comparaison valide, comme indiqu par
la formule de base dvaluation dimpact. Linterprtation de limpact du programme
peut varier en fonction de ce que le traitement et le contrefactuel reprsentent
rellement.
Limpact estim sappelle lestimation de lintention de traiter (IDT) lorsque
la formule de base est applique aux units auxquelles le programme a t offert,
quelles y participent effectivement ou non. LIntention de traiter (IDT) est importante dans les cas o nous essayons de dterminer limpact moyen dun programme
sur la population cible par le programme. Par contre, limpact estim est appel
effet du traitement sur les traits (TT) lorsque la formule de base de lvaluation
dimpact est applique aux units auxquelles le programme a t propos et qui y ont
effectivement particip. Les estimateurs IDT et TT seront identiques en cas dadhrence totale, cest--dire si toutes les units auxquelles le programme a t propos
dcident dy participer. Nous reviendrons en dtail sur la diffrence entre lIDT et le
TT mais nous pouvons dores et dj commencer par un exemple.
Reprenons lexemple du programme de subvention de lassurance maladie
(PSAM) voqu en introduction de la partie2 et au titre duquel chaque mnage du
village bnciant du programme (village trait) peut sinscrire pour recevoir un
subside pour lassurance maladie. Mme si tous les mnages des villages traits sont

Infrence causale et contrefactuel

39

ligibles au programme, une partie dentre eux (disons 10%) peuvent dcider de ne
pas y participer (peut-tre parce quils ont dj une assurance par le biais de leur
travail, parce quils sont en bonne sant et ne pensent pas quils auront besoin de
soins lavenir ou pour toute autre raison). Dans cet exemple, 90% des mnages des
villages traits dcident de participer au programme et ont effectivement recours
aux services du programme. Dans ce cas, lestimateur IDT est obtenu en appliquant
la formule de base dvaluation dimpact lensemble des mnages auxquels le
programme a t propos, autrement dit tous les mnages des villages traits.
En revanche, lestimation TT serait obtenue en appliquant la formule de base dvaluation dimpact pour le sous-groupe des mnages qui dcident de participer au programme, en loccurrence 90% des mnages traits.

Deux contrefactuels contrefaits


Dans la suite de la partie2 du manuel, nous passerons en revue diverses mthodes
qui peuvent tre utilises pour crer un groupe de comparaison valide an destimer le contrefactuel. Auparavant, il est toutefois indispensable dvoquer deux
mthodes courantes, mais trs risques, de former des groupes de comparaison.
Ces deux mthodes conduisent souvent une estimation inapproprie du contrefactuel. Ces deux contrefactuels contrefaits sont 1)la comparaison avant-aprs,
ou pr-post, qui compare les rsultats pour le groupe de participants au programme avant et aprs la mise en uvre du programme, et 2) la comparaison
avec-sans, qui compare des units ayant choisi de participer au programme avec
des units ayant choisi de ne pas y participer.
Contrefactuel contrefait 1 : comparaison avant-aprs
Une comparaison avant-aprs consiste dterminer limpact dun programme en
examinant lvolution des rsultats pour les participants au programme au l du
temps. Pour revenir notre formule de base, le rsultat pour le groupe de traitement
(Y | P = 1) est alors tout simplement le rsultat aprs lintervention, alors que le
contrefactuel (Y | P = 0) est estim partir du rsultat avant lintervention. Essentiellement, la comparaison repose sur lhypothse que si le programme navait pas
exist, le rsultat (Y) pour les participants au programme aurait t exactement le
mme quavant leur participation au programme. Malheureusement, dans la grande
majorit des cas, cette hypothse nest pas valable.
Prenons lexemple dun programme de micronance destin aux agriculteurs
pauvres en milieu rural. Ce programme propose des microcrdits aux agriculteurs
pour leur permettre dacheter des engrais an daccrotre leur production de riz.

40

Lvaluation dimpact en pratique

On sait que lanne prcdant le lancement du programme, la production moyenne


de riz tait de 1 000kg par hectare. Le programme de micronance est lanc et lanne suivante les rendements passent 1 100 kg par hectare. Si nous cherchons
mesurer limpact du programme en nous fondant sur une comparaison avant-aprs,
cest le rsultat avant intervention qui constituera le contrefactuel. En appliquant
la formule de base, nous conclurions que le programme a permis une augmentation
des rendements rizicoles de 100kg par hectare.
Toutefois, imaginons que les prcipitations taient normales lanne prcdant le
lancement du programme, mais quune scheresse a lieu lanne o le programme
dbute. Dans ce cas, nous ne pouvons pas considrer le rsultat avant lintervention
comme un contrefactuel able. La gure3.3 en dcrit les raisons. Puisque les agriculteurs ont bnci du programme lors dune anne de la scheresse, leur rendement
moyen aurait t infrieur sans le programme de micronance, par exemple au
niveau D et non au niveau B comme le laisserait croire la comparaison avant-aprs.
Dans ce cas, limpact rel du programme est suprieur 100kg. linverse, si les
conditions climatiques avaient t meilleures, le rendement contrefactuel aurait pu
tre au niveau C. Limpact rel du programme aurait alors t infrieur 100 kg.

Figure 3.3 Estimations avant et aprs dun programme de microfinance

Rendement rizicole (en kg/ha)

1,100

Diffrence observe
Contrefactuel C

Contrefactuel B

1,000

C?

= 100

Contrefactuel D
D?
Anne
T=0
(2007)

Infrence causale et contrefactuel

T=1
(2009)

41

Autrement dit, moins de pouvoir contrler statistiquement pour le climat et tous


les autres facteurs pouvant inuencer les rendements rizicoles, il nest pas possible
de dterminer avec certitude limpact rel du programme en faisant une comparaison avant-aprs.
Mme si les comparaisons avant-aprs sont rarement valides pour raliser une
valuation dimpact, elles restent utiles dautres ns. Les bases de donnes administratives de nombreux programmes enregistrent des informations sur les participants au l du temps. Par exemple, un systme de gestion de linformation dans
le secteur ducatif peut collecter rgulirement des informations sur les taux de
scolarisation dans les coles o un programme de distribution de repas est en
uvre. Ces donnes permettent aux gestionnaires de programme de constater si le
nombre denfants scolariss augmente dans le temps. Ces informations sont
importantes et tout fait pertinentes pour les gestionnaires soccupant de la planication et du suivi du secteur ducatif. Toutefois, conclure que le programme de
distribution de repas dans les coles est la cause du changement observ du taux de
scolarisation serait risqu, car dautres facteurs peuvent avoir affect ce taux. Par
consquent, mme sil est trs utile de suivre les changements dindicateurs de
rsultat dans le temps pour un groupe de participants un programme, il est gnralement impossible de conclure en toute certitude que cest effectivement le programme qui est la cause de lamlioration observe (ni dans quelle mesure le
programme y contribue) en prsence dautres facteurs variables dans le temps susceptibles davoir aussi inuenc le rsultat.
Comme nous lavons vu avec lexemple du programme de micronance et des
rendements rizicoles, les rendements peuvent tre affects par de nombreux facteurs variables dans le temps. De la mme manire, une multitude de facteurs peuvent affecter les rsultats que les programmes de dveloppement visent amliorer.
Pour cette raison, le rsultat avant la mise en uvre dun programme ne constitue
pratiquement jamais une bonne estimation du contrefactuel. Nous qualions donc
la comparaison avant-aprs de contrefactuel contrefait .
valuation avant-aprs du Programme de subvention
de lassurance maladie (PSAM)
Pour mmoire, le PSAM est un nouveau programme de subvention de lassurance
maladie pour les mnages ruraux pauvres. Cette assurance couvre les dpenses
relatives aux soins de sant primaires et lachat de mdicaments. Lobjectif du
PSAM est de rduire le cot des soins de sant la charge directe des mnages
pauvres et, en dnitive, damliorer les indicateurs de sant des bnciaires.
De nombreux indicateurs de rsultat peuvent tre retenus pour valuer limpact
du programme, mais en loccurrence les autorits veulent surtout connatre les
effets du PSAM sur les dpenses en soins primaires et en mdicaments des familles
pauvres, plus prcisment sur les dpenses annuelles directes par personne
(dsignes ci-aprs par dpenses de sant).

42

Lvaluation dimpact en pratique

Le PSAM reprsentera une part consquente du budget national sil est largi
lensemble du pays ( jusqu 1,5% du PIB selon certaines estimations). De plus, la
gestion dun programme de cette nature est trs complexe sur le plan administratif
et logistique. Il a donc t dcid au plus haut niveau de ltat de lancer le PSAM tout
dabord sous la forme dun programme pilote et de llargir progressivement en fonction des rsultats obtenus lors de la premire phase. partir des rsultats des analyses nancires et cot-bnce, la prsidente et les membres de son cabinet ont
annonc que pour tre considr comme viable et tre tendu tout le pays, le PSAM
devait rduire les dpenses de sant annuelles moyennes par habitant dau moins
neuf dollars par rapport ce quelles auraient t en labsence du programme, et ce
dans un dlai de deux ans.
Le PSAM sera mis en uvre dans 100 localits rurales au cours de la phase pilote.
Juste avant le lancement du programme, votre gouvernement engage une socit
pour mener une enqute de rfrence des 4959mnages que comptent ces villages.
Lenqute collecte des informations dtailles sur tous les mnages, y compris sur
leur composition, leurs actifs, laccs aux services de sant et les dpenses de sant
au cours de lanne coule. Peu aprs la conduite de cette enqute de rfrence, le
PSAM est lanc en fanfare dans 100 villages pilotes, accompagns dvnements
communautaires et de campagnes promotionnelles pour encourager les mnages
ligibles participer.
Sur les 4959 mnages de lchantillon de rfrence, 2907 sinscrivent au PSAM
au cours des deux premires annes du programme. En deux ans, le PSAM donne de
bons rsultats selon plusieurs indicateurs. Les taux de couverture sont levs et les
enqutes montrent que la plupart des mnages inscrits sont satisfaits du programme.
lissue de la priode de deux ans, une seconde ronde de donnes est collecte des
ns dvaluation auprs de lchantillon des 4 959 mnages1.
La prsidente et le ministre de la Sant vous chargent de superviser lvaluation
dimpact du PSAM et de formuler des recommandations quant lopportunit de
ltendre ou non lensemble du pays. Dans le cas prsent, vous devez rpondre la
question suivante: de combien le PSAM a-t-il rduit les dpenses de sant des mnages
ruraux pauvres? Les enjeux sont importants. Sil savre que le PSAM a permis de
rduire les dpenses de sant dau moins neuf dollars, il sera largi tout le pays.
Si, en revanche, lobjectif des neufdollars na pas t atteint, vous recommanderez de
ne pas tendre le programme.
Le premier expert en valuation que vous consultez soutient que pour estimer
limpact du PSAM, il faut dterminer le changement dans les dpenses de sant des
mnages inscrits au programme travers le temps. Selon le consultant, puisque le
PSAM couvre lensemble des dpenses de soins de sant primaires et des achats de
mdicaments, toute baisse des dpenses dans le temps peut tre attribue, pour lessentiel, au PSAM. En vous fondant uniquement sur le sous-groupe des mnages inscrits, vous estimez les dpenses moyennes de sant lors de lenqute de rfrence
puis deux ans aprs la mise en uvre du programme. Autrement dit, vous procdez
une valuation avant-aprs. Le tableau3.1 en prsente les rsultats.

Infrence causale et contrefactuel

43

Tableau 3.1 Cas 1Impact du PSAM selon la mthode avant-aprs


(comparaison de moyennes)

Dpenses de sant des mnages

Aprs

Avant

Diffrence

Stat. t

7,8

14,4

6,6

28,9

Vous remarquez que les mnages inscrits au PSAM voient leurs dpenses directes
de sant passer de 14,4 dollars avant lintroduction du PSAM 7,8 dollars deux
annes plus tard, soit une baisse de 6,6dollars (ou 45%) sur la priode. Comme le
montre la valeur de la statistique t, la diffrence entre les dpenses de sant avant et
aprs la mise en uvre du programme est statistiquement signicative, autrement dit
la probabilit que limpact estim soit statistiquement nul est trs faible.
Mme si la comparaison avant-aprs porte sur le mme groupe de mnages, vous
craignez que certains facteurs aient pu voluer au cours du temps et exercer un
impact sur les dpenses de sant. Par exemple, plusieurs interventions dans le
domaine de la sant ont eu lieu simultanment dans les villages concerns par le
programme pilote. Par ailleurs, il est possible que les dpenses des mnages aient t
affectes par la crise nancire qua rcemment connue le pays. Face ces craintes,
le consultant propose une analyse de rgression plus sophistique cense permettre
de tenir compte de tous ces facteurs externes. Les rsultats de cette analyse sont
prsents dans le tableau3.2.
La rgression linaire analyse comment les dpenses de sant varient selon une
variable binaire (0-1) pour laquelle le 0 correspond lobservation au moment de
lenqute de rfrence et le 1 lobservation au moment de lenqute de suivi.
La rgression linaire multivarie permet en plus de contrler pour ou de maintenir
constantes dautres caractristiques observes des mnages de lchantillon, par
exemple des indicateurs de fortune (actifs), la composition des mnages, etc. Vous
notez que la rgression linaire simple est quivalente la simple diffrence
avant-aprs constate pour les dpenses de sant (une rduction de 6,59 dollars).
En contrlant pour les autres facteurs dans vos donnes, vous obtenez un rsultat
semblable, savoir une baisse de 6,65dollars.

Tableau 3.2 Cas 1Impact du PSAM selon la mthode avant-aprs


(analyse de rgression)
Rgression linaire Rgression linaire multivarie
Impact estim sur
les dpenses de sant
des mnages

6,59**
(0,22)

6,65**
(0,22)

Remarque : erreurs-types entre parenthses.


** Seuil de signification de 1 %.

44

Lvaluation dimpact en pratique

QUESTION 1

A. Au vu des rsultats pour le cas 1, le PSAM doit-il tre largi lchelle nationale ?
B. Cette analyse tient-elle compte de tous les facteurs qui peuvent influencer les
dpenses de sant au fil du temps ?

Contrefactuel contrefait 2 : comparaison entre participants et non participants


La comparaison entre des units bnciaires du programme et des units nen
bnciant pas (avec-sans) constitue un autre contrefactuel contrefait. Prenons
lexemple dun programme de formation professionnelle destin des jeunes sans
emploi. Imaginons que deux ans aprs le lancement du programme, une valuation
tente destimer limpact du programme sur les revenus en comparant les revenus
moyens dun groupe de jeunes ayant particip au programme aux revenus de ceux
qui ny ont pas particip. Supposons que les jeunes ayant particip au programme
aient un revenu deux fois suprieur celui des jeunes nayant pas particip.
Comment ces rsultats doivent-ils tre interprts? Dans ce cas, lestimation du
contrefactuel provient des revenus des personnes ayant dcid de ne pas participer
au programme. Cependant, les deux groupes de jeunes ont de fortes chances de prsenter des diffrences fondamentales. Ceux qui ont dcid dintgrer le programme
sont peut-tre motivs par la perspective damliorer leurs conditions de vie et esprent peut-tre beaucoup bncier de la formation. linverse, ceux qui ont prfr
ne pas participer au programme sont peut-tre des personnes dcourages qui nattendent rien de ce genre de programme. Il est probable que ces deux groupes de
jeunes nauraient pas le mme parcours professionnel et que leurs revenus seraient
diffrents mme si le programme de formation professionnelle navait pas exist.
Le groupe ayant dcid de ne pas participer au programme ne permet donc pas
dobtenir un contrefactuel convaincant. Si une diffrence de revenus est observe
entre les deux groupes, il sera impossible de lattribuer la formation professionnelle, une diffrence de motivation ou une quelconque autre diffrence entre les
deux groupes. Le fait que les individus les moins motivs prfrent ne pas participer
au programme de formation introduit donc un biais dans lestimation de limpact du
programme2. Ce biais est appel biais de slection. Dans cet exemple, si les jeunes
gens ayant particip au programme avaient des revenus suprieurs mme en labsence du programme, le biais de slection serait positif; autrement dit, nous aurions
surestim limpact du programme de formation professionnelle sur les revenus en
comparant simplement les bnciaires aux non-bnciaires.

Concept cl :
Un biais de slection
apparait lorsque les
raisons pour lesquelles
une personne participe
un programme sont
corrles aux rsultats.
Ce biais se produit
gnralement lorsque
le groupe de
comparaison nest pas
ligible au programme
ou dcide de ne pas
y participer.

Comparaison entre participants et non participants au Programme


de subvention de lassurance maladie (PSAM)
Suite la rexion suscite par la comparaison avant-aprs au sein de votre quipe
dvaluation, vous tes conscients que de nombreux facteurs variables dans le temps
restent susceptibles dexpliquer la baisse des dpenses de sant (en particulier,
le ministre des Finances craint que la rcente crise nancire ait jou un rle dans

Infrence causale et contrefactuel

45

les dpenses de sant des mnages, facteur qui pourrait expliquer les changements
observs). Un autre consultant suggre quil serait plus appropri destimer le
contrefactuel partir de lenqute ralise aprs lintervention, cest--dire deux ans
aprs le lancement du programme. Le consultant fait remarquer, juste titre, que sur
les 4959 mnages de lchantillon de rfrence, seuls 2907 ont effectivement particip au programme. Autrement dit, environ 41% des mnages de lchantillon nont
pas t couverts par le PSAM. Il avance en outre que les mnages dune mme localit sont exposs la mme offre de soins et confronts aux mmes conditions conomiques. Selon lui, les rsultats mesurs aprs lintervention auprs du groupe non
inscrits au PSAM permettraient donc de tenir compte de nombreux facteurs contextuels qui touchent tous les mnages, quils soient ou non inscrits au programme.
Vous dcidez donc de calculer les dpenses de sant moyennes aprs lintervention pour, dune part, les mnages ayant particip au programme et, dautre
part, ceux qui ny ont pas particip. Les observations recueillies sont prsentes
dans le tableau3.3.
En vous fondant sur les dpenses de sant moyennes des mnages non inscrits
pour laborer le contrefactuel, vous aboutissez la conclusion que le programme
a permis de rduire les dpenses de sant moyennes denviron 14dollars. En discutant de ce rsultat avec le consultant, vous soulevez la question de savoir si les
mnages ayant choisi de ne pas participer au programme peuvent diffrer systmatiquement de ceux qui ont choisi dy participer. Par exemple, il est possible que
les mnages ayant intgr le PSAM sattendaient une hausse de leurs dpenses de
sant ou soient mieux informs sur le programme, ou encore quil sagisse de personnes davantage proccupes par la sant de leur famille. Il pourrait aussi sagir
de mnages plus pauvres en moyenne que ceux qui nont pas particip au PSAM,
qui visait les mnages pauvres. Votre consultant affirme quune analyse de rgression permet de prendre en compte les ventuelles diffrences entre les deux
groupes. En tenant compte de toutes les caractristiques de lensemble des
mnages pour lesquels des donnes ont t recueillies, le consultant aboutit aux
rsultats prsents dans le tableau3.4.

Tableau 3.3 Cas 2Impact du PSAM selon la mthode avec-sans


(comparaison de moyennes)
Participants
Dpenses de sant des mnages

46

7,8

Non
Diffrence
Participants
21,8

13,9

Stat.
de t
39,5

Impact Evaluation in Practice

Tableau 3.4 Cas 2Impact du PSAM selon la mthode avec-sans


(analyse de rgression)
Rgression linaire Rgression linaire multivarie
Impact estim sur
les dpenses de sant
des mnages

13,9**
(0,35)

9,4**
(0,32)

Remarque : erreurs-types entre parenthses.


** Seuil de signification de 1 %.

Avec une rgression linaire simple des dpenses de sant sur un indicateur binaire
(participation ou non dun mnage au programme), vous obtenez un impact estim
de13,90dollars, autrement dit, vous estimez que le programme a diminu les dpenses
de sant moyenne de 13,90 dollars. En revanche, si lon tient compte de toutes les
autres caractristiques de la population de lchantillon, la rduction des dpenses de
sant des mnages ayant particip au programme slve 9,40 dollars par an.

QUESTION 2

A. Au vu de ces rsultats pour le cas 2, le PSAM doit-il tre largi lchelle nationale ?
B. Peut-on considrer que cette analyse tient compte de tous les facteurs susceptibles dengendrer des diffrences entre les dpenses de sant des deux groupes ?

Notes
1. Nous supposons ici une attrition nulle de lchantillon entre les deux enqutes,
autrement dit aucun mnage ne quitte lchantillon. Cette hypothse nest pas
raliste pour la plupart des enqutes sur les mnages. Dans les faits, les familles
qui dmnagent ne peuvent parfois pas tre suivies et certains mnages se
dissolvent. Le chapitre12 discute des problmes dattrition en plus de dtails.
2. Pour donner un autre exemple, si les jeunes qui pensent tirer davantage prot
du programme de formation sont plus enclins participer la formation (par
exemple parce quils pensent que celle-ci leur permettra dobtenir des salaires
plus levs), nous comparerions alors un groupe dindividus qui anticipent un
revenu plus lev avec un groupe dindividus qui nanticipaient pas un revenu
plus lev.

Infrence causale et contrefactuel

47

CHAPITRE4

Mthodes de slection alatoire


Le chapitre prcdent a pass en revue deux approches (la comparaison avant-aprs
et la comparaison avec-sans) communment utilises pour llaboration de contrefactuels, mais prsentant de forts risques de biais. Nous allons maintenant aborder
une srie de mthodes qui permettent dvaluer limpact dun programme de manire
plus able. Comme nous le verrons, lexercice nest pas aussi simple quil y parat. La
plupart des programmes sont conus et mis en uvre dans un environnement complexe et voluant dans lequel de nombreux facteurs peuvent inuencer les rsultats
tant pour les participants au programme que pour les non participants. Les scheresses, les tremblements de terre, les transitions de gouvernement, les changements
des politiques locales et internationales sont autant dlments inhrents au monde
dans lequel nous vivons ; en tant quvaluateurs, nous voulons nous assurer que lvaluation de limpact dun programme soit valide malgr ces nombreux facteurs.
Comme nous le verrons dans cette partie du manuel, les rgles de slection des
bnciaires dun programme constituent le paramtre clef pour choisir une mthode
dvaluation dimpact. Nous pensons que dans la plupart des cas, les mthodes dvaluation doivent tre adaptes aux rgles oprationnelles dun programme (avec
quelques ajustements ici et l) et non le contraire. Toutefois, nous partons aussi de la
prmisse que tous les programmes sociaux doivent comprendre des rgles de slection
des bnciaires justes et transparentes. Lune des rgles les plus justes et les plus
transparentes pour allouer des ressources limites parmi des populations dans le
mme besoin consiste donner toute personne ligible une chance gale de bncier du programme. cet effet, une manire de faire consiste procder un tirage
au sort. Dans ce chapitre, nous allons examiner plusieurs mthodes de slection alatoire; celles-ci consistent effectuer des tirages au sort pour dsigner lesquelles des

49

units galement ligibles participeront un programme et lesquelles ny participeront pas. Ces mthodes de slection alatoire permettent non seulement aux gestionnaires de programme de disposer de rgles justes et transparentes pour distribuer des
ressources limites parmi des populations dans le mme besoin, mais constituent aussi
les mthodes les plus solides pour valuer limpact dun programme.
Les mthodes de slection alatoire peuvent souvent dcouler des rgles oprationnelles dun programme. Dans de nombreux programmes, la population des participants viss, cest--dire le groupe de toutes les units que le programme voudrait
atteindre, est plus grande que le nombre de participants que le programme peut servir un moment donn. Par exemple, en une anne, un programme dducation peut
fournir du matriel scolaire et un curriculum amlior 500coles sur les milliers
dcoles ligibles que compte un pays. Autre exemple, un programme demploi pour
les jeunes peut avoir pour objectif de toucher 2000 jeunes chmeurs durant sa premire anne dopration, mme sil y a des dizaines de milliers de jeunes chmeurs
dans le pays que le programme viserait ultimement incorporer. Il y a de multiples
raisons quifont que les programmes peuvent tre dans lincapacit de servir lensemble de leur population cible. Des contraintes budgtaires peuvent empcher le
programme de couvrir lensemble des units ligibles ds son lancement. Mme si
les budgets sont suffisants pour servir un nombre illimit de participants, les capacits peuvent manquer pour que le programme incorpore lensemble de la population
cible au mme moment. Dans lexemple du programme de formation professionnelle destin aux jeunes, le nombre de jeunes chmeurs dsirant intgrer une formation peut tre suprieur au nombre de places disponibles dans les coles techniques
durant la premire anne de mise en uvre du programme, ce qui limite le nombre
de jeunes qui peuvent participer au programme.
Dans la ralit, la plupart des programmes sont tributaires de contraintes budgtaires ou oprationnelles qui les empchent datteindre toute la population cible au
mme moment. Dans le cas o le nombre de personnes ligibles au programme est
suprieur au nombre de places offertes, les gestionnaires doivent dnir un mcanisme dallocation des bnces du programme. Autrement dit, quelquun doit dcider qui pourra participer au programme et qui ne pourra pas y participer. Les
bnces peuvent tre allous selon la rgle du premier arriv, premier servi ou
sur la base de certaines caractristiques observes (par exemple les femmes et les
enfants dabord, ou encore les localits les plus pauvres dabord); la slection peut
aussi seffectuer selon des caractristiques non observes (par exemple laisser les
personnes intgrer le programme en fonction de leur motivation ou de leurs connaissances) ou mme par tirage au sort.

Assignation alatoire du traitement


Lorsquun programme est distribu de manire alatoire parmi une population ligible nombreuse, il est possible de gnrer un contrefactuel solide considr comme
ltalon-or en matire dvaluation dimpact. Lassignation alatoire du traitement

50

Lvaluation dimpact en pratique

repose, pour lessentiel, sur lutilisation dun tirage au sort pour dsigner les bnciaires du programme1 parmi une population dunits tout aussi ligibles les unes que
les autres. La probabilit dtre slectionne est alors la mme pour toutes les units
ligibles (une personne, un mnage, une communaut, une cole, un hpital, etc.)2.
Avant dvoquer lapplication pratique de lassignation alatoire et les raisons
pour lesquelles cette mthode permet dobtenir un contrefactuel solide, examinons
pourquoi lassignation alatoire est considre comme un moyen juste et transparent dallouer des ressources limites. Une fois quune population cible a t dnie
(par exemple, les mnages vivant au-dessous du seuil de pauvret, les enfants de
moins de cinq ans ou encore les coles situes en milieu rural), lassignation alatoire
peut tre considre comme une rgle juste, car elle assure au gestionnaire de programme que toute personne ou unit ligible possde la mme chance de participer
au programme et quaucun critre arbitraire ou subjectif, ni aucun favoritisme ou
autre pratique inquitable ninterviennent. Quand la demande est suprieure
loffre, lassignation alatoire est une rgle facilement justiable par les gestionnaires
de programme et facilement comprise par les principales parties prenantes. Lorsque
la slection des bnciaires seffectue selon un processus transparent et vriable,
la rgle de lassignation alatoire ne peut pas tre aisment manipule; elle protge
donc les gestionnaires de programme dventuelles accusations de favoritisme ou de
corruption. Lassignation alatoire prsente en ce sens des avantages au-del de sa
seule utilit pour lvaluation dimpact. De nombreux programmes ont dailleurs
recours des tirages au sort an de slectionner des participants partir dun groupe
dindividus ligibles, et ce en raison des avantages de cette technique pour la gestion
et la gouvernance des programmes3.
Pourquoi lassignation alatoire produit-elle une excellente estimation
du contrefactuel ?
Comme nous lavons soulign ci-dessus, un groupe de comparaison idal est en tout
point similaire au groupe de traitement la seule diffrence quil ne participe pas au
programme valuer. La slection alatoire des units qui bncieront du traitement et de celles qui feront partie des groupes de comparaison gnre deux groupes
ayant une forte probabilit dtre statistiquement identiques, pour autant que le
nombre dunits auxquelles est appliqu le processus dassignation alatoire soit
assez important. Plus prcisment, avec un nombre suffisamment important
dobservations, le processus dassignation alatoire permet de constituer des groupes
dont toutes les caractristiques moyennes sont statistiquement quivalentes. leur
tour, ces moyennes tendent vers la moyenne de la population dont elles sont issues4.

Mthodes de slection alatoire

51

La gure4.1 illustre pourquoi lassignation alatoire fournit un groupe de comparaison statistiquement quivalent au groupe de traitement. Supposons que la population des units ligibles (participants potentiels) comprenne 1000personnes dont
la moiti a t slectionne de manire alatoire pour faire partie du groupe de traitement, lautre moiti constituant le groupe de comparaison. Par exemple, imaginons crire les noms des 1000personnes sur de petits bouts de papier, les mettre
dans une urne et tirer au sort 500noms. Sil a t dcid que les 500 premiers noms
tirs au sort feront partie du groupe de traitement, nous obtiendrons alors un groupe
de traitement (les 500 premiers noms tirs) et un groupe de comparaison (les
500 noms restant dans lurne), tous deux constitus de manire alatoire.
Imaginons maintenant que sur les 1 000 personnes, 40 % soient des femmes.
Comme les noms ont t slectionns au hasard, environ 40% des 500 noms tirs de
lurne seront aussi des femmes. Si 20% des 1000 personnes ont des yeux bleus, la
proportion dyeux bleus sera peu prs la mme dans le groupe de traitement et
dans le groupe de comparaison. En gnral, si la population des units ligibles est
suffisamment nombreuse, les caractristiques de la population se transmettront au
groupe de traitement et au groupe de comparaison. Si des caractristiques observables comme le genre ou la couleur des yeux se transmettent aux deux groupes, il
semble logique de considrer que des caractristiques plus difficiles observer (des
variables non observes) comme la motivation, les prfrences ou les traits de personnalit, se transmettront aussi de manire quivalente de la population au groupe
de comparaison et au groupe de traitement. Le groupe de traitement et le groupe de
comparaison constitus par assignation alatoire seront donc similaires la population de rfrence non seulement sur le plan des caractristiques observes, mais
aussi des caractristiques non observes. Par exemple, il est difficile dobserver ou de
mesurer lamabilit, mais si lon sait que les personnes aimables reprsentent
20 % de la population des units ligibles, le groupe de traitement et le groupe

Figure 4.1 Caractristiques des groupes constitus par


assignation alatoire du traitement

Population des units ligibles

52

La slection alatoire
prserve les caractristiques

La slection alatoire
prserve les caractristiques

Groupe de traitement :

Groupe de comparaison :

affect au traitement

non affect au traitement

Lvaluation dimpact en pratique

de comparaison comprendront la mme proportion de personnes dotes de cette


caractristique. Lassignation alatoire permet de garantir que le groupe de traitement et le groupe de comparaison seront en moyenne en tout point similaire tant au
niveau des caractristiques observes et non observes.
Dans le cadre dune valuation dimpact, lutilisation de lassignation alatoire
pour dnir le groupe de traitement et le groupe de comparaison garantit en thorie
que les groupes sont quivalents. La collecte de donnes de base pour un chantillon
dvaluation permet de vrier empiriquement cette hypothse, en sassurant quil
nexiste pas de diffrence systmatique entre les caractristiques observes des
groupes de traitement et de comparaison avant que le programme ne dbute. Dans
ce cas, comme les deux groupes sont identiques au dpart et sont exposs aux mmes
facteurs contextuels externes au cours du temps, toute diffrence observe entre les
rsultats des deux groupes aprs le lancement du programme peut tre attribue au
programme. En dautres termes, le groupe de comparaison permet de contrler pour
tous les autres facteurs qui peuvent potentiellement expliquer le rsultat. Nous pouvons alors tre srs que lestimation de limpact moyen obtenu par la diffrence entre
le rsultat observ dans le groupe de traitement (la moyenne des rsultats pour le
groupe de traitement constitu par assignation alatoire) et lestimation du contrefactuel (la moyenne des rsultats pour le groupe de comparaison galement constitu par assignation alatoire) reprsente le vritable impact du programme. En effet,
le processus de formation des groupes permet dcarter tous les autres facteurs,
observs ou non, qui auraient pu constituer une explication plausible de la diffrence des rsultats entre les deux groupes.
La gure4.1 suppose que toutes les units de la population ligible sont rparties
soit dans le groupe de traitement, soit dans le groupe de comparaison. Dans certains
cas, il nest pas ncessaire dinclure toutes les units de la population ligible dans le
travail dvaluation. Par exemple, si la population des units ligibles est constitue
dun million de mres et que nous cherchons valuer lefficacit de transferts
montaires sur la probabilit que ces mres fassent vacciner leurs enfants, il peut
tre suffisant de rpartir un chantillon reprsentatif, par exemple de 1 000 personnes, entre le groupe de traitement et le groupe de comparaison. La gure 4.2
illustre ce processus. Par la mme logique que ci-dessus, la slection dun chantillon alatoire partir de la population des units ligibles permet de prserver les
caractristiques de la population dans lchantillon. La slection alatoire des
groupes de traitement et de comparaison partir de lchantillon prservera son
tour les caractristiques de la population dans chaque groupe.

Mthodes de slection alatoire

53

Figure 4.2 chantillonnage alatoire et assignation alatoire du traitement

Population dunits ligibles


La slection alatoire
prserve les caractristiques

Validit
externe

chantillon dvaluation
La slection alatoire
prserve les caractristiques

La slection alatoire
prserve les caractristiques

Groupe de traitement :

Groupe de comparaison :

affect au traitement

non affect au traitement

Validit
interne

Validit interne et validit externe


Concept cl :
Une valuation
possde une validit
interne si elle est
fonde sur un groupe
de comparaison valide.

Concept cl :
Une valuation
possde une validit
externe si lchantillon
dvaluation est
reprsentatif de la
population des units
ligibles. Les rsultats
obtenus pour
lchantillon peuvent
alors tre gnraliss
lensemble de
la population des
units ligibles.

54

Les tapes dcrites ci-dessus pour lassignation alatoire du traitement permettent


de garantir la validit tant interne quexterne de lvaluation dimpact (gure4.2)
pour autant que lchantillon dvaluation soit de taille suffisante.
La validit interne signie que limpact estim ne peut pas tre inuenc par des
facteurs autres que le programme, autrement dit, que le groupe de comparaison
constitue un contrefactuel valable permettant destimer limpact rel du programme.
Pour rappel, lassignation alatoire permet de former un groupe de comparaison statistiquement quivalent au groupe de traitement avant que le programme ne dbute.
Aprs le lancement du programme, le groupe de comparaison est soumis aux mmes
facteurs externes que le groupe de traitement la seule diffrence quil nest pas
expos au programme. Ds lors, si des diffrences apparaissent entre le groupe de
comparaison et le groupe de traitement, elles ne peuvent tre attribues quau programme. Autrement dit, la validit interne dune valuation dimpact est assure par
le processus dassignation alatoire du traitement.
La validit externe signie que limpact estim pour lchantillon dvaluation
peut tre gnralis toute la population des units ligibles. Pour que cela soit possible, il faut que lchantillon dvaluation soit reprsentatif de la population des units ligibles; dans les faits, cela suppose que lchantillon soit constitu partir de la
population en utilisant une mthode dchantillonnage alatoire5.
Nous avons voqu deux types de slection alatoire : la premire des ns
dchantillonnage (pour la validit externe) et la seconde en tant que mthode dvaluation dimpact (pour la validit interne). Une valuation dimpact peut produire
des estimations ayant une solide validit interne en utilisant une assignation alatoire du traitement, mais si lvaluation est effectue sur un chantillon slectionn

Lvaluation dimpact en pratique

de manire non alatoire, limpact estim peut ne pas tre gnralis lensemble de
la population des units ligibles. De mme, si lvaluation est fonde sur un chantillon slectionn de manire alatoire, mais que le traitement nest pas distribu de
manire alatoire, lchantillon sera certes reprsentatif, mais le groupe de comparaison peut ne pas tre valide.
Quand utiliser lassignation alatoire ?
Dans la pratique, lassignation alatoire peut tre considre pour tout programme
pour lequel la demande excde loffre, cest--dire lorsque le nombre de participants
potentiels dpasse les capacits du programme un moment donn et que ce programme doit tre graduellement largi. Dans dautres cas, une assignation alatoire
se justie des ns dvaluation mme si les ressources du programme sont illimites. Par exemple, les autorits peuvent recourir lassignation alatoire pour prouver de nouveaux programmes potentiellement coteux dont les effets recherchs et
indsirables restent mconnus. Dans de telles circonstances, lassignation alatoire
peut tre utilise durant la phase dvaluation pilote pour dterminer avec prcision
les effets du programme avant de llargir une population plus importante.
Lassignation alatoire constitue une mthode dvaluation dimpact adquate
dans deux cas frquents :
1. Si le nombre dunits ligibles est suprieur au nombre de places disponibles dans le
programme. Si la demande dpasse loffre, un tirage au sort peut tre effectu
pour dnir le groupe qui bnciera du programme parmi la population ligible.
Dans ce cas, toutes les units de la population ont la mme chance dtre slectionnes. Le groupe des units tires au sort constitue le groupe de traitement et
le reste de la population, qui ne bnciera pas du programme, le groupe de comparaison. Aussi longtemps que des contraintes de ressources empchent
dtendre le programme lensemble de la population, les groupes de comparaison peuvent tre maintenus pour mesurer limpact du programme court, moyen
et long terme. Dans ces conditions, il ny a pas de dilemme thique garder indniment un groupe de comparaison puisquune partie de la population ne peut de
toute faon pas tre couverte par le programme.
Par exemple, supposons que le ministre de lducation dun pays souhaite doter
les coles publiques de bibliothques, mais que le budget mis disposition par le
ministre des Finances ne permet de couvrir quun tiers des coles. Si le ministre de lducation souhaite donner une chance gale dobtenir une bibliothque
chacune des coles publiques, il peut procder un tirage au sort au cours duquel chaque cole a une chance gale (cest--dire une chance sur trois) dtre
slectionne. Les coles tires au sort seront dotes dune nouvelle bibliothque

Mthodes de slection alatoire

55

et constitueront le groupe de traitement, et les coles restantes, cest--dire les


deux tiers des coles totales, qui nauront pas de bibliothque formeront le groupe
de comparaison. moins que des fonds supplmentaires ne soient allous au
programme de bibliothques, il restera un groupe dcoles qui ne pourront pas
tre dotes de bibliothque dans le cadre du programme et qui pourront servir de
groupe de comparaison pour estimer le contrefactuel.
2. Lorsquun programme doit tre progressivement tendu pour couvrir lensemble de
la population ligible. Quand un programme est graduellement mis en uvre,
la slection alatoire de lordre dans lequel les participants bncieront du programme donne chaque unit ligible une chance gale de recevoir le traitement
la premire phase ou une phase ultrieure du programme. Tant que le dernier groupe naura pas intgr le programme, il constituera le groupe de comparaison servant estimer le contrefactuel pour les groupes ayant dj t soumis
au traitement.
Imaginons que le ministre de la Sant souhaite former les 15000inrmires
du pays un nouveau protocole, mais quil faille trois annes pour toutes les
former. des ns dvaluation dimpact, le ministre peut slectionner de manire alatoire un premier tiers dinrmires qui suivront la formation la premire anne, un second tiers la deuxime anne et un dernier tiers la troisime
anne. Pour valuer limpact du programme de formation une anne aprs son
lancement, le groupe dinrmires ayant bnci de la formation la premire
anne constituera le groupe de traitement, et le groupe qui a t choisi alatoirement pour suivre la formation la troisime anne constituera le groupe de
comparaison puisquil naura pas encore bnci de la formation.
Comment raliser lassignation alatoire ?
Nous avons voqu la mthode de lassignation alatoire et les raisons pour lesquelles elle permet de crer un groupe de comparaison valable. Nous allons maintenant examiner les tapes respecter pour raliser lassignation alatoire dun
traitement. La gure4.3 illustre ce processus.
La premire tape consiste dnir les units ligibles au programme. Selon les
programmes, lunit peut tre une personne, un centre de sant, une cole ou
mme tout un village ou une municipalit. La population des units ligibles comprend toutes les units pour lesquelles vous cherchez dterminer limpact du
programme. Par exemple, dans le cadre dune valuation dun programme de formation des instituteurs dcoles primaires en zones rurales, les professeurs du
secondaire et ceux des coles primaires en milieu urbain ne feront pas partie de la
population des units ligibles.

56

Lvaluation dimpact en pratique

Figure 4.3

tapes de lassignation alatoire du traitement

WDSH
units ligibles

WDSH
chantillon dvaluation

WDSH
assignation alatoire
du traitement
Groupe de
c
comparaison

Groupe de
traitement

Units
inligibles

}
Validit externe

Validit interne

Units
ligibles

Une fois que la population des units ligibles est dnie, il faudra comparer la
taille du groupe avec le nombre dobservations requises pour lvaluation. Ce nombre
est dtermin par des calculs de puissance et dpend du type de questions auxquelles
vous voulez rpondre (voir chapitre11). Si la population ligible est peu nombreuse,
il peut tre ncessaire dinclure toutes les units ligibles dans lvaluation. linverse, sil y a plus dunits ligibles que ncessaire pour lvaluation, la deuxime
tape consistera slectionner un chantillon dunits partir de la population pour
laborer un chantillon dvaluation. Cette deuxime tape vise essentiellement
limiter les cots de collecte des donnes. Si les donnes fournies par les systmes de
suivi existants peuvent tre utilises pour effectuer lvaluation et que ces systmes
couvrent la population des units ligibles, la cration dun chantillon dvaluation
distinct nest pas ncessaire. Par contre, imaginons que vous devez collecter des donnes dtailles sur les connaissances pdagogiques de plusieurs dizaines de milliers
de professeurs dans toutes les coles publiques du pays. Raliser des entretiens avec
chaque professeur risque fort dtre impossible; mais un chantillon de 1000 professeurs travaillant dans 100 coles diffrentes peut tre suffisant. Si lchantillon
est reprsentatif de lensemble de la population des enseignants des coles publiques,
les rsultats de lvaluation resteront gnralisables lensemble des professeurs
et coles publiques du pays. Recueillir des donnes auprs dun chantillon de
1000 professeurs sera bien videmment moins coteux que de sentretenir avec tous
les professeurs des coles publiques du pays.

Mthodes de slection alatoire

57

Enn, la troisime tape consistera former le groupe de traitement et le groupe


de comparaison partir des units de lchantillon dvaluation. En ce sens, vous
devez tout dabord tablir une rgle de rpartition des participants sur la base de
nombres alatoires. Par exemple, pour affecter 40 des 100 units de lchantillon
dvaluation au groupe de traitement, vous pourrez tablir la rgle selon laquelle les
40 units qui ont reu les numros alatoires les plus levs constitueront le groupe
de traitement et que les autres units formeront le groupe de comparaison. Vous attribuerez donc un numro alatoire chaque unit de lchantillon dvaluation laide
dune feuille de calcul ou dun logiciel statistique spcialis (gure4.4). partir de la
rgle pralablement tablie, vous pourrez ensuite constituer un groupe de comparaison et un groupe de traitement. Il est important de convenir de la rgle avant dutiliser
le logiciel qui attribuera les nombres alatoires aux units. Dans le cas contraire, vous
pourriez tre tent de choisir la rgle en fonction des nombres alatoires observs,
ce qui invaliderait automatiquement le processus dassignation alatoire.
La logique sous-jacente au processus automatis est la mme que celle qui prvaut
lors dun tirage pile ou face ou du tirage au hasard dun nom dun chapeau: dans tous
les cas, il sagit de laisser le hasard dterminer quel groupe (groupe de traitement ou

Figure 4.4 Assignation alatoire du traitement avec utilisation


dune feuille de calcul

Calibri

11

* type the formula =RAND(). Note that the random numbers in Column C are volatile: they change everytime you do a calculation.

A19

Numro alatoire

Entre 0 et 1

Objectif

Assigner la moiti de lchantillon dvaluation au traitement

Rgle

Si le numro alatoire est suprieur 0.5 : affecter le sujet au


groupe de traitement ; sinon, affecter au groupe de comparaison

Identifiant
de lunit

Numro alatoire
final**

Assignation

Ahmed

0.0526415

0.479467635

1002

Elisa

0.0161464

0.945729597

1003

Anna

0.4945841

0.933658744

1004

Jung

0.3622553

0.383305299

1005

Tuya

0.8387493

0.102877439

1006

Nilu

0.1715420

0.228446592

1007

Roberto

0.4798531

0.444725231

1008

Priya

0.3919690

0.817004226

1009

Grace

0.8677710

0.955775449

1010

Fathia

0.1529944

0.873459852

1011

John

0.1162195

0.211028126

1012

Alex

0.7382381

0.574082414

1013

Nafula

0.7084383

0.151608805

1001

Nom

Numro alatoire*

*saisir la formule =RAND(). Remarque : les numros alatoires de la colonne C sont instables : ils changent chaque nouveau calcul que vous faites.
**copier les nombres de la colonne C et coller spcial > valeurs dans la colonne D. La colonne D affiche alors les nombres alatoires finaux.
***saisir la formule =IF(C(row number)>0.5,1,0)

58

Lvaluation dimpact en pratique

groupe de comparaison) appartient chaque unit. Quand lassignation alatoire doit


se faire en public, des mthodes plus artisanales peuvent tre utilises. Les
exemples suivants supposent que lunit de slection alatoire est une personne :
1. Si vous souhaitez placer 50% des personnes dans le groupe de traitement et 50%
des personnes dans le groupe de comparaison, vous pouvez procder un tirage
pile ou face pour chacune delles. Vous devez alors dcider pralablement si les
personnes tires pile ou celles tires face formeront le groupe de traitement.
2. Si vous voulez quun tiers de lchantillon dvaluation constitue le groupe de
traitement, vous pouvez lancer un d pour chaque personne. Vous devez toutefois dcider dune rgle dattribution au pralable. Par exemple, si le d tombe sur
le un ou sur le deux, la personne fera partie du groupe de traitement, alors que si
cest le trois, le quatre, le cinq ou le six qui sort, la personne fera partie du groupe
de comparaison. Vous lancerez le d une fois pour chaque personne faisant partie
de lchantillon dvaluation, et la personne sera ensuite affecte au groupe de
traitement ou de comparaison en fonction du numro qui sort.
3. Inscrivez les noms de toutes les personnes sur des papiers de taille et de forme
identiques. Pliez les papiers de manire ce que les noms soient invisibles et
mlangez-les dans un chapeau ou tout autre rcipient. Avant le tirage au sort,
xez une rgle en dnissant le nombre de papiers qui seront tirs au sort et si les
noms tirs seront affects au groupe de traitement ou au groupe de comparaison.
Ds que la rgle est tablie, demandez lune des personnes prsentes (quelquun
dimpartial, par exemple un enfant) de tirer autant des papiers jusqu ce que le
nombre de participants dans le groupe de traitement soit atteint.
Quil sagisse dun tirage au sort en public, dun lancer de d ou de nombres alatoires
gnrs par un programme informatique, il est important de documenter le processus pour en assurer la transparence. cet effet, il convient tout dabord que la rgle
ait t pralablement convenue et communique aux tmoins et participants. Il faut
ensuite se tenir cette rgle lors du tirage au sort et tre en mesure de dmontrer que
le processus est effectivement ralis au hasard. Dans le cas de tirages au sort ou de
lancers de d, il est possible de lmer le processus; si un programme informatique a
t utilis pour tirer des nombres alatoires, il convient de sauvegarder un registre
de vos calculs an que des auditeurs puissent, le cas chant, les rpliquer6.
quel niveau raliser lassignation alatoire ?
Lassignation alatoire peut seffectuer au niveau de lindividu, du mnage, de la communaut ou de la rgion. En gnral, le niveau auquel seffectue lassignation alatoire
des units au groupe de traitement ou au groupe de comparaison dpend de la
manire selon laquelle le programme est mis en uvre. Par exemple, si un programme
de sant est mis en uvre au niveau des cliniques, vous pourrez dabord tablir un
chantillon alatoire de cliniques et procder, dans un second temps, leur assignation alatoire soit au groupe de traitement, soit au groupe de comparaison.

Mthodes de slection alatoire

59

Quandlassignation alatoire est ralise un niveau plus lev, par exemple au


niveau des rgions ou des provinces dun pays, il peut tre trs difficile de procder
une valuation dimpact, car le nombre de rgions et de provinces nest gnralement pas suffisant pour permettre de constituer des groupes de traitement et de
comparaison adquats. Par exemple, si un pays ne compte que six provinces, le
groupe de traitement et le groupe de comparaison ne pourront pas compter plus
de trois provinces chacun, ce qui est insuffisant pour garantir que les caractristiques de ces deux groupes soient quilibres.
linverse, plus lchelle diminue, par exemple en atteignant les personnes ou
les mnages, et plus les risques deffets de diffusion et de contamination augmentent7. Prenons lexemple dun programme consistant fournir des mdicaments
vermifuges des mnages. Si un mnage du groupe de traitement vit proximit
dun mnage qui, lui, fait partie du groupe de comparaison, ce dernier peut bncier dun effet de diffusion positif li au traitement prodigu au mnage voisin. Le
risque que le mnage du groupe de comparaison soit contamin par son voisin se
rduit. Il convient, dans un tel cas, de veiller ce que les mnages du groupe de
traitement soient physiquement suffisamment loigns de ceux du groupe de comparaison pour viter que les effets de diffusion naffectent les rsultats. Toutefois,
plus la distance entre les mnages augmente, plus la mise en uvre du programme
et la ralisation des enqutes seront coteuses. En rgle gnrale, si les risques
deffets de diffusion peuvent tre raisonnablement carts, lidal est de procder
lassignation alatoire du traitement au niveau le plus bas auquel le programme
est mis en uvre an de constituer des groupes de comparaison et de traitement
comprenant le plus grand nombre possible dunits. La question des effets de diffusion (ou effets de dbordements) est aborde au chapitre8.
Estimation dimpact avec assignation alatoire
Une fois quun chantillon dvaluation est form et que le traitement est attribu de
manire alatoire, il est relativement facile destimer limpact du programme. Aprs
une certaine priode de mise en uvre du programme, il faudra mesurer les rsultats
pour les groupes de traitement et de comparaison. Limpact du programme correspond tout simplement la diffrence entre le rsultat moyen (Y) constat pour le
groupe de traitement et le rsultat moyen (Y) observ pour le groupe de comparaison.
Par exemple, la gure4.5, le rsultat moyen est de 100 pour le groupe de traitement
et de 80 pour le groupe de comparaison. Limpact du programme est donc de 20.

60

Lvaluation dimpact en pratique

Figure 4.5

Estimation dimpact avec assignation alatoire

Groupe de traitement

Groupe de comparaison

Impact

Moyenne (Y) du groupe


de traitement = 100

Moyenne (Y) du groupe


de comparaison = 80

Impact = Y = 20

Participation
si et seulement
si lunit est
affecte au
groupe de
traitement

Estimation dimpact du Programme de subvention de lassurance


maladie (PSAM) par assignation alatoire
Revenons maintenant notre exemple du PSAM (Programme de subvention de lassurance maladie) et voyons ce que lassignation alatoire signie dans ce cas-l.
Rappelez-vous quil sagit dvaluer limpact dun programme partir dune phase
pilote qui concerne 100villages.
Aprs avoir men deux valuations dimpact avec des estimations du contrefactuel potentiellement biaises (qui ont abouti des recommandations opposes, voir
chapitre 3), vous dcidez de repartir zro et reconsidrez comment obtenir un
contrefactuel plus prcis. Aprs discussion avec votre quipe, vous tes dsormais
convaincu que pour obtenir un contrefactuel valide, il faut identier un groupe de
villages de comparaison qui soient identiques en tout point aux 100 villages de traitement, la seule diffrence que le premier groupe ne bncie pas du PSAM.
Il savre quele PSAM a t lanc sous la forme dun projet pilote et que les 100 villages participant la premire phase (villages de traitement) ont t dsigns de
manire alatoire parmi lensemble des villages ruraux du pays. Vous notez que les
100 villages doivent donc, en moyenne, prsenter les mmes caractristiques que la
population gnrale des villages ruraux. Dans ce contexte, le contrefactuel peut tre
estim de manire valide en mesurant les dpenses de sant des mnages ligibles
dans les villages ne participant pas au PSAM.
Par chance, au moment de la ralisation des enqutes de rfrence et de suivi,
lentreprise de sondage a recueilli des informations sur 100 villages ruraux supplmentaires qui nont pas t couverts par le PSAM lors de la phase pilote. Tout comme
les villages de traitement, ces 100 villages ont t slectionns de manire alatoire
parmi la population des villages ligibles, ce qui signie quils prsentent, en
moyenne, les mmes caractristiques que toute la population des villages ruraux. La
manire dont les deux groupes de villages ont t slectionns garantit donc quils
prsentent des caractristiques identiques, la seule diffrence tant que les 100 villages soumis au traitement bncient du PSAM, contrairement aux 100autres villages, qui constituent le groupe de comparaison. Le traitement a t attribu de
manire alatoire.

Mthodes de slection alatoire

61

tant donn lassignation alatoire du traitement, vous tes plutt sr quaucun


facteur externe autre que le PSAM ne pourra expliquer les diffrences de rsultats
entre les villages de traitement et les villages de comparaison. Pour valider cette
hypothse, vous vriez que les mnages ligibles du groupe de traitement et de
comparaison prsentent bien les mmes caractristiques avant la mise en uvre du
programme (tableau4.1).
Vous remarquez que les caractristiques moyennes des mnages des deux
groupes sont effectivement trs proches. La seule diffrence statistiquement signicative est le nombre dannes dducation du conjoint, mais cette diffrence est
minime. Mme si lassignation alatoire porte sur un grand chantillon, quelques
rares diffrences entre les groupes de traitement et de comparaison peuvent subsister8. La validit du groupe de comparaison tant tablie, vous estimez le contrefactuel par les dpenses de sant moyennes des mnages ligibles dans les 100villages
du groupe de comparaison (tableau4.2).

Table 4.1 Cas 3 Comparabilit entre villages de traitement


et villages de comparaison

Caractristiques
des mnages

Villages de Villages de
traitement comparaison
(N = 2 964) (N = 2 664)

Diffrence

Stat. de t

14,57

0,09

0,39

41,6

42,3

0,7

1,2

36,8

36,8

0,0

0,38

Niveau dducation
du chef du mnage
(en annes)

2,9

2,8

0,1

2,16*

Niveau dducation du
conjoint (en annes)

2,7

2,6

0,1

0,006

Dpenses de sant
(en dollars, par anne
et par personne)

14,48

ge du chef du mnage
(en annes)
ge du conjoint
(en annes)

Le chef du mnage
est une femme = 1

0,07

0,07

0,0

0,66

Autochtone = 1

0,42

0,42

0,0

0,21

Nombre de personnes
dans le mnage

5,7

5,7

0,0

1,21

Prsence dune salle


de bains = 1

0,57

0,56

0,01

1,04

Hectares de terre

1,67

1,71

0,04

1,35

Distance de lhpital
(en km)

109

106

1,02

* Seuil de signification de 5 %.

62

Lvaluation dimpact en pratique

Tableau 4.2 Cas 3 Impact du PSAM selon la mthode dassignation


alatoire (comparaison des moyennes)
Groupe de Groupe de
traitement comparaison

Diffrence

Stat. de t

Dpenses de sant
des mnages
observes lors de
lenqute de base

14,48

14,57

0,09

0,39

Dpenses de sant
observes lors de
lenqute de suivi

7,8

17,9

10,1**

25,6

** Seuil de signification de 1 %.

Tableau 4.3 Cas 3 Impact du PSAM selon la mthode dassignation


alatoire (analyse de rgression)
Rgression
linaire

Rgression linaire multivarie

10,1**
(0,39)

10,0**
(0,34)

Impact estim sur


les dpenses de sant
des mnages

Remarque : erreurs-types entre parenthses.


** Seuil de signification de 1 %.

Vous disposez maintenant dun contrefactuel valide et pouvez valuer limpact


du PSAM en calculant la diffrence entre les dpenses de sant directes des mnages
ligibles vivant dans les villages de traitement et lestimation du contrefactuel. Limpact indique une baisse des dpenses de sant de 10,10 dollars sur deux ans. Lanalyse de rgression donne le mme rsultat, comme le montre le tableau4.3.
Grce lassignation alatoire, nous pouvons tre srs quaucun autre facteur systmatiquement diffrent entre le groupe de traitement et le groupe de comparaison
ne peut expliquer la diffrence des dpenses de sant. Les deux groupes de villages
ont t exposs aux mmes politiques et programmes nationaux au cours des deux
annes de la phase pilote du PSAM. Dans ces conditions, la raison la plus plausible
pour expliquer que les mnages pauvres du groupe de traitement ont des dpenses
infrieures celles des mnages du groupe de comparaison est que les premiers ont
bnci du programme dassurance maladie, au contraire des seconds.

QUESTION 3

A. Pourquoi lestimation dimpact laquelle on aboutit avec la rgression linaire


est-elle pratiquement inchange en tenant compte dautres facteurs ?
B. Au vu de ces rsultats pour le cas 3, le PSAM doit-il tre largi lchelle
nationale ?

Mthodes de slection alatoire

63

Lassignation alatoire en pratique


Lassignation alatoire est souvent utilise dans les tudes dvaluation dimpact
rigoureuses, tant pour les valuations grande chelle que de plus petite envergure. Lvaluation du programme Mexico Progresa (Schultz, 2004) est lune des
valuations grande chelle les plus connues utilisant lassignation alatoire
(encadr4.1).

Deux variations de lassignation alatoire


Nous allons maintenant aborder deux variations reposant sur les proprits de
lassignation alatoire: loffre alatoire et la promotion alatoire du traitement.

Encadr 4.1 : Transferts montaires conditionnels et ducation


au Mexique
Le programme Progresa, qui sappelle maintenant
Oportunidades , a t lanc en 1998 ; il propose un transfert montaire aux mres pauvres
vivant dans les rgions rurales du Mexique
condition que leurs enfants soient prsents
lcole et leur prsence confirme par lenseignant. Ce programme social grande chelle est
lun des premiers avoir incorpor une valuation
dimpact rigoureuse. La mthode de lassignation
alatoire a t utilise pour permettre de dterminer les effets des transferts montaires conditionnels sur un certain nombre de rsultats, dont le
taux de frquentation scolaire.
Les bourses offertes aux enfants de la troisime9 la neuvime10 anne reprsentent entre
50 % et 75 % des frais de scolarit et sont attribues pour une priode de trois ans. Les communauts et les mnages ligibles pour le
programme sont slectionns sur la base dun
indice de pauvret tabli partir de donnes du
recensement et de donnes dune enqute de
rfrence. Ce programme social de grande

envergure a t mis en place de manire progressive. Les deux tiers environ des localits (soit 314
sur 495) ont t choisies de manire alatoire
pour bnficier du programme au cours des deux
premires annes. Les 181 localits restantes
ont constitu un groupe de comparaison avant
dintgrer le programme la troisime anne.
Sur la base de lassignation alatoire, Schultz
(2004) conclut une augmentation moyenne du
taux de scolarisation de 3,4 % chez les coliers de
la premire la huitime anne, la hausse la plus
importante (soit 14,8 %) tant constate chez les
filles ayant termin la sixime annea. Cette forte
croissance est probablement due au fait que le
taux dabandon scolaire tend augmenter chez les
filles au fur et mesure quelles grandissent ; raison pour laquelle les filles reoivent une allocation
montaire un peu plus importante pour les inciter
continuer frquenter lcole au-del du primaire.
Ces impacts court terme sont ensuite extrapols
pour prdire limpact long terme du programme
Progresa sur la scolarit et sur les revenus.

Source : Schultz, 2004.


a. Pour tre prcis, Schultz combine les mthodes dassignation alatoire et de double diffrence.
Le chapitre 8 montre lintrt de combiner diverses mthodes dvaluation dimpact.
9. Classe de CE2 dans le systme scolaire franais.
10. Classe de 3me dans le systme scolaire franais.

64

Lvaluation dimpact en pratique

Offre alatoire : lorsque tout le monde nadhre pas son affectation


Lorsque nous avons voqu lassignation alatoire ci-dessus, nous avons suppos
que le responsable de programme avait toute latitude pour affecter les units au
groupe de traitement et au groupe de comparaison, les premires participant au programme et les secondes ny participant pas. Autrement dit, les units des deux
groupes adhraient pleinement leur affectation. Ce type dadhrence totale est
cependant plus frquent dans des conditions de laboratoire ou lors dessais mdicaux. Par exemple, le chercheur peut sassurer, dune part, que tous les sujets du
groupe de traitement prennent bien leurs comprims et, dautre part, quaucun sujet
du groupe de comparaison nen prend11.
Dans le cadre des programmes sociaux, ladhrence totale aux critres de slection (cest--dire ladhrence totale des units leur assignation au groupe de comparaison ou de traitement) est optimale, et tant les dcideurs que les valuateurs font
au mieux pour se rapprocher au plus prs de cet idal. En pratique, pourtant, il nest
pas garanti que toutes les units respectent pleinement leur affectation au groupe
dsign, et ce malgr les meilleurs efforts des valuateurs et des dcideurs politiques.
Par exemple, il ne suffit pas quun enseignant soit affect au groupe de traitement et
quune formation lui soit propose pour quil se prsente effectivement le jourdu
dbut de cette formation. De mme, un enseignant du groupe de comparaison peut
trouver un moyen de participer une formation laquelle il na pas t invit. Dans
ces conditions, une comparaison directe des units initialement affectes au groupe
de traitement avec celles initialement assignes au groupe de comparaison donnera
une estimation delintention de traiter (IDT). En effet, la diffrence entre les deux
groupes compare les units qui nous avions lintention doffrir un traitement
(groupe de traitement) avec celles qui nous navions pas lintention doffrir le traitement (groupe de comparaison). En tant que telle, lestimation de lintention
de traiter constitue une mesure dimpact tout fait pertinente, car, dans la plupart
des cas, les dcideurs politiques et les responsables de programme ne peuvent
quoffrir le programme des bnciaires potentiels et non imposer la population
cible dy participer.
Cependant, nous pouvons aussi chercher connatre limpact du programme sur
ceux qui ont effectivement accept dy participer. Pour ce faire, il convient de prendre
en compte le fait que certaines units du groupe de traitement nont pas, dans les
faits, t soumises au traitement et quinversement, certaines units du groupe
de comparaison y ont t soumises. En dautres termes, nous souhaitons estimer
limpact du programme pour les units auxquelles le programme a t offert et qui
ont effectivement choisi dy participer, autrement dit, lestimation dutraitement sur
les traits (TT).
Offre alatoire dun programme et participation effective
Imaginez que vous devez valuer limpact dun programme de formation professionnelle sur les salaires. Le programme fait lobjet dune assignation alatoire au niveau

Mthodes de slection alatoire

65

individuel, et le groupe de traitement se voit offrir la formation, contrairement


au groupe de comparaison. Dans ce contexte, il y a trois types dindividus:
Ceux qui participent si on le leur offre. Il sagit des personnes qui adhrent leur
affectation. Si elles sont affectes au groupe de traitement ( qui le programme
est offert), elles participent au programme; si, en revanche, elles sont affectes
au groupe de comparaison ( qui le programme nest pas offert), elles ny participent pas.
Les jamais. Il sagit des personnes qui ne participent pas au programme mme
si elles sont assignes au groupe de traitement. Elles constituent les non adhrents dans le groupe de traitement.
Les toujours. Il sagit des personnes qui trouvent un moyen de bncier du
programme mme si elles sont affectes au groupe de comparaison. Elles constituent les non adhrents dans le groupe de comparaison.
Dans lexemple du programme de formation professionnelle, le groupe des jamais
peut tre constitu de personnes non motives qui, mme si on leur a offert une formation, ne se prsenteront pas. Au contraire, le groupe des toujours peut tre constitu de personnes tellement motives quelles trouveront un moyen de bncier du
programme mme si elles ont t initialement assignes au groupe de comparaison.
Enn, le groupe de ceux qui participent si on le leur offre comprend les personnes qui
viendront la formation si celle-ci leur est offerte (groupe de traitement), mais qui
ne chercheront pas participer si elles font partie du groupe de comparaison.
La gure4.6 reprsente loffre alatoire du programme et la participation effective de ces trois groupes (ceux qui participent si on le leur offre, les jamais et les toujours). Supposons que la population totale est compose de 80% de personnes qui
participent si on le leur offre, de 10% de jamais et de 10% de toujours. Si lchantillon
dvaluation est un chantillon alatoire de la population, cet chantillon sera lui
aussi compos approximativement de 80% de personnes qui participent si on le leur
offre, de 10% de jamais et de 10% de toujours. Si nous rpartissons ensuite les units
de lchantillon dvaluation entre groupe de traitement et groupe de comparaison,
ces mmes proportions se maintiennent (80% qui participent si on le leur offre, 10%
de jamais et 10% de toujours). Dans le groupe qui le programme est offert, deux
groupes participent au programme (ceux qui participent si on le leur propose et les
toujours), alors que les jamais restent lcart. Dans le groupe qui le programme
nest pas offert, seuls les toujours intgrent le programme, mais pas ceux qui ne participent que si on le leur propose ni les jamais.

Estimation dimpact pour loffre alatoire


Maintenant que nous avons tabli la diffrence entre loffre dun programme et la
participation effective au programme, nous allons nous intresser une technique
qui peut tre utilise pour estimer limpact du traitement sur les traits, autrement

66

Lvaluation dimpact en pratique

Figure 4.6

Offre alatoire dun programme

WDSH
units ligibles

WDSH
offre alatoire
du programme

WDSH
chantillon dvaluation

WDSH
participation

Pas doffre

X
Offre

Validit externe

Ne participent Participent si Participent


jamais
on le leur offre toujours

Validit interne

Figure 4.7 Estimation de limpact du traitement sur les traits en cas


doffre alatoire

Groupe qui le
traitement a t offert
PRXUFHQWDJHGHSDUWLFLSDQWV 
Y moyen de ceux qui lon a offert
le traitement = 110

Groupe qui le traitement


na pas t offert
PRXUFHQWDJHGHSDUWLFLSDQWV 
Y moyen de ceux qui lon na pas
offert le traitement = 70

Impact
GHSDUWLFLSDQWV 
< ,'7 
77  

Ne participent
jamais

Participent si
on le leur offre

Participent
toujours

Remarque : lIDT, estimation de lintention de traiter , est obtenue en comparant les rsultats du groupe
auquel le traitement a t offert ceux du groupe auquel le traitement na pas t offert (indpendamment
de la participation effective). Le TT correspond lestimation du traitement sur les traits cest--dire
lestimation de limpact sur ceux qui le programme a t offert et qui y ont effectivement particip.
Les personnages sur fond gris sont ceux qui participent effectivement au programme.

Mthodes de slection alatoire

67

dit limpact dun programme sur ceux qui le programme a t offert et qui y ont
effectivement particip. Cette estimation seffectue en deux tapes, prsentes dans
la gure4.712.
En premier lieu, nous procdons lestimation de limpact de lintention de traiter. Souvenez-vous quil sagit de la diffrence entre lindicateur de rsultat Y du
groupe auquel on a offert le traitement et le mme indicateur pour le groupe auquel
on na pas offert le traitement. Par exemple, si le revenu moyen (Y) est de 110 dollars
pour le groupe de traitement et de 70 dollars pour le groupe de comparaison, lestimation dimpact de lintention de traiter (IDT) est alors de 40 dollars.
En second lieu, nous devons dduire lestimation du traitement sur les traits
(TT) partir de lestimation de lintention de traiter (IDT). Pour ce faire, nous devons
dterminer do vient la diffrence de 40 dollars. Procdons par limination. Nous
savons que la diffrence ne peut pas tre attribue une quelconque diffrence entre
les jamais du groupe de traitement ( qui le programme a t offert) et du groupe de
comparaison ( qui le programme na pas t offert). Comme les jamais ne sont par
dnition pas concerns par le programme, il ny a pour eux pas de diffrence quils
soient dans le groupe de traitement ou dans le groupe de comparaison. Nous savons
aussi que la diffrence de 40 dollars ne peut pas tre due des diffrences entre les
toujours des groupes de traitement et de comparaison, puisquils participent dans les
deux cas. Pour eux aussi, peu importe quils fassent partie du groupe de traitement
ou du groupe de comparaison. Par consquent, la diffrence de rsultat constate
entre les deux groupes ne peut provenir que des effets du programme sur le seul
groupe dont le comportement est modi par son affectation au groupe de traitement ou au groupe de comparaison, savoir ceux qui participent si on le leur offre. Si
nous arrivons identier ceux qui participent si on le leur offre, il sera facile destimer
limpact du programme sur ces units.
Dans les faits, bien que nous sachions que ces trois types dindividus existent dans
la population, nous ne pouvons pas sparer les personnes selon leur appartenance au
groupe de ceux qui participent si on le leur offre, des jamais ou des toujours. Dans le
groupe qui sest vu offrir le traitement, nous pouvons reprer les jamais (car ils ne
participent pas), mais il est impossible de faire la distinction entre les toujours et ceux
qui participent si on le leur offre (car tous deux participent ensemble). Inversement,
dans le groupe auquel le traitement na pas t offert, nous pouvons isoler les toujours (car ils ont intgr le programme), mais on ne peut faire la distinction entre les
jamais et ceux qui participent si on le leur propose.
Toutefois, en sachant que 90% des units du groupe auquel le traitement a t
offert y participent effectivement, nous pouvons dduire que 10% des units dans la
population sont des jamais (soit la partie des personnes qui le programme a t
offert, mais qui ny participent pas). De mme, en constatant que 10% des units
auxquelles le traitement na pas t offert y participent quand mme, il est possible
de conclure que ces 10% reprsentent des toujours (soit la partie des individus du
groupe qui le programme na pas t offert, mais qui lont tout de mme intgr).
Il reste alors 80% des units dans le groupe de ceux qui participent si on le leur offre.

68

Lvaluation dimpact en pratique

Nous savons que la totalit de limpact de 40 dollars est due la diffrence de participation des 80% dunits de notre chantillon, ceux qui participent si on le leur offre.
Si 80% des units sont lorigine delimpact moyen de 40 dollars constat pour
lensemble du groupe qui le traitement a t offert, limpact sur ces 80% de personnes qui participent si on le leur offre est de 40/0,8, soit 50 dollars. Autrement dit,
limpact du programme sur ceux qui participent si on le leur offre est de 50dollars,
mais lorsque cet impact est considr pour lensemble du groupe auquel le traitement a t offert, il se dilue de 20% cause des units qui nont pas adhr lassignation alatoire initiale.
Lun des problmes fondamentaux avec lauto-slection des individus dans les
programmes est quil nest pas toujours possible de savoir pourquoi certaines personnes choisissent de participer et dautres non. Lorsque nous procdons une slection alatoire des units qui vont participer au programme, mais que la participation
effective dpend de la volont de chacun et quil existe un moyen pour les units assignes au groupe de comparaison de bncier tout de mme du programme, nous
sommes confronts un problme similaire: nous ne serons pas toujours en mesure
de comprendre le processus qui conduit certaines personnes ne jamais participer,
toujours participer ou participer si on le leur offre comme dans lexemple ci-dessus.
Toutefois, pour autant que ceux qui nadhrent pas leur affectation ne soient pas
trop nombreux, lassignation alatoire initiale demeure un outil efficace destimation
dimpact. Linconvnient du manque dadhrence totale des individus est que lestimation dimpact ne pourra plus tre considre comme valide pour lensemble de la
population. Cette estimation ne sera valable que pour un sous-groupe spcique de la
population cible, savoir celui des individus qui participent si on le leur offre.
Loffre alatoire prsente deux caractristiques importantes qui permettent destimer limpact, mme dfaut dune adhrence totale (voir encadr4.2)13.
1. Elle peut servir pour predir la participation effective au programme si la plupart
des individus se comportent comme ceux qui participent si on le leur offre, cest-dire qui intgrent le programme si celui-ci leur est offert, mais qui ne le font pas
dans le cas contraire.
2. Les deux groupes (celui qui le traitement est offert et celui qui il nest pas
offert) tant constitus partir dun processus de slection alatoire, les caractristiques des individus des deux groupes ne sont corrles avec aucun autre
lment, par exemple les capacits ou la motivation, qui aurait aussi pu affecter
le rsultat (Y).
Promotion alatoire ou modle dencouragement
Dans la section prcdente, nous avons vu comment estimer limpact dun programme dans le cas dune assignation alatoire du traitement, mme si les affectations initiales aux groupes de comparaison et au groupe de traitement ne sont pas
totalement respectes. Nous allons maintenant examiner une approche trs similaire qui peut tre utilise pour valuer les programmes ligibilit universelle,
participation volontaire, ou pour lesquels il nest pas possible de dterminer qui
participe et qui ne participe pas.
Mthodes de slection alatoire

69

Encadr 4.2 : Offre alatoire de bons dducation en Colombie


En Colombie, le Programme dextension de la
couverture de lducation secondaire (Programa
de Ampliacin de Cobertura de la Educacin Secundaria [PACES]) a permis plus de 125 000
tudiants de bnficier de bons leur permettant
de couvrir un peu plus de la moiti du cot de leur
scolarisation dans une cole secondaire prive.
Le budget du programme PACES tant limit,
ces bons ont t attribus par tirage au sort. Angrist et al. (2002) profitent de cette assignation
alatoire du traitement pour dterminer limpact
du programme de distribution de bons sur des
indicateurs de rsultats sociaux et ducatifs.
Ils aboutissent la conclusion que les tudiants tirs au sort sont dix points plus susceptibles de terminer la 8me anne14 et affichent
une moyenne aux examens standardiss de
0,2 cart-type suprieur trois ans aprs le tirage
au sort. Ils dcouvrent galement que les effets
du programme ducatif sont plus marqus pour
les filles que pour les garons. Les chercheurs
examinent ensuite limpact du programme sur
plusieurs rsultats au-del de lducation et trouvent que les personnes tires au sort sont
moins susceptibles dtre maries et travaillent
environ 1,2 heure de moins par semaine.

Dans le contexte de cette tude, ladhrence


lassignation alatoire nest pas totale puisque
seuls 90 % environ des personnes tires au sort
ont utilis les bons ou une autre forme de
bourse scolaire, et que 24 % des personnes non
tires au sort ont tout de mme reu une bourse
scolaire. Angrist et ses collaborateurs utilisent
donc galement lintention de traiter (en loccurrence si ltudiant a t tir au sort ou non) en
tant que variable instrumentale pour dterminer
le traitement sur les traits, soit la rception
effective dune bourse scolaire. Finalement, les
chercheurs effectuent galement une analyse
cot-bnfice pour mieux comprendre limpact
du programme de bons dducation sur les
dpenses la fois des mnages et de ltat. Ils
concluent que le cot social total du programme
est limit, mais largement compens par les
retours esprs pour les participants et leur
famille. Ceci suggre que des programmes qui,
comme le PACES, sont axs sur la demande
peuvent constituer un moyen efficace et rentable damliorer laccs lducation.

Source : Angrist et al. 2002.

Les gouvernements mettent souvent en uvre des programmes pour lesquels il


est difficile dexclure des participants potentiels ou de les forcer participer. De
nombreux programmes permettent aux participants potentiels de choisir de participer ou non et ne peuvent, par consquent, exclure les participants potentiels dsirant y participer. Par ailleurs, certains programmes sont dots dun budget
suffisamment important pour couvrir immdiatement lensemble de la population
ligible. Dans ce cas, affecter certains participants de manire alatoire un groupe
de traitement ou un groupe de comparaison, et en exclure certains aux ns de
lvaluation ne serait pas thiquement acceptable. Nous avons donc besoin dune
autre mthode pour valuer limpact de ce genre de programme (cest--dire les
programmes participation volontaire ou ligibilit universelle).
Les programmes participation volontaire laissent gnralement le choix aux
personnes intresses de sy inscrire et dy participer. Revenons lexemple du programme de formation professionnelle voqu auparavant, mais imaginons cette

70

Lvaluation dimpact en pratique

fois-ci quune assignation alatoire nest pas possible et que toute personne souhaitant bncier du programme peut sy inscrire. Comme prcdemment, il est fort
probable davoir faire trois types dindividus: les adhrents, des individus qui ne
participent jamais et des individus qui participent toujours. Comme dans le cas prcdent, les toujours intgreront le programme dans tous les cas alors que les
jamais ne sy joindront en aucun cas. Mais quen est-il des adhrents ? Dans le cas
prsent, toute personne souhaitant participer au programme est libre de le faire.
Quen est-il des personnes qui pourraient tre trs intresses par le programme,
mais qui, pour diverses raisons, nauront, par exemple, pas suffisamment dinformation ou de motivation pour y participer? Dans ces conditions, les adhrents seront de
ceux qui participent en cas de promotion: il sagit dun groupe dindividus qui participent au programme sil existe des incitations supplmentaires (c.--d. une forme de
promotion) les amenant participer. dfaut de ces incitations supplmentaires,
ceux qui participent en cas de promotion nintgreront pas le programme.
Revenons lexemple de la formation professionnelle. Si lagence qui organise la
formation dispose des fonds et des capacits ncessaires pour dispenser la formation
toute personne intresse, le programme pourra alors tre ouvert toute personne
au chmage qui dsire y participer. Il est cependant peu probable que toutes les personnes au chmage souhaitent se former ou mme quelles soient toutes au courant
de lexistence du programme. Certains chmeurs peuvent tre rticents participer
au programme parce quils ne disposent pas de suffisamment dinformations sur le
contenu de la formation et quils ne parviennent pas trouver dinformations supplmentaires. Supposons maintenant que lagence qui dispense cette formation
engage une assistante communautaire pour faire une promotion de ce programme
de formation professionnelle. Munie dune liste des chmeurs, elle se rend au domicile des personnes concernes, leur dcrit le programme de formation et leur propose de sy inscrire de suite. Bien videmment, elle ne peut forcer personne y
participer. Par ailleurs, certains chmeurs qui nauront pas reu la visite de lassistante pourront aussi sinscrire la formation, mais ils devront sadresser directement
linstitut de formation. Nous sommes dsormais face deux groupes de chmeurs:
ceux qui ont reu la visite de lassistante et ceux qui ne lont pas reue. Si leffort de
promotion du programme auprs de la population a port ses fruits, le taux de participation des chmeurs ayant reu la visite de lassistante devrait tre suprieur
celui des chmeurs nayant pas t contacts par lassistante.
Comment pourrions-nous valuer limpact du programme de formation? Comme
nous le savons, il ne suffit pas de comparer les chmeurs ayant suivi la formation
ceux qui ne lont pas suivie, car les chmeurs ayant dcid de sinscrire prsentent
probablement des caractristiques, tant observables que non observables, trs diffrentes des caractristiques de ceux qui ne participent pas au programme: ils peuvent
avoir un niveau dducation plus lev (caractristique facilement observable) et ils
peuvent tre plus motivs par lide de trouver un emploi (caractristique difficile
observer et mesurer).
Nous disposons nanmoins dune variable supplmentaire exploiter pour trouver un groupe de comparaison valide. Examinons tout dabord sil est possible de
comparer le groupe ayant reu la visite de lassistante avec celui qui ne la pas reue.

Mthodes de slection alatoire

71

Les deux groupes comprennent des personnes trs motives (les toujours) qui
intgreront la formation quils aient ou non reu la visite de lassistante. De mme,
dans les deux groupes, nous retrouverons des personnes non motives (les jamais)
qui ne participeront pas au programme, quels que soient les efforts de lassistante.
Enn, certaines personnes (ceux qui participent en cas de promotion) rejoindront la
formation si lassistante leur rend visite, mais pas dans le cas contraire.
Si lassistante a slectionn les personnes auxquelles elle rend visite alatoirement partir de sa liste de chmeurs, nous pourrons avoir recours la mthode du
traitement sur les traits voque ci-dessus. La seule diffrence est quil sagit ici non
plus dune offre alatoire, mais dune promotion alatoire du programme. partir du
moment o il existe des personnes qui ne participent quen cas de promotion
(cest--dire dont la participation nest assure que si on va les chercher), il y aura
une variation entre le groupe avec promotion et le groupe sans promotion qui nous
permettra destimer limpact de la formation sur ceux qui y participent en cas de promotion. Au lieu dadhrer loffre de traitement, ceux qui participent en cas de promotion adhrent la promotion du programme.
Dun ct, la stratgie de promotion doit tre efficace et entraner une nette augmentation des inscriptions de ceux qui participent en cas de promotion. Dun autre
ct, nous ne souhaitons pas que les activits de promotion soient efficaces au point
dinuencer le rsultat. Par exemple, si les assistantes charges de la promotion proposent des sommes dargent importantes aux chmeurs pour les inciter sinscrire,
il sera difficile dtablir plus tard si les variations de revenus constates sont dues la
formation, la promotion du programme ou aux incitations proposes.
La promotion alatoire est une stratgie qui permet de gnrer lquivalent dun
groupe de comparaison aux ns de lvaluation. Elle peut tre utilise lorsquil est
possible dorganiser une campagne de promotion visant un chantillon alatoire de
la population cible. Les lecteurs ayant quelques connaissances en conomtrie
reconnatront la terminologie introduite dans la section prcdente: la promotion
alatoire est une variable instrumentale permettant de crer une variation entre les
units et dexploiter cette variation pour crer un groupe de comparaison valide.
Vous avez dit promotion ?
La promotion alatoire vise accrotre la participation des individus dun souschantillon de population un programme volontaire. Elle peut prendre plusieurs
formes. Il peut par exemple sagir dune campagne dinformation lattention des
personnes qui ne se sont pas inscrites, car elles ne connaissaient pas ou ne comprenaient pas bien le contenu du programme. La promotion peut aussi comprendre des
incitations comme loffre de petits cadeaux ou prix, ou encore la mise disposition
de moyens de transport.

72

Lvaluation dimpact en pratique

Plusieurs conditions doivent tre remplies pour que la mthode de promotion


alatoire permette une valuation dimpact valide.
1. Les groupes recevant la promotion et ceux ne la recevant pas doivent tre comparables. Ils doivent prsenter des caractristiques similaires. Ceci est assur grce
une assignation alatoire des activits de promotion aux units de lchantillon
dvaluation.
2. La campagne de promotion doit augmenter la participation au programme des individus qui la reoivent en comparaison aux individus qui ne la reoivent pas. Pour
sassurer que cest effectivement le cas, il suffit de vrier que le taux de participation est plus lev dans le groupe ayant bnci de la promotion que dans lautre.
3. Il est important que les activits de promotion naient pas un impact direct sur les
rsultats; il faut en effet pouvoir attribuer lesdits rsultats au programme et non
aux activits de promotion.

Concept cl :
La promotion alatoire
est une mthode
similaire loffre
alatoire. Toutefois, au
lieu de slectionner de
manire alatoire les
units auxquelles le
traitement sera offert,
nous slectionnions ici,
toujours alatoirement,
les units qui recevront
une promotion
du programme.
Le programme reste
alors ouvert toutes
les units.

Le processus de promotion alatoire


Le processus de promotion alatoire est prsent la gure4.8. Comme pour les
mthodes prcdentes, nous partons de la population des units ligibles au programme. Contrairement la mthode de lassignation alatoire, nous ne pouvons
plus slectionner de manire alatoire qui participera au traitement et qui ny participera pas, la participation au programme tant dornavant entirement volontaire.
Nous savons toutefois quil y aura trois types dunits au sein de la population des
units ligibles:
Les toujours les personnes qui participeront au programme dans tous les cas.
Ceux qui participent en cas de promotion les personnes qui ne sinscriront au
programme que si elles reoivent la promotion du programme.
Les jamais les personnes qui nintgreront pas le programme, promotion ou pas.
Soulignons nouveau que lappartenance des units lun de ces trois groupes est
une caractristique intrinsque que lvaluateur ne peut observer, car elle est lie
des facteurs comme la motivation ou lintelligence de chacun.
Une fois la population ligible dtermine, ltape suivante consiste slectionner de manire alatoire un chantillon dvaluation partir de la population. Les
units de lchantillon sont celles pour lesquelles des donnes seront collectes.
Dans certains cas, toute la population pourra tre incluse dans lchantillon dvaluation, par exemple si nous disposons de donnes sur lensemble de la population des
units ligibles.

Mthodes de slection alatoire

73

Figure 4.8

Promotion alatoire

WDSH
units ligibles

WDSH
promotion alatoire
du programme

WDSH
chantillon dvaluation

WDSH
inscription

Pas de promotion

X
Promotion

Validit externe

Ne participent Participent en Participent


jamais
cas de promotion toujours

Validit interne

Une fois lchantillon dvaluation dtermin, la promotion alatoire consiste


rpartir de faon alatoire les units de cet chantillon entre le groupe qui recevra la
promotion et le groupe qui ne la recevra pas. Comme la slection est effectue de
manire alatoire, les membres des deux groupes prsenteront les mmes caractristiques que ceux de lchantillon dvaluation, et ces caractristiques seront galement quivalentes celles de lensemble de la population des units ligibles. Le
groupe bnciant de la promotion et le groupe nen bnciant pas auront donc des
caractristiques similaires.
Aprs la campagne de promotion, nous pouvons examiner les taux de participation de chaque groupe. Au sein du groupe qui na pas reu de promotion, seuls les
toujours intgreront le programme. Nous saurons alors qui sont les toujours dans le
groupe qui na pas reu de promotion, mais dans ce mme groupe nous ne pourrons
pas distinguer les jamais de ceux qui participent en cas de promotion. linverse, dans
le groupe qui a reu la promotion, ceux qui participent en cas de promotion et les toujours intgreront le programme, tandis que les jamais resteront lcart. Dans ce
groupe, nous pourrons donc identier les jamais, mais il sera impossible de faire la
distinction entre ceux qui participent en cas de promotion et les toujours.
Estimation dimpact pour la promotion alatoire
Lestimation de limpact dun programme faisant lobjet dune promotion alatoire
est un cas particulier de la mthode de traitement des traits (gure4.9). Imaginons
que le taux de participation soit de 30% dans le groupe nayant pas reu la campagne
de promotion (trois toujours), mais quil atteigne 80% dans le groupe cibl par la
campagne de promotion (trois toujours et cinq individus qui participent en cas de
promotion). Supposons que le rsultat moyen soit de 70 pour les personnes du groupe
non soumis une promotion (dixindividus) et de 110 pour ceux du groupe touch
par la promotion (dix individus). Dans ce cas, quel sera limpact du programme?
74

Lvaluation dimpact en pratique

Figure 4.9

Estimation dimpact en cas de promotion alatoire


Groupe recevant
la promotion

Groupe ne recevant
pas la promotion

Impact

6GLQVFULWV 
PRXUFHQWDJHGLQVFULWV 
PRXUFHQWDJHGLQVFULWV 
Y moyen du groupe ne recevant pas 6Y = 40
Y moyen du groupe recevant
,PSDFW  
la promotion du programme = 110 la promotion du programme = 70
Ne participent
jamais

Participent
en cas de
promotion

Participent
toujours

Remarque : les personnages sur fond gris sont ceux qui participent au programme.

Premirement, nous connaissons la diffrence entre le groupe qui a reu la promotion du programme et celui qui ne la pas reu : elle est de 40. Nous savons aussi
que cette diffrence ne peut pas tre due aux jamais, car, dans tous les cas, ils ne
participeront pas au programme. Cette diffrence ne peut pas non plus tre attribue
aux toujours parce quils participent au programme quel que soit le groupe auquel ils
appartiennent initialement.
La deuxime tape consiste dterminer limpact du programme sur ceux qui
participent en cas de promotion. Nous savons que tout leffet moyen (de 40) peut tre
attribu ceux qui participent en cas de promotion, un groupe qui reprsente la moiti de la population. Pour valuer limpact moyen du programme sur une personne
adhrant aux rgles daffectation, nous divisons alors 40 par le pourcentage de ceux
qui participent en cas de promotion dans la population. Nous ne pouvons certes pas
identier directement ce dernier groupe, mais nous pouvons valuer sa part dans la
population: elle correspond la diffrence entre les taux de participation du groupe
auprs duquel la promotion a t ralise et du groupe pour lequel a na pas t le
cas (50% ou 0,5). Limpact moyen sur une personne adhrant aux rgles daffectation stablit donc 40/0,5 = 80.
La promotion tant effectue de manire alatoire auprs des individus, le groupe
qui a bnci de cette promotion et le groupe qui nen a pas bnci prsenteront
des caractristiques moyennes identiques. Ds lors, les diffrences entre les rsultats
moyens des deux groupes peuvent tre attribues au fait que dans le groupe recevant
la promotion, ceux qui participent en cas de promotion ont effectivement particip au
programme alors quils ne lont pas fait dans le groupe nayant pas reu la campagne
de promotion15.

Mthodes de slection alatoire

75

Impact du Programme de subvention de lassurance maladie (PSAM)


selon la mthode de la promotion alatoire
Nous allons maintenant appliquer la mthode de la promotion alatoire pour valuer limpact du PSAM. Supposons que le ministre de la Sant dcide que les subventions soient distribues immdiatement tout mnage souhaitant participer au
PSAM. Vous savez toutefois que la couverture nationale ne peut tre atteinte que
graduellement. Vous vous mettez daccord avec le ministre de la Sant pour acclrer la participation par le biais dune campagne de promotion dans un groupe de
villages choisis alatoirement. Vous mettez en place une grande campagne de promotion (communication et marketing social) ciblant ce groupe de villages et visant
sensibiliser les habitants au PSAM. Aprs deux annes defforts promotionnels et de
mise en uvre du programme, il apparat que 49,2% des mnages des villages ayant
bnci de la campagne de promotion ont rejoint le programme, contre 8,4% seulement dans les villages qui nont pas t touchs par la campagne (tableau4.4).
La slection des villages auprs desquels a eu lieu la campagne de promotion
ayant t ralise de manire alatoire, les caractristiques moyennes des deux
groupes auraient t les mmes en labsence du programme.
Cette hypothse peut tre vrie en comparant les dpenses de sant (ainsi que
dautres caractristiques) des deux groupes au moment lenqute de base. Deux
annes aprs la mise en uvre du programme, les dpenses de sant moyennes dans
les villages ayant t soumis la campagne de promotion sont de 14,9dollars contre
18,8dollars dans les zones non couvertes par cette campagne (soit 3,9 dollars de
diffrence). Toutefois, comme la seule diffrence entre les villages touchs par la
campagne de promotion et les autres est un taux de participation plus lev dans les
premiers (grce aux efforts de promotion), la diffrence de 3,9 dollars dans les
dpenses de sant peut tre attribue aux 40,4% de mnages des villages recevant la
promotion qui se sont inscrits grce elle. Nous devons donc ajuster la diffrence
dans les dpenses de sant pour valuer limpact du programme sur ceux qui partici-

Tableau 4.4 Cas 4 Impact du PSAM selon la mthode de promotion


alatoire (comparaison de moyennes)

Dpenses de sant des


mnages observes lors
de lenqute de base
Dpenses de sant des
mnages observes lors
de lenqute de suivi
Participation au PSAM

Villages
ayant reu
la campagne de
promotion

Villages
nayant pas
reu la
campagne de
promotion

Diffrence

Stat. de t

17,1

17,2

0,1

0,47

18,3

14,9

18,8

3,9

49,2%

8,4%

40,4%

** Seuil de signification de 1 %.

76

Lvaluation dimpact en pratique

Tableau 4.5 Cas 4 Impact du PSAM selon la mthode de promotion


alatoire (analyse de rgression)

Rgression linaire

Rgression linaire
multivarie

9,4**
(0,51)

9,7**
(0,45)

Impact estim sur


les dpenses de sant
des mnages
Remarque : erreurs-types entre parenthses.
** Seuil de signification de 1 %.

pent en cas de promotion. Pour ce faire, nous divisons la diffrence observe entre
les groupes par le pourcentage de ceux qui participent en cas de promotion :
3,9/0,404 = 9,65$. Votre collgue, qui a suivi des cours dconomtrie, calcule
ensuite limpact du programme par la mthode des moindres carrs en deux tapes
et aboutit aux rsultats prsents dans le tableau4.5. Limpact ainsi estim est valable
pour les mnages ayant particip au programme parce quils y ont t incits, mais
qui ny aurait pas particip sans promotion, autrement dit pour ceux qui participent
en cas de promotion. Extrapoler ce rsultat lensemble de la population suppose que
tous les autres mnages se seraient comports de la mme manire sils avaient
intgr le programme.

QUESTION 4

A. Quelles sont les hypothses de base qui sous-tendent le rsultat du cas 4 ?


B. Au vu de ces rsultats pour le cas 4, le PSAM doit-il tre largi lchelle nationale ?

La promotion alatoire en pratique


La mthode de la promotion alatoire a t utilise dans plusieurs contextes. Gertler,
Martinez et Vivo (2008) y ont eu recours pour valuer un programme dassurance de
sant maternelle et infantile en Argentine. Aprs la crise conomique de 2001, ltat
argentin a constat que les indicateurs de sant de la population se dgradaient avec,
notamment une augmentation de la mortalit infantile. Il a dcid dintroduire un
systme dassurance national pour les mres et les enfants qui devaient stendre
lensemble du pays en un an. Avant cela, les autorits ont souhait valuer limpact
du programme pour sassurer quil entranait bien une amlioration de la sant de la
population. Comment trouver un groupe de comparaison si chaque mre et chaque
enfant du pays sont ligibles pour participer au systme dassurance sils le souhaitaient ? Les donnes provenant des premires provinces ayant mis en uvre lintervention ont montr que seulement 40% 50% des mnages staient effectivement
inscrits au programme. Les autorits ont alors lanc une vaste campagne de promotion visant informer les populations sur le programme. Cette campagne na toutefois touch que certains villages, slectionns sur une base alatoire, et non
lensemble du pays.

Mthodes de slection alatoire

77

Il existe dautres exemples comme laide apporte par des organisations non gouvernementales dans le cadre de lvaluation de la gestion scolaire communautaire au
Npal ou le Fonds dinvestissement social en Bolivie (dcrit dans lencadr4.3).
Limites de la mthode de la promotion alatoire
La promotion alatoire est une stratgie utile pour valuer limpact des programmes
participation volontaire et ligibilit universelle, notamment parce quelle nexige
dexclure aucune des units ligibles. Cette approche prsente nanmoins quelques
limites en comparaison lassignation alatoire du traitement.
Premirement, la stratgie de promotion doit porter ses fruits. Si la campagne de
promotion nentrane pas daugmentation de la participation, aucune diffrence ne
ressortira entre le groupe recevant la promotion et celui ne la recevant pas; aucune
comparaison ne sera alors possible. Un suivi rapproch de la campagne promotionnelle est donc primordial pour en assurer lefficacit. Le point positif est que la
conception de la campagne de promotion peut permettre aux responsables du programme de rchir la manire dont ils peuvent encourager la participation.

Encadr 4.3 : Promotion des investissements dans les infrastructures


dducation en Bolivie
En 1991, la Bolivie met en place un Fonds dinvestissement social (FIS) visant fournir des financements aux communauts rurales pour
quelles ralisent des investissements de petite
envergure dans des infrastructures dducation,
de sant et deau. En parallle, la Banque mondiale, qui contribue au financement du FIS, met
en place une valuation dimpact prospective
ds la conception du programme.
Dans le cadre de lvaluation dimpact du
volet portant sur lducation, une slection alatoire est effectue au sein des communauts de
la rgion du Chaco pour dterminer celles qui
bnficient dune promotion du FIS, travers
des visites et des encouragements supplmentaires pour les inciter y adhrer. Le programme
est ouvert toutes les communauts ligibles
de la rgion, sous rserve quelles fassent la
dmarche de prsenter une demande pour la
mise en uvre dun projet prcis. Toutes les

communauts ne participent pas au programme,


mais les demandes sont suprieures chez les
communauts ayant fait lobjet de la campagne
de promotion.
Newman et al. (2002) utilisent la promotion
alatoire comme variable instrumentale. Ils
concluent que les investissements dans lducation ont permis damliorer les indicateurs de
qualit des infrastructures scolaires tels que
llectricit, les installations sanitaires, le
nombre de manuels scolaires par lve et le
nombre denseignants par lve. Limpact sur
les rsultats lis lducation se rvle en
revanche limit, lexception dune baisse de
2,5 % du taux dabandon scolaire. Forts de ces
conclusions, le ministre de lducation et le FIS
rorientent les efforts et les ressources sur les
aspects purement ducatifs , ne finanant les
amliorations dinfrastructures matrielles que
dans le cadre dinterventions intgres.

Source : Newman et al. 2002.

78

Lvaluation dimpact en pratique

Deuximement, la mthode ne permet destimer limpact dun programme que


pour un sous-groupe de la population des units ligibles. Plus prcisment, limpact
moyen du programme est calcul pour le groupe de personnes qui ont particip au
programme uniquement parce quelles y ont t encourages. Le problme est que
les personnes composant ce groupe peuvent prsenter des caractristiques diffrentes de celles des individus qui participent toujours ou ne participent jamais.
Aussi, limpact moyen du traitement pour lensemble de la population peut tre diffrent de limpact moyen estim pour les personnes qui ont particip parce quelles
y ont t incites.

Notes
1. Lassignation alatoire du traitement est parfois appele essai contrle
randomis, valuation alatoire, valuation exprimentale ou encore
exprimentation sociale.
2. Lassignation alatoire ne signie pas quil y a forcment une chance sur deux
dtre tir au sort. En fait, la plupart des valuations par assignation alatoire
donnent chaque unit ligible une probabilit dtre slectionne dtermine
de manire ce que le nombre de gagnants (qui recevront le traitement) soit
gal au nombre total de places offertes. Par exemple, si le programme dispose
de suffisamment de fonds pour servir 1000communauts sur une population
totale de 10000, chaque communaut aura unechance sur dix dtre slectionne pour recevoir le traitement. La puissance statistique (concept voqu en
dtail au chapitre11) est optimise lorsque lchantillon dvaluation est divis
parts gales entre le groupe de traitement et le groupe de comparaison. Par
exemple, pour un chantillon total comprenant 2000communauts, la
puissance statistique sera optimise en constituant un groupe de traitement de
1000communauts et un groupe de comparaison galement de 1000 communauts plutt quen se fondant sur un simple chantillon alatoire correspondant 20% des 10000communauts ligibles de dpart (ceci donnerait un
chantillon dvaluation denviron 200communauts de traitement et
1800communauts de comparaison).
3. Par exemple, les programmes de logements subventionns ont souvent recours
aux tirages au sort pour slectionner les bnciaires.
4. Cette proprit dcoule de la loi des grands nombres.
5. Un chantillon dvaluation peut tre strati par type dindividus et subdivis
en grappes dunits. La taille de lchantillon est fonction du type dchantillonnage alatoire utilis (voir partie3).
6. La plupart des logiciels permettent dtablir un nombre source (seed
number en anglais) an que les rsultats de lassignation alatoire soient
transparents et puissent tre rpts.
7. Nous examinerons des concepts comme les effets de diffusion et de contamination de manire plus dtaille au chapitre8.
8. Pour des raisons statistiques, il nest pas ncessaire que toutes les caractristiques observes soient similaires dans le groupe de traitement et dans le groupe
de comparaison pour que la slection alatoire soit efficace. La rgle dor en
Mthodes de slection alatoire

79

11.

12.

13.

14.
15.

matire defficacit est que 95% environ des caractristiques observes soient
similaires. Par similaire, on entend que lon ne peut rejeter lhypothse nulle
selon laquelle les moyennes sont diffrentes entre les deux groupes compte tenu
dun intervalle de conance de 95%. Mme lorsque les caractristiques des
deux groupes sont compltement gales, on peut sattendre ce que 5% environ
des caractristiques prsentent une diffrence statistiquement signicative.
noter que dans le domaine mdical, les patients du groupe de comparaison
reoivent gnralement un placebo, par exemple un comprim en sucre sans
effet sur les rsultats. Ceci vise tenir compte de leffet placebo, savoir les
changements ventuels de comportement et de rsultats lis la prise dun
traitement mme si le traitement en soi na pas deffet.
Ces deux tapes correspondent la technique conomtrique des moindres
carrs en deux tapes qui permet dobtenir lestimation moyenne locale de
leffet du traitement (local average treatment effect, ou LATE en anglais).
Les lecteurs ayant des connaissances en conomtrie auront reconnu le
concept: en statistiques, loffre alatoire du programme est utilise comme
variable instrumentale pour la participation effective. Les deux caractristiques
cites correspondent exactement ce qui serait exig dune bonne variable
instrumentale:
La variable instrumentale doit tre corrle la participation au programme.
La variable instrumentale peut ne pas tre corrle au rsultat (Y) (sauf par
le biais de la participation au programme) ou aux variables non observables.
Classe de 4me dans le systme scolaire franais.
Les lecteurs ayant des connaissances en conomtrie comprendront que
limpact est estim en utilisant lassignation alatoire au groupe recevant ou
ne recevant pas la promotion comme variable instrumentale pour la participation effective au programme.

Rfrences
Angrist, Joshua, Eric Bettinger, Erik Bloom, Elizabeth King et Michael Kremer.
2002. Vouchers for Private Schooling in Colombia: Evidence from a Randomized Natural Experiment. American Economic Review 92 (5): 153558.
Gertler, Paul, Sebastian Martinez et Sigrid Vivo. 2008. Child-Mother Provincial
Investment Project Plan Nacer. University of California Berkeley et Banque
mondiale, Washington, DC.
Newman, John, Menno Pradhan, Laura B. Rawlings, Geert Ridder, Ramiro Coa et
Jose Luis Evia. 2002. An Impact Evaluation of Education, Health, and Water
Supply Investments by the Bolivian Social Investment Fund. tude conomique
de la Banque mondiale 16 (2): 24174.
Schultz, Paul. 2004. School Subsidies for the Poor: Evaluating the Mexican
Progresa Poverty Program. Journal of Development Economics 74 (1): 199250.

80

Lvaluation dimpact en pratique

CHAPITRE5

Modle de discontinuit
de la rgression
Les programmes sociaux utilisent souvent un indice pour dterminer quels sont les
individus ou mnages ligibles. Par exemple, les programmes de lutte contre la pauvret ciblent gnralement les mnages pauvres en les identiant avec un indice ou
un score de pauvret. Un score de pauvret peut se baser sur une formule de type
proxy mean qui mesure un ensemble dactifs du mnage. Les mnages avec de bas
scores sont classs parmi les mnages pauvres et ceux dont les scores sont plus levs sont considrs comme des mnages relativement aiss. Les responsables de
programme xent en gnral un seuil ou un score limite au-dessous duquel les
mnages sont considrs comme pauvres et ligibles pour un programme. Le programme mexicain Progresa (Buddelmeyer et Skouas 2004) ou le systme colombien de slection des bnciaires des programmes sociaux baptis SISBEN
(Barrera-Osorio, Linden et Usquiola, 2007) utilisent de telles mthodes.
Les programmes de retraite ciblent eux aussi les individus en fonction dun
indice dligibilit, bien quil soit dun autre type. Lge constitue un indice continu
et lge de dpart la retraite est le seuil qui dtermine lligibilit. Autrement dit,
seules les personnes ayant dpass un certain ge ont le droit de recevoir une
retraite. Les rsultats aux examens sont un autre exemple dindice dligibilit
continu. De nombreux pays octroient des bourses dtudes ou des prix aux
meilleurs lves un examen standardis dont les rsultats sont classs par ordre
croissant. Si le nombre de bourses est limit, seuls les tudiants avec une note audel dun certain seuil (par exemple la premire tranche de 15%) seront ligibles.

81

Concept cl :
Le modle de
discontinuit de la
rgression convient
aux programmes qui
utilisent un indice
continu pour classifier
les participants
potentiels et un seuil
pour distinguer les
bnficiaires des
non-bnficiaires.

Le modle de discontinuit de la rgression est une mthode dvaluation dimpact qui convient aux programmes pour lesquels un indice dligibilit continu est
tabli et un seuil est clairement dni pour distinguer les bnciaires des
non bnciaires. Deux conditions doivent tre runies pour pouvoir appliquer le
modle de discontinuit de la rgression:
1. Un indice dligibilit continu doit exister, savoir un indicateur continu permettant de classer la population ltude, comme un indice de pauvret, les rsultats
un examen ou lge.
2. Un seuil dligibilit doit tre clairement dni, dterminant un niveau de lindice
au-dessus ou au-dessous duquel la population est considre comme ligible au
programme. Par exemple, les mnages dont lindice de pauvret est infrieur
50 sur 100 peuvent tre considrs comme pauvres, les personnes de 67 ans et
plus peuvent tre considres comme des retraits et les tudiants obtenant un
rsultat de 90 sur 100 ou plus peuvent tre ligibles une bourse. Dans ces
exemples, les seuils sont xs 50, 67 et 90 respectivement.

Cas 1 : subvention des engrais pour la riziculture


Prenons lexemple dun programme agricole qui subventionne les achats dengrais
par les riziculteurs dans le but damliorer les rendements. Le programme cible les
petites et moyennes exploitations, dnies au titre du programme comme des
exploitations dune supercie totale de moins de 50acres1. Avant la mise en uvre
du programme, la relation entre la taille de lexploitation et la production totale de
riz est illustre dans le graphique5.1, les petites exploitations ayant une production
totale infrieure celle des grandes exploitations. Le seuil dligibilit dans ce cas est
le nombre dacres exploits, qui est x 50. Conformment aux rgles dligibilit
au programme, les exploitations de moins de 50 acres sont en droit de recevoir une
subvention pour lachat dengrais, et les exploitations de plus de 50 acres ne peuvent
pas en bncier. Dans ce cas, il est probable que plusieurs exploitations de 48, 49 ou
mme 49,9 acres participent au programme. Un autre groupe dexploitations de 50,
50,1 ou 50,2acres sera de facto exclu du programme parce quelles dpassent le seuil
dligibilit. Les exploitations de 49,9 acres ressemblent vraisemblablement en de
nombreux points celles de 50,1 acres, mais les premires reoivent une subvention
pour lachat dengrais au contraire des secondes. Plus nous nous loignons du seuil
dligibilit et plus les diffrences saccentuent entre les entits ligibles et les units
non ligibles. Nous disposons toutefois dune mesure de ces diffrences, les critres
dligibilit, que nous pouvons prendre en compte.
Une fois que le programme est mis en uvre et que les subventions sont distribues aux petites et moyennes exploitations, les valuateurs du programme peuvent utiliser la mthode de discontinuit de la rgression pour mesurer son impact.
Cette mthode mesure la diffrence de rsultats enregistrs aprs lintervention,

82

Lvaluation dimpact en pratique

Figure 5.1

20

Rendement rizicole

+ indique le rendement des exploitations > 50 acres


(soit 20 hectares)

Rendement (en boisseaux par acre)

sindique le rendement des exploitations < 50 acres


(soit 20 hectares)

19

18

17

16

15

20

30

40
50
60
Acres (1 acre = 0,40 ha)

70

80

comme le rendement total, pour les entits qui se situent prs du seuil dligibilit,
soit 50 acres dans notre exemple. Les exploitations lgrement trop importantes
pour participer au programme constituent le groupe de comparaison et gnrent
une estimation du rsultat contrefactuel pour les exploitations du groupe de traitement qui sont juste au-dessous du seuil dligibilit. tant donn que ces deux
groupes dexploitations taient trs similaires avant le programme et quils sont
exposs aux mmes facteurs (tels que le climat, les uctuations des cours, les politiques agricoles locales et nationales, etc.), le programme constitue la seule raison
pouvant expliquer les diffrences de rsultats aprs lintervention.
La mthode de discontinuit de la rgression permet destimer correctement
limpact dun programme sans exclure dunits ligibles. Il convient toutefois de
noter que limpact estim ne sapplique quaux units se situant autour du seuil
dligibilit. Dans notre exemple, nous obtenons une estimation valide de limpact
du programme de subvention de lachat dengrais pour des exploitations dont la
supercie est lgrement infrieure 50 acres. Lvaluation dimpact ne permettra
pas ncessairement de dterminer directement limpact du programme sur les
petites exploitations (de un ou deux acres par exemple) pour lesquelles limpact
du subventionnement des engrais pourrait tre nettement diffrent des effets
observs pour les exploitations de 48 ou 49 acres. Il nexiste pas de groupe de comparaison pour les petites exploitations tant donn quelles sont toutes ligibles au
programme. La seule comparaison valable concerne les exploitations proches du
seuil dligibilit de 50 acres.

Modle de discontinuit de la rgression

83

Cas 2 : transferts montaires


Supposons que nous tentions dvaluer limpact dun programme de transferts montaires sur les dpenses alimentaires journalires de mnages pauvres. Supposons galement que nous puissions utiliser un indice de pauvret2 qui synthtise les donnes
sur les actifs des mnages pour obtenir un score entre zro et 100 permettant de classer les mnages des plus pauvres aux plus riches. Au dpart, il est probable que, en
moyenne, les mnages les plus pauvres dpensent moins en alimentation que les
mnages les plus riches. La gure5.2 reprsente une relation potentielle entre lindice de pauvret et les dpenses alimentaires journalires des mnages (le rsultat).
Supposons maintenant que le programme cible uniquement les mnages pauvres
dnis comme ceux qui ont un indice de pauvret infrieur 50. Autrement dit,
lindice de pauvret dtermine lligibilit : le programme sera offert uniquement
aux mnages qui affichent un score de 50 ou moins. Les mnages dont le score est
suprieur 50 ne sont pas ligibles. Dans cet exemple, lindice de pauvret constitue
un indice continu avec un seuil dligibilit x 50. La relation entre lindice dligibilit et la variable de rsultat (les dpenses alimentaires quotidiennes) est illus-

Figure 5.2 Dpenses des mnages et niveau de pauvret (avant lintervention)

Dpenses alimentaires journalires


des mnages (en pesos)

80

75

70

65

60

84

20

30
40
50
60
70
Indice de pauvret au moment de lenqute de rfrence

80

Lvaluation dimpact en pratique

Figure 5.3

Seuil dligibilit au programme de transferts montaires

Dpenses alimentaires journalires


des mnages (en pesos)

80

75

70

65
Non ligibles
ligibles
60

20

30
40
50
60
70
Indice de pauvret au moment de lenqute de rfrence

80

tre la gure 5.3. Les mnages se situant juste au-dessous du score limite sont
ligibles au programme tandis que ceux qui se situent juste au-dessus ne le sont pas,
mme si ces deux types de mnages sont trs similaires.
Le modle de discontinuit de la rgression utilise la discontinuit observe
autour du seuil dligibilit pour estimer le contrefactuel. Intuitivement, nous pouvons considrer que les mnages dont le score est juste au-dessous du seuil dligibilit (50 et un peu moins) sont trs similaires ceux dont le score est juste au-dessus
du seuil dligibilit (51, par exemple). Les responsables du programme ont choisi un
point particulier sur lindice continu de pauvret (50) pour crer une coupure, ou
une discontinuit, dans lligibilit au programme. tant donn que les mnages qui
se situent juste au-dessus du seuil des 50sont trs similaires ceux qui sont juste en
dessous, la diffrence prs quils ne bncient pas des transferts montaires, ils
peuvent tre utiliss comme groupe de comparaison pour les mnages qui se situent
juste au-dessous du seuil dligibilit. Autrement dit, les mnages non ligibles au
programme, mais proches du seuil dligibilit seront utiliss comme groupe de
comparaison pour estimer le contrefactuel ( savoir les changements enregistrs
dans le groupe de mnages ligibles en labsence du programme).

Modle de discontinuit de la rgression

85

Dpenses alimentaires journalires


des mnages (en pesos)

Figure 5.4 Dpenses des mnages et niveau de pauvret (aprs lintervention)

80

75

70

= IMPACT
B
65

20

30
40
50
60
70
Indice de pauvret au moment de lenqute de rfrence

80

La gure5.4 prsente une situation aprs lintervention qui illustre intuitivement


la stratgie didentication par discontinuit de la rgression. Les rsultats moyens
des mnages (ligibles) dont le niveau de pauvret au moment de lenqute de rfrence est infrieur au seuil dligibilit sont dsormais plus levs que les rsultats
moyens des mnages (non ligibles) dont le niveau de pauvret de rfrence tait
lgrement suprieur au seuil dligibilit. tant donn la relation continue entre les
niveaux de pauvret et les dpenses alimentaires journalires observe avant le lancement du programme, lexistence du programme de transferts montaires est la
seule explication possible de la discontinuit constate aprs lintervention. En
dautres termes, puisque les mnages se situant dans les environs immdiats du seuil
dligibilit ( droite et gauche) bncient de caractristiques de dpart similaires, lcart entre les dpenses alimentaires moyennes des deux groupes aprs
lintervention correspond limpact du programme.

Utilisation du modle de discontinuit


de la rgression pour valuer le Programme
de subvention de lassurance maladie (PSAM)
Appliquons maintenant le modle de discontinuit de la rgression au programme
de subvention de lassurance maladie (PSAM). Aprs des analyses supplmentaires sur le fonctionnement du PSAM, vous concluez que, dans la pratique, les
autorits ont cibl le programme sur les mnages au revenu infrieur au seuil
national de pauvret. Le seuil de pauvret est fond sur un indice qui attribue
chaque mnage du pays un score compris entre 20 et 100 en fonction de leurs

86

Lvaluation dimpact en pratique

Figure 5.5 Indice de pauvret et dpenses de sant avant le lancement


du Programme de subvention de lassurance maladie

30.2933
Dpenses de sant prdites des mnages (en USD)

Seuil de pauvret

7.07444
23.0294

58
Indice de pauvret au moment
de lenqute de rfrence (1-100)

100

actifs, leurs conditions de logement et leur structure sociodmographique. Le seuil


de pauvret a t officiellement x 58, ce qui veut dire que tous les mnages
ayant un score infrieur 58 sont considrs comme pauvres et que tous les
mnages ayant un score suprieur 58 sont considrs comme non pauvres. Mme
dans les villages de traitement, seuls les mnages pauvres taient ligibles au
PSAM. Toutefois, votre chantillon comprend des donnes la fois sur les mnages
pauvres et sur les mnages non pauvres de ces villages.
En utilisant les mnages des villages de traitement de votre chantillon, un collgue vous aide effectuer une rgression multivarie pour tablir la corrlation entre
lindice de pauvret et les dpenses de sant prdites des mnages avant le lancement du PSAM (gure5.5). La gure montre clairement quau fur et mesure que le
score de pauvret dun mnage augmente, la rgression prdit un niveau de dpenses
de sant plus lev, ce qui indique que les mnages plus aiss ont tendance consacrer davantage de dpenses aux mdicaments et aux services de sant primaires.
Il convient de noter que la relation entre lindice de pauvret et les dpenses de sant
est continue, cest--dire quil ny a pas de signe de changement dans la relation
autour du seuil de pauvret.

Modle de discontinuit de la rgression

87

Figure 5.6 Indice de pauvret et dpenses de sant deux ans aprs


le lancement du Programme de subvention de lassurance maladie

30.2933
Dpenses de sant prdites des mnages (en USD)

Seuil de pauvret

Impact estim sur les


dpenses de sant (Y)
B

7.07444
23.0294

58
Indice de pauvret au moment
de lenqute de rfrence (1-100)

100

Deux ans aprs le lancement du pilote, vous constatez que seuls les mnages affichant un score infrieur 58 ( gauche du seuil de pauvret) ont pu participer au
PSAM. laide de donnes de suivi, vous tracez nouveau la relation entre les scores
de pauvret et les dpenses de sant prdites (voir gure5.6). Cette fois-ci, la relation entre lindice de pauvret et les dpenses de sant prdites nest plus continue.
Il y a une variation nette, ou discontinuit au seuil de pauvret.
Tableau 5.1 Cas 5 Impact du PSAM selon le modle de discontinuit
de la rgression (analyse de rgression)
Rgression linaire multivarie
Impact estim sur les dpenses
de sant des mnages

9,05**
(0,43)

Remarque : erreurs-types entre parenthses.


** Seuil de signification de 1 %.

88

Lvaluation dimpact en pratique

La discontinuit illustre une baisse des dpenses de sant de la part des mnages
ligibles au programme. tant donn que les mnages de part et dautre du seuil de
58 sont trs similaires, la seule explication possible pour la diffrence des dpenses
de sant est lligibilit au programme de lun des groupes de mnages. Vous estimez
cet cart au moyen dune rgression dont les conclusions gurent dans le tableau5.1.

QUESTION 5

A. Le rsultat indiqu dans le tableau 5.1 est-il valide pour tous les mnages ligibles ?
B. Par rapport limpact estim en utilisant lassignation alatoire, que nous indique le
rsultat sur les mnages dont le niveau de pauvret est juste au-dessous de 58 ?
C. Au vu de ce rsultat pour le cas 5, le PSAM doit-il tre tendu tout le pays ?

Le modle de discontinuit de
la rgression en pratique
Le modle de discontinuit de la rgression a t utilis dans diffrents contextes.
Lemieux et Milligan (2005) analysent les effets de laide sociale sur loffre de
main-duvre au Qubec. Martinez (2004) tudie limpact des retraites sur la
consommation en Bolivie. Filmer et Schady (2009) valuent limpact dun pro-

Encadr 5.1 : Aide sociale et offre de main-duvre


au Canada
Dans lune des tudes classiques utilisant le modle de discontinuit de la rgression, les auteurs examinent une discontinuit nette dans un programme dassistance sociale au Qubec (Canada), pour comprendre limpact du programme sur des
indicateurs dinsertion professionnelle. Ce programme dassistance, financ par le
Rgime dassistance publique du Canada, vient en aide aux chmeurs. Pendant de
nombreuses annes, le programme a vers des montants nettement infrieurs aux
individus de moins de 30 ans sans enfants en comparaison aux personnes de plus
de 30 ans (185 dollars par mois contre 507 dollars).
Afin dvaluer rigoureusement ce programme, Lemieux et Milligan (2005) limitent leur chantillon aux hommes sans enfants et sans diplmes dducation secondaire et utilisent des donnes du recensement canadien et de lEnqute sur la
population active. Pour justifier le choix de lapproche de discontinuit de la rgression, ils dmontrent que les hommes proches du seuil de discontinuit (entre 25 et
39 ans) prsentent des caractristiques observables trs similaires.
En comparant les sujets des deux cts du seuil dligibilit, les auteurs montrent que laccs des prestations sociales plus leves rduit denviron 4,5 % le
taux dinsertion professionnelle des hommes sans enfants de cette tranche dges.
Source : Lemieux et Milligan, 2005.

Modle de discontinuit de la rgression

89

gramme doctroi de bourses aux tudiants pauvres sur la scolarisation et les rsultats
scolaires au Cambodge. Buddelmeyer et Skouas (2004) comparent la performance
de la discontinuit de la rgression celle de lassignation alatoire dans le cas du
programme Progresa et concluent que les impacts estims laide de ces deux
mthodes sont similaires pour une grande majorit des rsultats analyss. Certains
de ces exemples sont dcrits plus en dtail dans les encadrs5.1, 5.2 et 5.3.

Encadr 5.2 : Frais de scolarit et taux de scolarisation en Colombie


En Colombie, Barrera-Osorio, Linden et Urquiola (2007) utilisent le modle de discontinuit de
la rgression pour valuer limpact dun programme de rduction des frais de scolarit
(Gratuidad) sur les taux de scolarisation Bogota. La population cible du programme est
dfinie laide de lindice SISBEN, un indice de
pauvret continu dont la valeur est dtermine
en fonction de caractristiques des mnages
comme lemplacement et les matriaux de
construction du logement, les services disponibles, les donnes dmographiques, ltat de
sant, le niveau dducation, le niveau de revenus et le travail exerc par les membres du mnage. Le gouvernement dfinit deux seuils sur
lindice SISBEN : les enfants des mnages
dont le score est infrieur au seuil n 1 sont
ligibles pour le programme dducation gratuite de la 1re la 11me anne ; les enfants des
mnages dont le score est compris entre le
seuil n 1 et le seuil n 2 sont ligibles une
subvention de 50 % des frais de scolarit pour
la 10me et 11me anne ; et les enfants des mnages dont le score est suprieur au seuil n 2
ne sont pas ligibles pour le programme dducation gratuite ou de subventions.
Les auteurs utilisent le modle de discontinuit de la rgression pour quatre raisons. Premirement, les caractristiques des mnages
comme le niveau de revenus ou dducation du

chef de famille sont continues tout au long de


lindice SISBEN au moment de lenqute de
rfrence, il ny a donc pas de bond dans
les caractristiques le long de lindice. Deuximement, les mnages de part et dautre des
seuils dfinis prsentent des caractristiques
similaires, ce qui indique que lapproche a cr
des groupes de comparaison crdibles. Troisimement, un grand chantillon de mnages est
disponible. Enfin, le gouvernement na pas
rvl la formule utilise pour calculer lindice
SISBEN pour que les mnages ne puissent pas
manipuler leurs scores.
En utilisant le modle de discontinuit de la
rgression, les chercheurs dcouvrent que le
programme a un impact positif significatif sur
les taux de scolarisation. Ainsi, le taux de scolarisation augmente de trois points pour les
lves dcoles primaires provenant de
mnages situs au-dessous du seuil n 1 et de
six points pour les lycens venant de mnages
se situant entre les seuils n 1 et n 2. Cette
tude dmontre les avantages de la rduction
des frais de scolarit directs, en particulier pour
les tudiants risque. Toutefois, les auteurs
appellent galement poursuivre les
recherches sur llasticit-prix afin de perfectionner llaboration des programmes de subventions comme celui-ci.

Source: Barrera-Osorio, Linden et Urquiola 2007.

90

Lvaluation dimpact en pratique

Encadr 5.3 : Filets de protection sociale fonds sur un indice de


pauvret en Jamaque
Le modle de discontinuit de la rgression est
galement utilis pour valuer limpact dun filet
de protection sociale en Jamaque. En 2001, le
Gouvernement jamacain lance le programme
PATH (Programme of Advancement through
Health and Education) afin de renforcer les investissements dans le capital humain et damliorer le ciblage de laide sociale aux pauvres. Le
programme offre des allocations de sant et
dducation aux enfants provenant de mnages
pauvres ligibles condition quils soient scolariss et quils effectuent des visites mdicales
rgulires. Lallocation mensuelle moyenne par
enfant slve environ 6,50 $, auxquels vient
sajouter lexonration de certains frais de soins
de sant et de scolarit.
tant donn que lligibilit au programme
est dtermine par un score, Levy et Ohls
(2007) comparent les mnages se situant juste
au-dessous du seuil dligibilit et ceux juste audessus (entre 2 et 15 points du seuil). Les chercheurs justifient lutilisation du modle de
discontinuit de la rgression partir de donnes de rfrence indiquant que les mnages
du groupe de traitement et ceux du groupe de
comparaison prsentent un niveau de pauvret
similaire, sur la base dun score proxy mean ,

et un degr de motivation similaire, tous les


mnages de lchantillon ayant demand
bnficier du programme. Les chercheurs utilisent aussi le score dligibilit au programme
dans lanalyse de rgression multivarie pour
contrler pour dventuelles diffrences observes entre les deux groupes.
Levy et Ohls (2007) dcouvrent que le programme PATH entrane une hausse de la scolarisation des enfants de six 17 ans de 0,5 jour
par mois en moyenne, un rsultat satisfaisant
tant donn que le taux de scolarisation de
dpart tait relativement lev, 85 %. Par
ailleurs, ils constatent une augmentation denviron 38 % du nombre de visites mdicales pour
les enfants de zro six ans. Bien que les chercheurs ne puissent pas dceler dimpacts long
terme sur les rsultats scolaires ou les indicateurs de sant, ils concluent que la magnitude
des impacts identifis concorde, globalement,
avec les programmes de transferts montaires
conditionnels mis en uvre dans dautres pays.
Enfin, cette valuation est fonde sur des donnes quantitatives et qualitatives collectes par
des systmes dinformation, des entretiens,
des groupes focaux et des enqutes auprs
des mnages.

Source: Levy and Ohls 2007.

Limites et interprtation du modle


de discontinuit de la rgression
Le modle de discontinuit de la rgression estime limpact moyen local aux alentours du seuil dligibilit, cest--dire au point o le groupe de traitement et le
groupe de comparaison sont les plus similaires. En sapprochant du seuil, les units
qui se situent gauche et droite du seuil sont de plus en plus similaires. En fait,
dans la proximit immdiate du seuil dligibilit, les units de part et dautre du
seuil sont tellement similaires que la comparaison est aussi prcise quen utilisant
lassignation alatoire pour gnrer les groupes de traitement et un de comparaison.

Modle de discontinuit de la rgression

91

Le modle de discontinuit de la rgression value limpact du programme localement aux alentours du seuil dligibilit. Lestimation ne peut pas systmatiquement tre gnralise aux units dont le score est plus loign de ce seuil, cest--dire
aux parties de la distribution o les units ligibles et non ligibles ne sont plus similaires. Le fait que cette approche ne permette pas de calculer leffet moyen du traitement pour tous les participants au programme peut tre considr comme un
avantage ou un inconvnient en fonction de linformation recherche. Si lvaluation
vise principalement savoir si le programme devrait ou non tre mis en uvre, leffet
moyen du traitement sur lensemble de la population ligible est probablement le
paramtre le plus pertinent, et limpact local estim par le modle de discontinuit
de la rgression nest pas satisfaisant. Toutefois, si la question est de savoir si le programme doit tre rduit ou au contraire largi, le modle de discontinuit de la
rgression fournit prcisment limpact local utile pour prendre cette dcision.
Le fait que cette mthode value les effets locaux moyens du traitement reprsente galement un d en termes de puissance statistique de lanalyse. tant donn
que les effets ne sont mesurs quautour du seuil dligibilit, cette mthode utilise
moins dobservations que dautres mthodes utilisant toutes les units disponibles.
Le modle de discontinuit de la rgression requiert des chantillons dvaluation
relativement importants pour obtenir une puissance statistique suffisante. Dans la
pratique, il faut dterminer une bande autour du seuil dligibilit sur laquelle portera lvaluation en assurant lquilibre des caractristiques observes des populations au-dessus et au-dessous du seuil dligibilit. Il est ensuite possible de rpter
lestimation avec des bandes diffrentes pour vrier si les rsultats sont robustes au
changement de la bande considre. En rgle gnrale, plus la bande est large, plus
la puissance statistique est leve puisquun plus grand nombre dobservations sont
prises en compte. Toutefois, en sloignant du seuil dligibilit, il peut tre ncessaire de formuler certaines hypothses concernant les formes fonctionnelles pour
obtenir une estimation crdible de limpact.
Lautre rserve concernant le modle de discontinuit de la rgression vient du
fait que la spcication peut varier en fonction de la forme fonctionnelle utilise
pour modliser la relation entre lindice dligibilit et le rsultat. Dans lexemple du
programme de transferts montaires, nous avons suppos que la relation entre lindice de pauvret des mnages et leurs dpenses alimentaires journalires tait
simple et linaire au moment de lenqute de rfrence. En ralit, la relation entre
lindice dligibilit et le rsultat(Y) au moment de lenqute de rfrence peut tre
beaucoup plus complexe et comprendre des relations et des interactions non
linaires. Si lestimation ne tient pas compte de ces relations complexes, elles risquent dtre interprtes comme un signe de discontinuit dans les rsultats
recueillis aprs lintervention. Dans la pratique, limpact du programme peut tre
estim en utilisant plusieurs formes fonctionnelles (linaire, quadratique, cubique,
etc.) pour dterminer si les estimations de limpact sont robustes aux changements
de la forme fonctionnelle.
Mme en tenant compte de ces rserves, le modle de discontinuit de la rgression permet dobtenir des estimations non biaises de limpact du programme aux
alentours du seuil dligibilit. Cette approche se base sur des indices dligibilit

92

Lvaluation dimpact en pratique

continus et des rgles dallocation de programme qui sont frquemment utiliss dans
les programmes sociaux. Lorsquun ciblage bas sur un indice est utilis, il nest pas
ncessaire dexclure du programme un groupe de mnages ou de personnes ligibles
pour raliser lvaluation puisque le modle de discontinuit de la rgression peut
tre utilis la place.

Notes
1. 1 acre = 0,40 ha.
2. Ceci est souvent appel un test proxy mean parce quil utilise les actifs du
mnage comme indicateurs pour approximer les moyens ou le pouvoir dachat
du mnage.

Rfrences
Barrera-Osorio, Felipe, Leigh Linden et Miguel Urquiola. 2007. The Effects of
User Fee Reductions on Enrollment: Evidence from a Randomized Natural
Experiment. Columbia University et Banque mondiale, Washington, DC.
Buddelmeyer, Hielke et Emmanuel Skouas. 2004. An Evaluation of the Performance of Regression Discontinuity Design on PROGRESA. Document de
travail consacr la recherche sur les politiques 3386, IZA Discussion Paper 827,
Banque mondiale, Washington, DC.
Filmer, Deon et Norbert Schady. 2009. School Enrollment, Selection and Test
Scores. Document de travail consacr la recherchesur les politiques 4998,
Banque mondiale, Washington, DC.
Lemieux, Thomas et Kevin Milligan. 2005. Incentive Effects of Social Assistance:
A Regression Discontinuity Approach. NBER Working Paper 10541, National
Bureau of Economic Research, Cambridge, MA.
Levy, Dan et Jim Ohls. 2007. Evaluation of Jamaicas PATH Program: Final
Report. Mathematica Policy Research, Inc., Ref. 8966-090, Washington, DC.
Martinez, S. 2004. Pensions, Poverty and Household Investments in Bolivia.
University of California, Berkeley, CA.

Modle de discontinuit de la rgression

93

CHAPITRE 6

Double diffrence
Les trois mthodes dvaluation dimpact abordes jusqu prsent (lassignation
alatoire, la promotion alatoire du traitement et le modle de discontinuit de la
rgression) permettent destimer le contrefactuel sur la base de rgles dallocation des programmes qui sont connues et comprises par lvaluateur. Nous avons
expos les raisons pour lesquelles ces mthodes fournissent des estimations crdibles du contrefactuel en utilisant relativement peu dhypothses et conditions.
Les deux mthodes que nous allons maintenant aborder (la double diffrence et
lappariement) pourvoient lvaluateur doutils utilisables lorsque les rgles dassignation des programmes sont moins claires ou lorsquaucune des autres
mthodes dcrites ci-dessus nest applicable. Comme nous allons le voir, la
double diffrence (DD) et lappariement constituent de puissants outils statistiques qui sont souvent utiliss ensemble ou en conjonction avec dautres
mthodes dvaluation dimpact.
Tant la double diffrence que lappariement sont couramment utiliss, mais
reposent sur des hypothses plus contraignantes que les mthodes de slection
alatoire. Prcisons tout de suite que ces deux mthodes ne peuvent pas tre
appliques sans des donnes de rfrence collectes avant le dbut du programme valuer1.
Comme son nom lindique, la mthode de la double diffrence compare les
diffrences de rsultats au l du temps entre une population participant un programme (le groupe de traitement) et une autre ny participant pas (le groupe de
comparaison). Prenons lexemple dun programme de construction de routes qui
ne peut pas faire lobjet dune assignation alatoire ni dune attribution sur la
base dun indice continu assorti dun seuil dligibilit, rendant lutilisation du
modle de discontinuit de la rgression impossible. Comme lun des objectifs de
ce programme est damliorer laccs au march du travail, le taux demploi

Concept cl :
La mthode de la
double diffrence
estime le contrefactuel
pour le changement du
rsultat dans le groupe
de traitement en
utilisant le changement
du rsultat dans le
groupe de comparaison. Cette mthode
permet de prendre en
compte les diffrences
entre le groupe de
traitement et le groupe
de comparaison qui
sont invariables dans
le temps.

95

constitue lun des indicateurs de rsultat. Comme nous lavons vu au chapitre 3,


la simple observation du changement du taux de chmage avant et aprs la mise
en uvre du programme ne suffit pas mesurer son effet causal. En effet, de
nombreux autres facteurs variables dans le temps peuvent inuencer le taux de
chmage. De mme, comparer les rgions qui ont reu le programme celles qui
ne lont pas reu serait problmatique puisquil peut exister des raisons non
observes pour lesquelles certaines rgions ont bnci du programme et
dautres non (il sagit du problme du biais de slection voqu dans la comparaison avec-sans, ou inscrits et non inscrits).
Cependant, que se passerait-il si nous combinions les deux mthodes pour
comparer les rsultats avant-aprs dun groupe qui a pris part au programme et
dun groupe qui ny a pas pris part ? La diffrence dans les rsultats avant-aprs
pour le groupe participant (la premire diffrence) contrle pour les facteurs
invariables dans le temps qui affectent ce groupe, pour la simple raison que nous
comparons le groupe lui-mme. La diffrence avant-aprs ne tient toutefois pas
compte des facteurs externes variables dans le temps. Une manire de prendre
en compte ces facteurs externes variables dans le temps est de mesurer la diffrence de rsultats avant-aprs pour un groupe qui na pas particip au programme, mais qui a t expos aux mmes conditions externes (la deuxime
diffrence). Si nous purons la premire diffrence des effets des autres facteurs
variables dans le temps qui inuent sur les rsultats en soustrayant la deuxime
diffrence, nous liminons la principale source de biais qui posait problme dans
la simple comparaison avant-aprs. La double diffrence combine donc les deux
contrefactuels contrefaits (comparaisons avant-aprs et comparaisons avec-sans
entre les participants et les non participants) pour produire une meilleure estimation du contrefactuel. Dans le cas de notre programme routier, la mthode DD
comparerait par exemple la diffrence entre les taux demploi observs dans les
zones concernes par la construction des routes avant et aprs la mise en uvre
du programme, et ce mme changement dans le taux demploi observ dans les
zones o le programme na pas t mis en uvre.
Il est important de relever que le contrefactuel estim par la mthode de
double diffrence correspond au changement des rsultats pour le groupe de
comparaison. Le groupe de traitement et le groupe de comparaison ne doivent
pas ncessairement tre similaires avant lintervention. Toutefois, pour que la
mthode DD soit valide, le groupe de comparaison doit fournir une estimation
prcise du changement de rsultats qui aurait prvalu dans le groupe de traitement sil navait pas particip au programme. Pour appliquer la double diffrence, il suffit de mesurer les rsultats du groupe de participants (le groupe de
traitement) et ceux du groupe de non participants (le groupe de comparaison)
tant avant quaprs la mise en uvre du programme. La mthode ne requiert pas
de prciser les rgles dassignation du programme.
La gure 6.1 illustre la mthode de la double diffrence. Un groupe de traitement participe un programme et un groupe de comparaison ny participe pas.

96

Lvaluation dimpact en pratique

Figure 6.1

Double diffrence

Groupe de
comparaison

Rsultat

C = 0.78

D = 0.81
B = 0.74
Impact = 0,11
E

}
A = 0.60

Groupe de
traitement

Tendance du groupe
de comparaison

Anne 0
Anne 1
Temps

Les variables de rsultats avant et aprs pour le groupe de traitement sont A et B


respectivement tandis que le rsultat du groupe de comparaison passe de C avant
le programme D aprs sa mise en uvre.
Souvenez-vous des deux contrefactuels contrefaits : la diffrence de rsultats
avant et aprs lintervention pour le groupe de traitement (B A) et la diffrence
de rsultats2 aprs lintervention entre le groupe de traitement et le groupe de
comparaison (B D). Selon la mthode de la double diffrence, lestimation du
contrefactuel est obtenue en calculant la diffrence des rsultats du groupe de
comparaison avant et aprs lintervention (D C). Ce contrefactuel pour le changement du rsultat travers le temps est ensuite soustrait du changement du
rsultat observ pour le groupe de traitement (B A).
En rsum, limpact du programme est calcul comme la diffrence entre
deux diffrences :
Impact par DD = (B A) (D C) = (B E) = (0,74 0,60) (0,81 0,78) = 0,11.
Le contenu de la gure 6.1 peut galement tre illustr sous forme de tableau.
Le tableau 6.1 expose les composantes de lestimation par double diffrence. La
premire ligne du tableau contient les rsultats du groupe de traitement, avant
(A) et aprs (B) lintervention. La comparaison avant-aprs pour le groupe de
traitement constitue la premire diffrence (B A). La deuxime ligne du tableau
contient les rsultats du groupe de comparaison avant (C) et aprs (D) lintervention. La deuxime diffrence correspond donc D C.

Double diffrence

97

Tableau 6.1

Double diffrence
Aprs

Avant

Diffrence

Traitement/participants

BA

Comparaison/
non participants

DC

BD

AC

DD = (B A) (D C)

Aprs

Avant

Diffrence

Traitement/participants

0,74

0,60

0,14

Comparaison/
non participants

0,81

0,78

0,03

0,07

0,18

DD = 0,14 0,03 = 0,11

Diffrence

Diffrence

La mthode de la double diffrence calcule limpact estim selon la formule suivante :


1. Nous calculons la diffrence de rsultat (Y) entre la situation avant et aprs pour
le groupe de traitement (B A).
2. Nous calculons la diffrence de rsultat (Y) entre la situation avant et aprs pour
le groupe de comparaison (D C).
3. Nous calculons ensuite la diffrence entre la diffrence de rsultats pour le groupe
de traitement (B A) et la diffrence pour le groupe de comparaison (D C), soit
DD = (B A) (D C). La double diffrence est notre estimation dimpact.

En quoi la mthode de la double diffrence est-elle utile ?


Pour comprendre comment cette mthode peut tre utile, reprenons le deuxime
contrefactuel contrefait, qui compare les participants au programme aux non participants. Souvenez-vous que le principal problme dans ce cas est que les deux
groupes ont potentiellement des caractristiques diffrentes qui peuvent tre
lorigine des diffrences de rsultats entre les deux groupes. Les diffrences non
observes entre les caractristiques sont particulirement proccupantes : par
dnition, il est impossible de prendre en compte les diffrences de caractristiques non observes dans lanalyse.

98

Lvaluation dimpact en pratique

La mthode de la double diffrence contribue rsoudre ce problme dans la


mesure o de nombreuses caractristiques unitaires ou individuelles peuvent raisonnablement tre considres comme invariables dans le temps. Prenons
lexemple des caractristiques observes, telles que lanne de naissance dune personne, la proximit dune rgion la mer, le niveau de dveloppement conomique
dune ville ou le niveau dducation dun pre de famille. Mme si la plupart de ces
variables peuvent plausiblement inuencer des rsultats, elles sont peu susceptibles de changer pendant une valuation. En suivant le mme raisonnement, de
nombreuses caractristiques non observes peuvent elles aussi tre considres
comme invariables dans le temps. Prenons par exemple lintelligence dune personne ou des traits de caractre comme la motivation, loptimisme, lautodiscipline
ou les antcdents mdicaux dune famille. Il est probable quun grand nombre de
ces caractristiques intrinsques nvoluent pas avec le temps.
Lorsquun mme individu est observ avant et aprs la mise en uvre dun
programme et que nous calculons une simple diffrence de rsultat pour ce dernier, nous annulons leffet de toutes les caractristiques qui sont uniques cet
individu ou qui ne changent pas avec le temps. En effet, des facteurs constants
travers le temps ne peuvent pas expliquer le changement du rsultat travers le
temps. Il est important de souligner que nous contrlons ainsi non seulement
pour leffet des caractristiques invariables observes (que nous pouvons tenir en
compte ou contrler), mais aussi celui des caractristiques invariables non observes comme celles mentionnes ci-dessus.
Lhypothse des tendances gales dans la mthode
de la double diffrence
La mthode de la double diffrence permet de tenir compte des diffrences entre
le groupe de traitement et le groupe de comparaison qui sont invariables dans le
temps ; toutefois, elle ne permet pas dliminer les diffrences entre ces deux
groupes qui changent au cours du temps. Dans lexemple du projet routier mentionn ci-dessus, si les zones dintervention bncient galement de la construction dun nouveau port maritime, nous ne pourrons pas sparer leffet de la
construction de routes de leffet de la construction du port en utilisant lapproche
de la double diffrence. Pour que celle-ci puisse fournir une estimation valable du
contrefactuel, il faut partir de lhypothse quil nexiste aucune diffrence variable
dans le temps entre le groupe de traitement et le groupe de comparaison.
En dautres termes, il faut partir du principe que, en labsence du programme, les
changements du rsultat entre le groupe de traitement et le groupe de comparaison
volueraient en parallle. Autrement dit, les rsultats varieraient au mme rythme
pour les deux groupes sans le traitement, que ce soit la hausse ou la baisse. Il faut
donc que les rsultats affichent des tendances quivalentes en labsence de traitement.
Malheureusement, nous navons aucun moyen de prouver que les diffrences
entre le groupe de traitement et le groupe de comparaison auraient volu en
parallle en labsence du programme. En effet, nous ne pouvons pas observer la
faon dont le groupe de traitement voluerait en labsence du traitement ( savoir
le contrefactuel).
Double diffrence

99

Ds lors, lorsque nous utilisons la mthode de la double diffrence, nous devons


postuler quen labsence du programme, le rsultat du groupe de traitement aurait
volu en parallle celui du groupe de comparaison. La gure 6.2 illustre une
violation de ce postulat fondamental qui est requis pour que la mthode de la
double diffrence produise des estimations dimpact crdibles. Si les tendances du
rsultat diffrent entre le groupe de traitement et le groupe de comparaison, limpact estim du traitement obtenu grce cette mthode sera invalide ou biais. En
effet, dans ce cas la tendance pour le groupe de comparaison nest pas une estimation valide de la tendance contrefactuelle quaurait suivie le groupe de traitement
en labsence de programme. Dans la gure 6.2, le rsultat du groupe de comparaison progresse plus lentement que le rsultat du groupe de traitement en labsence
du programme, donc, lutilisation de la tendance du groupe de comparaison
comme contrefactuel de la tendance du groupe de traitement entrane une surestimation de limpact du programme.
Tester la validit de lhypothse des tendances quivalentes
dans la mthode de la double diffrence
La validit de lhypothse des tendances quivalentes peut tre teste mme si
elle ne peut pas tre totalement avre. Une bonne approche pour tester sa validit consiste comparer les tendances du rsultat du groupe de traitement et du
groupe de comparaison avant la mise en uvre du programme. Si les rsultats
voluent en parallle avant le dbut du programme, il est probable quils auraient
continu voluer en parallle durant la priode conscutive lintervention.

Figure 6.2

Double diffrence en cas de divergence des tendances du rsultat

Groupe de
comparaison
D = 0.81

C = 0.78

Rsultat

B = 0.74
A = 0.60

el
factuel r
ntre
Co

Groupe de
traitement

} Impact < 0,11


Tendance du groupe
de comparaison

Anne 0
Anne 1
Temps

100

Lvaluation dimpact en pratique

Pour vrier lquivalence des tendances avant lintervention, il faut avoir disposition au moins deux rondes de donnes tant pour le groupe de traitement que
le groupe de comparaison avant que le programme ne soit lanc. Lvaluation
ncessite donc trois rondes de donne : deux observations avant lintervention
pour valuer les tendances avant le lancement du programme et au moins une
observation aprs lintervention pour valuer limpact par double diffrence.
Une deuxime manire de tester lhypothse des tendances quivalentes
consiste effectuer un test dit placebo . Ce test formule une estimation par
double diffrence supplmentaire en utilisant un faux groupe de traitement,
cest--dire un groupe qui na en ralit pas t affect par le programme. Par
exemple, pour estimer limpact dun programme de tutorat personnalis sur la
probabilit que les tudiants de 7me anne frquentent davantage lcole, vous
choisissez des tudiants de 8me anne comme groupe de comparaison. Pour savoir
si les lves de 7me et 8me anne prsentent les mmes tendances en matire de
taux de frquentation scolaire, vous pourriez analyser si les lves de 6me et 8me
anne prsentent les mmes tendances. Vous savez que les lves de 6me anne ne
sont pas affects par le programme ; donc si vous effectuez une estimation par
double diffrence en utilisant des tudiants de 8me anne comme groupe de comparaison et des tudiants de 6me anne comme faux groupe de traitement, vous
devriez obtenir un impact nul. Si ce nest pas le cas, limpact estim doit provenir
dune diffrence sous-jacente entre les tendances de ces deux groupes dlves.
Cela remettrait galement en question lexistence de tendances quivalentes pour
les tudiants de 7me et 8me anne en labsence de programme.
Un test placebo peut tre ralis non seulement avec un faux groupe de traitement, mais galement avec un faux rsultat. Dans lexemple du tutorat, vous pouvez aussi vrier la validit de votre choix des tudiants de 8me anne comme
groupe de comparaison en valuant limpact du tutorat sur un rsultat qui ne sera
pas affect, par exemple le nombre de frres et surs des tudiants. Si votre estimation par double diffrence conclut que le tutorat a un impact sur le nombre de
frres et surs des tudiants, il est probable que le groupe de comparaison ne soit
pas adquat.
Il existe une quatrime manire de tester lhypothse des tendances quivalentes, et ce, en appliquant lestimation par double diffrence diffrents groupes
de comparaison. Dans lexemple du tutorat, vous pouvez effectuer dans un premier
temps lestimation en utilisant les tudiants de 8me anne comme groupe de comparaison, puis vous pouvez formuler une deuxime estimation en utilisant les tudiants de 6me anne. Si les impacts estims dans les deux cas sont quivalents, il est
probable que les deux groupes de comparaison soient valides.

Double diffrence

101

Utilisation de la double diffrence pour valuer


le Programme de subvention de lassurance maladie
(PSAM)
La mthode de la double diffrence peut tre utilise pour valuer limpact du
programme de subvention de lassurance maladie (PSAM). Dans ce scnario,
vous disposez de deux rondes de donnes sur deux groupes de mnages, lun
ayant particip au programme et lautre non. Vous savez quen raison du biais de
slection vous ne pouvez pas effectuer une simple comparaison des dpenses de
sant entre les participants et les non participants. tant donn que vous disposez de donnes couvrant deux priodes pour chaque mnage de lchantillon,
vous pouvez utiliser les donnes pour comparer le changement des dpenses des
deux groupes, en partant du principe que le changement des dpenses de sant
des non participants rete ce quauraient t les dpenses des participants en
labsence du programme (voir tableau 6.2). Au passage, la faon dont vous calculez la double diffrence dans le tableau, savoir par colonne ou par ligne, fournit
le mme rsultat.
Vous estimez ensuite limpact en utilisant une analyse de rgression (tableau 6.3).
laide dune rgression linaire simple, vous dcouvrez que le programme a
entran une rduction des dpenses de sant des mnages de 7,8 dollars. Vous affinez ensuite votre analyse en effectuant une rgression linaire multivarie pour
contrler pour plusieurs autres facteurs, et vous constatez la mme rduction des
dpenses de sant des mnages.
QUESTION 6

A. Quelles sont les hypothses fondamentales qui sous-tendent le rsultat du cas 6 ?


B. Au vu de ces rsultats pour le cas 6, le PSAM doit-il tre largi lchelle nationale ?
Tableau 6.2 Cas 6 Impact du PSAM selon la mthode de la double
diffrence (comparaison des moyennes)

Inscrits
Non-inscrits

Aprs
(suivi)

Avant (donnes
de rfrence)

Diffrence

7,8

14,4

6,6

21,8

20,6

Diffrence

1,2
DD = 6,6 1,2 = 7,8

Tableau 6.3 Cas 6 Impact du PSAM selon la mthode de la double


diffrence (analyse de rgression)
Rgression
linaire

Rgression linaire
multivarie

7,8**

7,8**

(0,33)

(0,33)

Impact estim sur les dpenses


de sant des mnages
Remarque : erreurs-types entre parenthses.
** Seuil de signification de 1 %.

102

Lvaluation dimpact en pratique

La mthode de la double diffrence en pratique


Malgr les limites quelle prsente, la mthode de la double diffrence reste lune
des plus utilises pour lvaluation dimpact. Il en existe de nombreux exemples
dans la littrature. Par exemple, Duo (2001) analyse limpact de la construction
dcoles sur la scolarisation, les indicateurs demploi et les salaires en Indonsie.
DiTella et Schargrodsky (2005) cherchent quant eux savoir si un renforcement
des forces de police rduit la criminalit. Un autre exemple important est expos
lencadr 6.1.

Encadr 6.1 : Privatisation de lapprovisionnement en eau et mortalit


infantile en Argentine
Galiani, Gertler et Schargrodsky (2005) utilisent la
mthode de la double diffrence pour dterminer
si la privatisation des services dapprovisionnement en eau amliore les rsultats dans le domaine de la sant et contribue rduire la pauvret. Dans les annes 90, lArgentine a lanc lune
des plus grandes campagnes de privatisation de
son histoire, transfrant le contrle de compagnies
locales dapprovisionnement en eau des socits
prives desservant environ 30 % des municipalits
du pays et 60 % de la population. Le processus de
privatisation a pris une dcennie, la plus grande
vague des privatisations ayant eu lieu aprs 1995.
Galiani, Gertler et Schargrodsky (2005) utilisent la privatisation graduelle des compagnies
dapprovisionnement en eau pendant dix ans
pour dterminer limpact de cette privatisation
sur la mortalit des enfants de moins de
cinq ans. Avant 1995, les taux de mortalit
infantile diminuent un rythme globalement
similaire dans toute lArgentine, mais aprs
1995, ils baissent plus rapidement dans les
municipalits o les services dapprovisionnement en eau ont t privatiss. Selon les chercheurs, lhypothse fondamentale sous-tendant
la mthode de la double diffrence est probablement correcte dans ce contexte. Premirement, la dcision de privatiser les infrastructures
nest pas corrle des chocs conomiques ou

aux niveaux historiques de la mortalit infantile.


Deuximement, les municipalits constituant
le groupe de traitement et les municipalits
constituant le groupe de comparaison affichent
des tendances de mortalit infantile comparables avant le lancement de la privatisation.
Les chercheurs vrifient la validit de leurs
conclusions en dcomposant limpact de la privatisation sur la mortalit infantile par cause de
dcs. Ils dcouvrent que la privatisation des
services dapprovisionnement en eau est corrle avec la rduction du nombre de dcs lis
des maladies infectieuses et parasitaires,
mais pas aux dcs non lis la qualit de leau
(comme les accidents ou les maladies congnitales). Lvaluation permet de dterminer que la
mortalit infantile baisse de prs de 8 % dans
les zones o les services dapprovisionnement
en eau ont t privatiss, et que limpact est
plus marqu (environ 26 %) dans les zones les
plus pauvres, o lexpansion du rseau de distribution deau a t la plus importante. Cette
tude informe plusieurs dbats importants sur
la privatisation des services publics. Les chercheurs concluent que le secteur priv rglement en Argentine est plus efficace que
le secteur public pour amliorer les indicateurs
daccs, de services et, surtout, de mortalit
infantile.

Source : Galiani, Gertler et Schargrodsky 2005.

Double diffrence

103

Limites de la mthode de la double diffrence


La mthode de la double diffrence est gnralement moins solide que les mthodes
de slection alatoire (assignation alatoire, offre alatoire et promotion alatoire).
Mme si les tendances sont quivalentes entre les deux groupes avant lintervention,
lestimation peut prsenter un biais. En effet, la mthode DD attribue lintervention
toute diffrence de tendances entre le groupe de traitement et le groupe de comparaison survenant partir du lancement de lintervention. Sil existe dautres facteurs
inuenant la diffrence de tendances entre les deux groupes, lestimation sera non
valide ou biaise.
Admettons que vous souhaitiez estimer limpact du subventionnement de
lachat dengrais sur la production de riz en mesurant la production des exploitants subventionns (groupe de traitement) et celle des exploitants non subventionns (groupe de comparaison), avant et aprs loctroi des subventions. Si au
cours de la premire anne, les exploitants subventionns sont touchs par la
scheresse alors que les exploitants non subventionns ne le sont pas, la mthode
de la double diffrence produira une estimation incorrecte de limpact du programme de subventionnement des achats dengrais. En gnral, tout facteur
affectant uniquement le groupe de traitement et intervenant en mme temps que
le traitement est susceptible dinvalider ou de biaiser lestimation dimpact du
programme. La mthode de la double diffrence repose sur lhypothse que ces
facteurs nexistent pas.

Notes
1. Bien que, en thorie, lassignation alatoire, la promotion alatoire et le
modle de discontinuit de la rgression ne ncessitent pas de donnes de
rfrence, en pratique, ces dernires sont essentielles pour conrmer que les
caractristiques du groupe de traitement et du groupe de comparaison sont
semblables. Pour cette raison, nous recommandons de collecter des donnes
de base pour toute valuation. Outre la vrication de la comparabilit des
deux groupes, il existe dautres bonnes raisons de collecter des donnes de
base, mme si la mthode utilise ne lexige pas. Premirement, avoir
disposition des caractristiques (exognes) de la population avant lintervention peut permettre de dterminer si le programme a un impact diffrent au
sein de la population ligible en fonction des caractristiques mesures avant
le programme (analyse dhtrognit). Deuximement, les donnes de base
peuvent galement permettre deffectuer une analyse an dinformer les
gestionnaires de programme avant mme le dbut de lintervention. La
collecte des donnes de base peut par ailleurs servir de pilote lchelle pour
la collecte de donnes aprs lintervention. Troisimement, les donnes de
base peuvent servir de garantie si lassignation alatoire nest pas mise en
uvre correctement. Lvaluateur peut alors utiliser une combinaison

104

Lvaluation dimpact en pratique

dappariement et de double diffrence pour remdier dventuels problmes


dans la mise en uvre de lassignation alatoire. Enn, lexistence de donnes
de base peut augmenter la puissance statistique de lanalyse si le nombre
dunits dans le groupe de traitement et de comparaison est limit.
2. Les diffrences entre les points doivent tre interprtes comme des diffrences verticales sur laxe vertical de rsultat.

Rfrences
DiTella, Rafael et Ernesto Schargrodsky. 2005. Do Police Reduce Crime?
Estimates Using the Allocation of Police Forces after a Terrorist Attack.
American Economic Review 94 (1) : 11533.
Duo, Esther. 2001. Schooling and Labor Market Consequences of School
Construction in Indonesia: Evidence from an Unusual Policy Experiment.
American Economic Review 91 (4) : 795813.
Galiani, Sebastian, Paul Gertler et Ernesto Schargrodsky. 2005. Water for Life:
The Impact of the Privatization of Water Services on Child Mortality. Journal
of Political Economy 113 (1) : 83120.

Double diffrence

105

CHAPITRE7

Appariement
La mthode dcrite dans ce chapitre comprend une srie de techniques statistiques que nous dsignerons collectivement par le terme dappariement. Les
mthodes dappariement peuvent tre appliques quelles que soient les rgles
dassignation de programme, partir du moment o il existe un groupe qui na pas
particip au programme. Les mthodes dappariement utilisent les caractristiques observes des inscrits et non-inscrits pour gnrer un groupe de comparaison. Ces mthodes reposent donc sur lhypothse trs forte quil ny a pas de
diffrence non observe corrle aux rsultats entre le groupe de traitement et le
groupe de comparaison. En raison de cette hypothse trs contraignante, les
mthodes dappariement sont gnralement plus utiles lorsquelles sont combines lune des autres mthodes dcrites ci-dessus.
Fondamentalement, lappariement utilise des techniques statistiques pour
produire un groupe de comparaison articiel en cherchant, pour chaque participant, une observation (ou une srie dobservations) du groupe de non-inscrits
qui prsente des caractristiques observables les plus semblables possible. Imaginez que vous cherchiez valuer limpact dun programme et que vous disposiez de donnes issues dune enqute dmographique et sanitaire la fois pour
les mnages participants et non participants. Le programme que vous cherchez
valuer na pas de rgle dassignation claire (comme lutilisation de lassignation alatoire ou dun indice dligibilit) qui puisse expliquer pourquoi certains
mnages participent au programme et dautres non. Dans ce contexte, les
mthodes dappariement peuvent vous permettre didentier les mnages
non-inscrits les plus semblables aux mnages inscrits sur la base des caractristiques observes dans les donnes. Les mnages non-inscrits apparis forment alors le groupe de comparaison servant estimer le contrefactuel.

Concept cl :
Lappariement consiste
utiliser de grandes
bases de donnes et
des techniques
statistiques complexes
pour gnrer le
meilleur groupe de
comparaison artificiel
possible pour un
groupe de traitement
donn.

107

Pour trouver une unit correspondant au mieux chaque participant du programme, il est important de dnir le plus prcisment possible les variables ou
dterminants expliquant pourquoi chaque individu a dcid de participer au programme ou non. Cette tche nest malheureusement pas simple. Si la liste des
caractristiques observes pertinentes est trs longue, ou si chaque caractristique comporte plusieurs valeurs, il peut tre difficile de trouver une unit correspondant exactement chacune des units du groupe de traitement. Plus le
nombre de caractristiques ou de dimensions des units apparier augmente,
plus vous risquez dtre confront un problme de dimensionnalit . Par
exemple, si vous nutilisez que trois caractristiques pour constituer le groupe de
comparaison appari, par exemple lge, le sexe et le lieu de naissance, vous trouverez probablement pour chaque participant des units correspondantes au sein
du groupe des non participants, mais vous courrez le risque de ne pas tenir
compte dautres caractristiques potentiellement importantes. En revanche, si
vous augmentez la liste des variables dappariement, par exemple, le nombre
denfants, le nombre dannes dducation, lge de la mre, lge du pre, etc.,
votre base de donnes risque de ne pas contenir assez dunits correspondantes
pour chaque participant au programme, moins quelle ne contienne un trs
grand nombre dobservations. La gure7.1 prsente un exemple dappariement
bas sur quatre caractristiques: lge, le genre, le nombre de mois de chmage
et le diplme dducation secondaire.
Heureusement, le problme de dimensionnalit peut tre vit en utilisant la
mthode dappariement par le score de propension (Rosenbaum et Rubin 1983).
Avec cette approche, il nest pas ncessaire dapparier chaque participant un non
participant prsentant exactement les mmes caractristiques observes. Il est suffisant destimer la probabilit que chaque participant et non participant sinscrive

Figure 7.1

Appariement exact sur la base de quatre caractristiques

Units de traitement
ge
19
35
41
23
55
27
24
46
33
40

108

Sexe
1
1
0
1
0
0
1
0
0
1

Mois de
chmage
3
12
17
6
21
4
8
3
12
2

Units de comparaison
Diplme
0
1
1
0
1
1
1
0
1
0

ge
24
38
58
21
34
41
46
41
19
27

Sexe
1
0
1
0
1
0
0
0
1
0

Mois de
chmage
8
2
7
2
20
17
9
11
3
4

Diplme
1
0
1
1
0
1
0
1
0
0

Lvaluation dimpact en pratique

au programme sur la base de ses caractristiques observes. Cette probabilit est


appele le score de propension. Ce score est un chiffre compris entre zro et un qui
rsume toutes les caractristiques observes inuenant la participation au programme dune unit.
Une fois le score de propension calcul pour toutes les units, les units du
groupe de traitement peuvent tre apparies celles du groupe de non-inscrits
qui affichent le score le plus proche1. Lensemble des units les plus proches
forme alors le groupe de comparaison et peut tre utilis pour estimer le contrefactuel. La mthode dappariement par le score de propension vise imiter le
mcanisme dassignation alatoire en choisissant des units les plus semblables
possible aux participants pour constituer le groupe de comparaison. tant donn
que lappariement par le score de propension nest pas vraiment une mthode
dassignation alatoire, mais tente de la rpliquer, cette mthode appartient la
catgorie des mthodes quasi exprimentales.
La diffrence moyenne entre le rsultat (Y) des units soumises au traitement
et des units de comparaison apparies constitue limpact estim du programme.
En rsum, limpact du programme est estim en comparant la moyenne des
rsultats du groupe de traitement (les participants) la moyenne des rsultats
dun groupe dunits statistiquement semblables apparies sur la base des caractristiques observes dans la base de donne disponible.
Pour que lappariement par le score de propension dbouche sur des estimations valides de limpact dun programme, toutes les units du groupe de traitement doivent pouvoir tre apparies une unit non participante2. Cependant, il
arrive souvent que pour certaines units participantes, aucune unit non inscrite
ne prsente un score de propension similaire. En termes techniques, il sagit dun
problme de support commun entre les scores de propension du groupe de
traitement et du groupe des non participants.
La gure7.2 illustre ce problme de support commun. En premier temps,
la probabilit que chaque unit de lchantillon participe au programme est estime sur la base des caractristiques observes. Un score de propension est alors
attribu chaque unit. Le score de propension est la probabilit estime que
cette unit participe au programme. La gure illustre la distribution des scores
de propension pour les participants et les non participants. Les deux distributions ne se chevauchent pas parfaitement. Pour un score de propension moyen,
lappariement est facile, car les participants et les non participants prsentent
des caractristiques similaires. Toutefois, les units dont le score de propension
estim est proche de zro ou de un ne peuvent tre apparies un non participant. Intuitivement, les units qui ont de fortes chances de participer au programme sont tellement diffrentes des non participants quaucune unit
correspondante ne peut tre trouve. Le problme de support commun concerne
donc les extrmits de la distribution des scores de propension.

Appariement

109

Figure 7.2

Appariement par le score de propension et support commun

Inscrits

Densit

Non-inscrits

Support commun

Score de propension

Jalan et Ravallion (2003a) rsument les tapes suivre pour effectuer un


appariement par le score de propension3. Premirement, il faut disposer denqutes reprsentatives hautement comparables permettant didentier la fois
les participants au programme et les non inscrits. Deuximement, il faut regrouper les deux chantillons et estimer la probabilit que chaque individu participe
au programme sur la base des caractristiques observes dans les donnes. Cette
tape permet dobtenir le score de propension. Troisimement, il faut limiter
lchantillon aux units pour lesquelles il existe un support commun dans la distribution des scores de propension. Quatrimement, il sagit didentier, pour
chaque unit participante, un sous-groupe dunits non participantes prsentant
des scores de propension similaires. Cinquimement, les rsultats des units
participantes peuvent tre compars ceux des units non participantes apparies. La diffrence entre les rsultats moyens des deux sous-groupes correspond limpact du programme pour lobservation concerne. Siximement, la
moyenne de ces impacts individuels constitue lestimation de limpact moyen du
traitement.
En rsum, il convient de retenir deux points importants concernant lappariement. Premirement, lappariement doit tre effectu en utilisant les caractristiques des donnes de rfrence collectes avant la mise en place du programme.
Deuximement, la qualit des rsultats obtenus par la mthode dappariement
dpend en grande partie de la qualit des caractristiques utilises, et il est donc
essentiel de disposer de bases de donnes trs compltes.

110

Lvaluation dimpact en pratique

Utilisation des techniques dappariement


pour le Programme de subvention de lassurance
maladie (PSAM)
Maintenant que vous comprenez les techniques dappariement, vous vous demandez
comment amliorer les prcdentes estimations de limpact du programme de subvention de lassurance maladie (PSAM). Vous dcidez dutiliser certaines techniques dappariement pour slectionner des groupes de mnages participants et non participants
prsentant des caractristiques observes similaires. Vous estimez tout dabord la probabilit quune unit participe au programme sur la base de caractristiques observes
(des variables explicatives), telles que lge du chef de famille et de son conjoint, leur
niveau dducation, le genre du chef de famille, lappartenance du mnage la population autochtone, etc. Comme lillustre le tableau7.1, la probabilit quun mnage participe au programme est moindre sil est plus g, sil a plus dducation, sil est dirig par
une femme ou sil possde une salle de bains ou une plus grande supercie de terres.
En revanche, lappartenance la population autochtone, le nombre plus lev de
membres dans le mnage et lexistence dun sol en terre battue dans le logement sont
autant de facteurs qui sont positivement corrls la probabilit de participation au
Tableau 7.1 Estimation du score de propension sur la base des
caractristiques observes
Variable dpendante : Participant = 1
Caractristiques/variables explicatives

Coefficient

ge du chef du mnage (en annes)

0,022**

ge du conjoint (en annes)

0,017**

Niveau dducation du chef du mnage (en annes)

0,059**

Niveau dducation du conjoint (en annes)

0,030**

Le chef du mnage est une femme = 1

0,067

Autochtone = 1

0,345**

Nombre de personnes dans le mnage

0,216**

Sol en terre battue = 1

0,676**

Salle de bains = 1

0,197**

Hectares de terre

0,042**

Distance de lhpital (en km)

0,001*

Constante

0,664**

Remarque : rgression probit. La variable dpendante correspond 1 si le mnage participe au PSAM


et 0 sil ny participe pas. Les coefficients reprsentent la contribution de chaque caractristique/
variable explicative considre dans la probabilit quun mnage participe au PSAM.
* Seuil de signification de 5 % ; ** Seuil de signification de 1 %.

Appariement

111

Tableau 7.2 Cas 7Impact du PSAM selon la mthode dappariement


(comparaison des moyennes)

Participants

Nonparticipants
apparis

Diffrence

Stat. de t

7,8

16,1

8,3

13,1

Dpenses de sant
des mnages

Tableau 7.3 Cas 7 Impact du PSAM selon la mthode dappariement


(analyse de rgression)
Rgression linaire multivarie
Impact estim sur les dpenses
de sant des mnages

8,3**
(0,63)

Remarque : erreurs-types entre parenthses.


** Seuil de signification de 1 %.

programme. Dans lensemble, il semblerait donc que les mnages les plus pauvres et les
moins duqus soient plus susceptibles de participer au programme, ce qui parait
encourageant tant donn que le programme cible les mnages pauvres.
Maintenant que vous avez estim la probabilit que chaque mnage participe au
programme (leur score de propension), vous limitez lchantillon aux mnages participants et non participants que vous pouvez apparier. Pour chaque mnage participant, vous identiez un sous-groupe de mnages non participants prsentant des
scores de propension similaires. Le tableau7.2 compare les rsultats moyens pour les
mnages participants et les mnages non participants qui leur ont t apparis.
Pour obtenir une estimation dimpact en utilisant la mthode dappariement,
vous devez tout dabord calculer limpact individuel pour chaque mnage participant (en le comparant au mnage non participant appari) puis calculer la
moyenne de ces impacts individuels. Selon le tableau7.3, limpact estim grce
ce procd correspond une rduction de 8,3 dollars des dpenses de sant
desmnages.

QUESTION 7

A. Quelles sont les hypothses fondamentales qui sous-tendent le rsultat du cas 7 ?


B. Comparez le rsultat du cas 7 celui du cas 3. Pourquoi, selon vous, sont-ils
si diffrents ?
C. Au vu des rsultats pour le cas 7, le PSAM doit-il tre largi lchelle nationale ?

112

Lvaluation dimpact en pratique

La mthode dappariement en pratique


La mthode dappariement ncessite de grandes bases de donnes et prsente
dautres limites sur le plan statistique,mais elle demeure une mthode relativement
polyvalente qui a t utilise pour valuer des programmes de dveloppement dans
plusieurs contextes. Deux exemples sont dcrits en dtail dans les encadrs7.1 et 7.2.

Encadr 7.1 : Programme demploi public et revenus en Argentine


Jalan et Ravallion (2003a) utilisent des techniques dappariement par le score de propension pour valuer limpact du programme demploi public argentin A Trabajar sur les revenus.
En rponse la crise macroconomique de
1996-1997 en Argentine, le gouvernement
lance rapidement le programme A Trabajar sans
avoir recours des techniques de slection
alatoire ni collecter des donnes de base. Par
consquent, Jalan et Ravallion (2003a) utilisent
des techniques dappariement pour valuer
limpact du programme. Dans ce contexte, les
techniques dappariement servent aussi analyser si les gains de revenus des mnages varient en fonction du revenu avant lintervention.
Au milieu de 1997, une enqute est ralise auprs des participants et des non participants. Afin destimer limpact du programme
laide de lappariement par le score de propension, Jalan et Ravallion mesurent environ
200 caractristiques des mnages et des
communauts. Lestimation des scores de
propension montre que les participants au
programme sont plus pauvres, plus susceptibles dtre maris, membres de mnage

dont le chef est un homme, plus susceptibles


aussi dtre des membres actifs dassociations de quartier.
Aprs avoir estim les scores de propension, les auteurs restreignent leur analyse la
rgion de la distribution des scores de propension o il existe un support commun entre les
participants et les non participants. En appariant les participants aux non participants ayant
les scores les plus proches et en calculant la
moyenne des diffrences de revenus entre
tous ces groupes apparis, les auteurs estiment que le programme entraine une hausse
moyenne des revenus quivalant environ la
moiti du salaire du programme public demploi. Les chercheurs vrifient la stabilit des
rsultats en utilisant plusieurs procdures dappariement. Ils soulignent nanmoins que leurs
estimations peuvent tre biaises par certaines
caractristiques non observes. En effet, lutilisation des mthodes dappariement ne permet
jamais dexclure la possibilit dun biais imputable des variables non observes, ce qui
constitue leur principale limite.

Source : Jalan et Ravallion 2003a.

Appariement

113

Encadr 7.2 : Eau courante et sant infantile en Inde


Jalan et Ravallion (2003b) utilisent les mthodes
dappariement pour tudier limpact de laccs
leau courante sur la prvalence et la dure
des cas de diarrhe chez les enfants de moins
de cinq ans dans les zones rurales en Inde. Les
chercheurs valuent notamment si limpact de
lextension de laccs leau dpend des
niveaux de revenus ou dducation. Cet impact
est difficile mesurer, car il peut galement
dpendre de comportements parentaux eux
aussi susceptibles de rduire lincidence de la
diarrhe, comme par exemple faire bouillir
leau, assurer une bonne alimentation ou utiliser des sels de rhydratation orale lorsquun
enfant est malade.
Les chercheurs utilisent des donnes
issues dune grande enqute dducation et de
sant mene en 1993-1994 par le National
Council of Applied Economic Research auprs
de 33 000 mnages ruraux de 16 tats indiens.
Cette importante base de donnes permet aux
chercheurs de procder un appariement par

le score de propension la fois au niveau individuel et au niveau des villages. Ils dterminent
le score de propension en estimant la probabilit davoir accs leau courante par le biais de
la campagne nationale.
Lvaluation conclut que laccs leau courante entrane une rduction des cas de diarrhe : la prvalence de diarrhe serait 21 %
plus leve et leur dure 29 % plus longue en
labsence deau courante. Toutefois, ces
impacts ne sont pas observs dans les groupes
faible revenu, sauf si la femme du foyer a un
niveau de scolarit suprieur lcole primaire.
Jalan et Ravallion dcouvrent que limpact de
leau courante sur la sant est plus prononc
dans les mnages o les femmes sont mieux
duques. Ils concluent quil est important de
combiner des investissements dans les infrastructures, comme les rseaux deau, avec
dautres programmes visant amliorer lducation et rduire la pauvret.

Source : Jalan et Ravallion 2003a.

Limites de la mthode dappariement


Mme sil est possible de procder un appariement dans de nombreux contexteset
indpendamment des rgles dassignation du programme, cette mthode prsente
de srieuses faiblesses.
Premirement, ces procdures exigent la collecte de grandes bases de donnes couvrant des chantillons importants. Mme si ces bases de donnes existent, il existe toujours un risque de manque de support commun entre le groupe de traitement et les non
participants. Deuximement, lappariement ne peut tre effectu que sur la base des
caractristiques observes. Par dnition, il nest pas possible dintgrer des caractristiques non observes dans le calcul du score de propension. Ainsi, pour former un
groupe de comparaison valide laide de la procdure dappariement, il faut tre sr
quil nexiste aucune diffrence systmatique dans les caractristiques non observes
susceptible dinuencer le rsultat(Y) entre les participants et des non participants4.

114

Lvaluation dimpact en pratique

Il nest pas possible de prouver quil ny a pas de caractristiques non observes susceptibles dinuer sur la participation et sur les rsultats; il faut donc le supposer. Il sagit
en gnral dune hypothse trs audacieuse. Lappariement permet de tenir compte des
caractristiques observes; mais ne peut cependant en aucun cas exclure lexistence
dun biais d aux caractristiques non observes. En rsum, cette hypothse selon
laquelle il nexiste aucun biais de slection dcoulant des caractristiques non observes est trs contraignante et ne peut pas tre vrie, ce qui est problmatique.
Lappariement est gnralement moins able que les autres mthodes dvaluation dj voques. Par exemple, les mthodes de slection alatoire ne reposent pas
sur lhypothse invriable selon laquelle il nexiste pas de variables non observes
associes tant la participation au programme quaux rsultats. En outre, lassignation alatoire ne ncessite pas dchantillons aussi importants ni de caractristiques
de base aussi nombreuses que la mthode dappariement.
Dans la pratique, les mthodes dappariement sont gnralement utilises lorsque
la slection alatoire, le modle de discontinuit de la rgression et la double diffrence ne peuvent pas tre utiliss. De nombreux valuateurs utilisent lappariement
a posteriori lorsquaucune donne de base nest disponible sur le rsultat ou les
caractristiques des participants. Ils utilisent une enqute ralise aprs le lancement du programme (a posteriori) pour dduire quelles taient les caractristiques
de la population au dpart (par exemple ge, situation de famille), puis ils apparient
le groupe de traitement un groupe de comparaison partir de ces caractristiques.
Cette approche nest pas sans risque puisquils peuvent, involontairement, effectuer
un appariement sur la base de caractristiques qui ont t affectes par le programme, ce qui remettrait en question la validit ou lobjectivit de lestimation.
En revanche, lappariement partir des caractristiques observes dans une
enqute de rfrence collecte avant la mise en uvre dun programme peut tre
trs utile sil est combin dautres techniques comme celle de la double diffrence,
qui tient compte de lhtrognit invariable dans le temps ou non observe. Lappariement est aussi plus utile lorsque la rgle dassignation du programme est
connue, auquel cas il peut tre effectu sur la base de cette rgle (voir chapitre8).
Les lecteurs auront ici compris quil est prfrable de concevoir lvaluation dimpact avant la mise en uvre dun programme. Une fois le programme mis en uvre,
sil nest pas possible dinuencer la faon dont il est attribu et quaucune donne de
base na t collecte, il restera peu voire pas de possibilits dvaluation ables.

Notes
1. Dans la pratique, de nombreuses dnitions de ce qui constitue le score de
propension le plus proche sont utilises pour raliser lappariement. Les
units de comparaison les plus proches peuvent tre dnies sur la base dune
stratication du score de propension (identication des voisins les plus proches
de lunit de traitement soit en fonction de la distance ou dun rayon dni) ou en
utilisant des techniques non-paramtriques (kernel). Il est conseill de vrier la
robustesse des rsultats obtenus par divers algorithmes dappariement.
Appariement

115

2. La section de ce manuel consacre lappariement se concentre principalement sur lappariement simple (dune unit une autre). Dautres types
dappariement, comme lappariement dun plusieurs ou lappariement avec
ou sans remplacement ne sont pas abords. Dans tous les cas, lintuition
fondamentale dcrite ici sapplique.
3. Rosenbaum (2002) prsente une revue dtaille des mthodes dappariement.
4. Pour les lecteurs verss en conomtrie, ceci implique que la participation est
indpendante du rsultat en conditionnant sur les caractristiques utilises
pour lappariement.

Rfrences
Jalan, Jyotsna et Martin Ravallion. 2003a. Estimating the Benet Incidence of an
Antipoverty Program by Propensity-Score Matching. Journal of Business &
Economic Statistics 21 (1): 1930.
. 2003b. Does Piped Water Reduce Diarrhea for Children in Rural India?
Journal of Econometrics 112 (1): 15373.
Rosenbaum, Paul. 2002. Observational Studies. 2e d. Springer Series in Statistics.
New York: Springer-Verlag.
Rosenbaum, Paul et Donald Rubin. 1983. The Central Role of the Propensity Score
in Observational Studies of Causal Effects. Biometrika 70 (1): 4155.

116

Lvaluation dimpact en pratique

CHAPITRE8

Combinaisons de mthodes
Nous avons vu que la plupart des mthodes dvaluation dimpact ne produisent
des estimations valides du contrefactuel que sous certaines hypothses. Ds lors,
le principal risque dutiliser une mthode donne est que les hypothses sur lesquelles elle repose ne soient pas valables et que lestimation de limpact du programme soit par consquent incorrecte. Dans cette section, nous allons rsumer
ces potentiels problmes mthodologiques et voquer les stratgies qui permettent de rduire le risque de biais. tant donn que ce risque dcoule principalement de violations des hypothses sous-jacentes, nous allons nous concentrer sur
les approches pour vrier ces hypothses.
Il est possible de vrier la validit des hypothses qui sous-tendent un certain
nombre de mthodes dvaluation. Pour dautres mthodes, la vracit des hypothses ne peut jamais tre tablie avec certitude, mais diffrents tests de falsication
peuvent contribuer suggrer que ces hypothses sont bel et bien valables. Les tests
de falsication sont comparables des tests de rsistance: en cas dchec, il y a de
fortes chances que les hypothses sous-tendant la mthode soient inexactes dans un
contexte donn. En revanche, un test russi napporte quune indication partielle de
la vracit des hypothses. Lencadr8.1 prsente une liste de tests de vrication
et de falsication qui peuvent tre utiliss pour valuer la pertinence dune mthode
dvaluation dans un contexte particulier. La liste contient certaines questions
pratiques dont les rponses peuvent tre obtenues en analysant les donnes de
lenqute de base.

117

Encadr 8.1 : Liste des tests de vrification et de falsification


Assignation alatoire
Lassignation alatoire est considre comme la
mthode la plus rigoureuse pour valuer le
contrefactuel. Il sagit de ltalon-or de lvaluation dimpact. De simples tests sont toutefois
ncessaires pour jauger de la validit de cette
stratgie dvaluation dans un contexte donn.

Les caractristiques sont-elles quilibres


dans les donnes de rfrence ? Comparez
les caractristiques du groupe de traitement celles du groupe de comparaison en
utilisant les donnes de basea.
Les units ont-elles totalement adhr au
rsultat de lassignation alatoire ? Vrifiez si
toutes les units ligibles ont bien bnfici
du programme et quaucune unit non ligible
nen a bnfici. Si ladhrence nest pas
totale, utilisez la mthode de loffre alatoire.
Le nombre dunits dans le groupe de traitement et dans le groupe de comparaison
est-il assez important ? Si ce nest pas le
cas, considrez combiner lassignation alatoire et la double diffrence.

caractristiques des deux groupes en utilisant les donnes de base.

La campagne de promotion augmente-t-elle


significativement la participation au programme ? Elle le devrait. Comparez les taux de
participation au programme entre le groupe
ayant reu une promotion et le groupe ne
layant pas reu.

La campagne de promotion a-t-elle un effet


direct sur les rsultats ? Elle ne devrait pas
en avoir. Ceci ne peut gnralement pas tre
test directement et il faut donc se fier aux
thories existantes et au bon sens.

Modle de discontinuit de la rgression


Pour pouvoir utiliser le modle de discontinuit de
la rgression, il faut que lindice dligibilit soit
continu aux alentours du seuil dligibilit et que
les units proches du seuil soient comparables.

Lindice est-il continu aux alentours du seuil


dligibilit dans les donnes de rfrence ?

Ladhrence au seuil dligibilit est-elle


totale ? Vrifiez si toutes les units ligibles
ont bnfici du programme et quaucune
unit non ligible nen a bnfici. Si vous
dcouvrez que ladhrence au seuil dligibilit
nest pas totale, combinez le modle de discontinuit de la rgression avec des techniques plus sophistiques pour corriger cette
discontinuit floue (fuzzy discontinuity
en anglais)b.

Offre alatoire
Si ladhrence nest pas totale, lassignation
alatoire revient loffre alatoire.

Les caractristiques sont-elles quilibres


dans les donnes de rfrence ? Comparez
les caractristiques des units auxquelles le
programme a t offert celles des units
auxquelles il na pas t offert en utilisant
les donnes de base.

Promotion alatoire
La promotion alatoire fournit une estimation
valide du contrefactuel si la campagne de promotion augmente substantiellement la participation au programme sans influencer directement le rsultat ltude.

Double diffrence (DD)


La mthode de la double diffrence part du
principe que les tendances du rsultat sont similaires pour le groupe de traitement et le
groupe de comparaison avant lintervention, et
que les seuls facteurs lorigine de changements du rsultat entre les deux groupes sont
constants dans le temps.

Les caractristiques des units recevant la


campagne de promotion et celles ne la
recevant pas sont-elles quilibres dans
lenqute de rfrence ? Comparez les

Les rsultats du groupe de traitement et du


groupe de comparaison auraient-ils volu en
parallle en labsence du programme ? Il est
possible de rpondre cette question en utili(suite)

118

Lvaluation dimpact en pratique

Encadr 8.1 suite

sant plusieurs tests de falsification : 1) Les


rsultats du groupe de traitement et du groupe
de comparaison voluent-ils en parallle avant
lintervention ? Si deux rondes de donnes
sont disponibles avant le lancement du programme, vrifiez si les tendances des deux
groupes divergent. 2) Quen est-il des faux
rsultats qui ne devraient pas tre affects par
le programme ? voluent-ils en parallle avant
et aprs lintervention pour le groupe de traitement et pour le groupe de comparaison ?

Appariement
Lappariement repose sur lhypothse selon laquelle les units participantes et les units non
participantes sont similaires au niveau des variables non observes qui pourraient affecter
leur probabilit de participation au programme
et le rsultat (Y).

Effectuez lanalyse de la double diffrence


en utilisant plusieurs groupes de comparaison plausibles. Obtenez-vous des estimations similaires de limpact du programme ?

La participation au programme est-elle dtermine par des variables non observables ?


Ceci ne peut gnralement pas tre directement vrifi et il faut donc se fier aux thories existantes et au bon sens.

Effectuez lanalyse de la double diffrence


en utilisant le groupe de traitement et le
groupe de comparaison de votre choix et un
faux rsultat qui ne devrait pas tre affect
par le programme. Vous devriez obtenir un
impact nul du programme sur ce rsultat.

Les caractristiques observes des groupes


apparis sont-elles bien quilibres ? Comparez les caractristiques observes de chaque
unit du groupe de traitement et de son unit
apparie du groupe de comparaison.

Pouvez-vous apparier chaque unit de traitement avec une unit de comparaison ? Vrifiez quil existe un support commun suffisant
dans la distribution des scores de propension.
Un support commun limit indique que les
participants et les non participants sont trs
diffrents, suggrant que lappariement nest
peut-tre pas la mthode la plus pertinente.

Effectuez lanalyse de la double diffrence


en utilisant la variable de rsultat de votre
choix et deux groupes qui nont pas t
affects par le programme. Vous devriez
obtenir un impact nul du programme.

a. Comme nous lavons dj indiqu, pour des raisons statistiques, il nest pas ncessaire que toutes les caractristiques observes dans le groupe de traitement et dans le groupe de comparaison soient similaires pour
que lassignation alatoire puisse tre considre comme efficace. Mme si les caractristiques des deux
groupes sont entirement similaires, on peut sattendre ce que 5 % des caractristiques prsentent une
diffrence statistiquement significative en utilisant un niveau de confiance de 95 % pour le test.
b. Nous naborderons pas cette technique dans ce manuel, mais elle consiste combiner le modle de discontinuit de la rgression avec une variable instrumentale. Il sagit dutiliser le seuil dligibilit comme variable
instrumentale pour la participation effective des units au programme dans la premire tape dune mthode
des moindres carrs deux tapes.

Combinaisons de mthodes
Mme si toutes les mthodes dvaluation comportent des risques de biais, il est parfois possible de les limiter en combinant plusieurs mthodes. La combinaison de
plusieurs mthodes permet en effet de compenser les limites dune mthode donne
et ainsi de renforcer la solidit de lestimation du contrefactuel.

Combinaisons de mthodes

119

La double diffrence apparie (DD apparie) est un exemple de combinaison de


mthodes. Comme mentionn ci-dessus, le simple appariement par le score de propension ne tient pas compte des caractristiques non observes qui peuvent expliquer pourquoi un groupe a choisi de participer un programme et qui sont galement
susceptibles daffecter les rsultats. En revanche, la combinaison de lappariement et
de la double diffrence permet au moins de contrler pour les caractristiques non
observes qui sont constantes dans le temps pour les deux groupes. Elle est applique comme suit:
Premirement, effectuez lappariement sur la base des caractristiques observes
dans les donnes de base (voir chapitre7).
Deuximement, appliquez la mthode de la double diffrence an destimer un
contrefactuel pour le changement du rsultat pour chaque sous-groupe dunits
apparies.
Troisimement, calculez la moyenne de ces doubles diffrences pour tous les
sous-groupes.
Lencadr8.2 fournit un exemple concret dvaluation base sur la mthode de la
double diffrence apparie.
Il est galement possible de combiner le modle de discontinuit de la rgression et
la double diffrence. Souvenez-vous que le modle de discontinuit de la rgression
part du principe que les units aux alentours du seuil dligibilit sont trs similaires.
Dans la mesure o des diffrences demeurent entre les units des deux cts du seuil
dligibilit, lutilisation de la double diffrence permet de contrler pour les diffrences dans les caractristiques non observes constantes dans le temps. La combinaison du modle de discontinuit de la rgression et de la double diffrence peut
tre applique en calculant la double diffrence du rsultat pour les units de part et
dautre du seuil dligibilit.

Adhrence non totale


Une diffrence entre le traitement prvu et le traitement effectif pour certaines units signie que ladhrence au programme nest pas totale. Nous avons abord ce
point dans le contexte de lassignation alatoire, mais il sagit dun problme qui peut
concerner la plupart des mthodes dvaluation dimpact. Avant de pouvoir interprter limpact estim laide dune mthode, quelle quelle soit, vous devez dterminer si ladhrence au programme est totale ou pas.
Ladhrence nest pas totale dans deux cas distincts: 1) certaines units cibles
peuvent ne pas avoir particip au traitement et 2)certaines units de comparaison
peuvent avoir particip au traitement. Ladhrence peut ne pas tre totale pour
plusieurs raisons:
Tous les participants cibls par le programme ny participent pas. Parfois, les units
auxquelles le programme est propos choisissent de ne pas y participer.
Le programme nest pas offert certains participants cibls en raison dune
erreur administrative ou de mise en uvre.
120

Lvaluation dimpact en pratique

Encadr 8.2 : Double diffrence apparie


Sols en ciment, sant infantile et bonheur maternel au Mexique
Le programme Piso Firme au Mexique propose
dinstaller jusqu 50 mtres carrs de sol en
ciment dans les logements dont le sol est en
terre battue. Piso Firme a t lanc comme un
programme local dans ltat de Coahuila avant
dtre adopt lchelle nationale. Cattaneo et
al. (2009) profitent de la variation gographique
dans la distribution du programme pour valuer
limpact de lamlioration des logements sur la
sant et les conditions de vie.
Les chercheurs utilisent la mthode de la
double diffrence combine celle de lappariement pour comparer les mnages de Coahuila
des foyers similaires dans ltat voisin de
Durango o, lpoque de la ralisation de lenqute, le projet navait pas encore t mis en
uvre. Pour amliorer la comparabilit entre le
groupe de traitement et le groupe de comparaison, les chercheurs limitent leur chantillon aux
mnages des villes voisines se situant de
chaque ct de la frontire entre les deux tats.
Ils prlvent leurs chantillons dans les quartiers des deux villes prsentant des caractristiques similaires avant lintervention au moment
du recensement de 2002.
En utilisant loffre de sol en ciment comme
une variable instrumentale pour la possession
effective dun sol en ciment, les chercheurs estiment le traitement sur les traits partir des
estimations de lintention de traiter et dcouvrent que le programme entraine une rduction
de 18,2 % de la prsence de parasites, de
12,4 % de la prvalence de la diarrhe et de
19,4 % de la prvalence danmie. Ils sont par
ailleurs en mesure dutiliser la variation de la sur-

face totale au sol couverte par du ciment pour


prdire quun remplacement intgral des sols en
terre battue par des sols en ciment dans les
logements entranerait une rduction de 78 %
des infections parasitaires, de 49 % des cas de
diarrhe et de 81 % des cas danmie tout en
augmentant le dveloppement cognitif de 36 %
96 %. Les auteurs collectent galement des
donnes sur les conditions de vie des adultes et
dcouvrent que les sols en ciment rendent aussi
les mres plus heureuses, ce qui se manifeste
par une augmentation de 59 % de la satisfaction
lgard du logement, de 69 % de satisfaction
lgard de la qualit de vie, et par une baisse de
52 % du score obtenu sur une chelle dvaluation de la dpression et de 45 % du score
obtenu sur lchelle dvaluation du stress.
Cattaneo et al. (2009) concluent leur rapport
en montrant que le programme Piso Firme a eu
un impact absolu plus marqu sur le dveloppement cognitif des enfants pour un cot infrieur celui du programme national mexicain
de transferts montaires conditionnels (Oportunidades/Progresa) et dautres programmes
comparables de supplments alimentaires ou
de stimulation cognitive pour les enfants en
bas ge. Les sols en ciment ont galement un
effet prventif sur les infections parasitaires
plus efficace que les traitements vermifuges
habituels. Les auteurs indiquent que les programmes visant remplacer les sols en terre
battue par des sols en ciment constituaient un
moyen abordable damliorer la sant infantile
dans des contextes similaires.

Source : Cattaneo et al. 2009.

Combinaisons de mthodes

121

Le programme a t propos par erreur des units du groupe de comparaison,


qui y participent.
Certaines units du groupe de comparaison parviennent participer au programme bien quil ne leur soit pas propos, ce qui est parfois caractris de dbordement ou de contamination du groupe de comparaison. Si les effets de dbordements touchent une grande partie du groupe de comparaison, il peut devenir
impossible dobtenir une estimation objective du contrefactuel.
Lassignation du programme repose sur un score continu, mais le seuil dligibilit nest pas strictement respect.
Une migration slective sopre en raison du programme. Par exemple, la mthode de la double diffrence peut tre utilise pour comparer les rsultats des
municipalits traites et non traites, mais certains particuliers peuvent choisir
de se dplacer dune municipalit lautre sils napprcient pas quelle reoive ou
non le programme.
En gnral, si ladhrence nest pas totale, les mthodes dvaluation dimpact standard produisent des estimations de lintention de traiter. Les estimations du traitement sur les traits peuvent toutefois tre calcules partir des estimations de
lintention de traiter en utilisant une variable instrumentale.
Au chapitre4, nous avons prsent lintuition pour faire face au manque dadhrence totale dans le contexte de lassignation alatoire. En ajustant le pourcentage
des adhrents dans lchantillon dvaluation, nous sommes en mesure de mesurer
limpact du traitement sur les traits partir de lestimation de lintention de traiter.
Cette technique peut sappliquer dautres mthodes en utilisant lapproche plus
gnrale de variable instrumentale. La variable instrumentale est une variable qui
permet de rsoudre ou de corriger le manque dadhrence totale. Dans le cas de
loffre alatoire, nous utilisons une variable0/1 (ou variable binaire) dont la valeur
estun si lunit tait initialement incluse dans le groupe de traitement et zro si elle
tait initialement intgre au groupe de comparaison. Au moment de lanalyse, la
variable instrumentale est souvent utilise dans le contexte dune rgression en deux
tapes qui permet de dterminer limpact du traitement sur les adhrents.
La logique de la technique de variable instrumentale peut tre applique
dautres mthodes dvaluation:
Dans le contexte du modle de discontinuit de la rgression, la variable instrumentale utiliser est une variable0/1 qui indique o se situe une unit par rapport au seuil dligibilit.
Dans le contexte de la double diffrence et de la migration slective, la localisation dun individu avant lannonce du programme peut servir de variable instrumentale pour la localisation de lindividu aprs le lancement du programme.

122

Lvaluation dimpact en pratique

Bien quil soit possible de corriger un manque dadhrence totale en utilisant des
variables instrumentales, il convient de souligner deux points:
1. Dun point de vue technique, il nest pas souhaitable quune large proportion du
groupe de comparaison participe au programme. Les valuateurs et les dcideurs
impliqus dans lvaluation dimpact doivent travailler ensemble pour faire en
sorte de limiter cette proportion.
2. La mthode variable instrumentale nest valide que dans certaines circonstances et ne constitue pas une solution universelle.

Effets de diffusion
Mme si le groupe de comparaison ne participe pas directement au programme, il
peut bncier indirectement dun effet de diffusion (ou de dbordement) dcoulant du groupe de traitement. Kremer et Miguel (2004) examinent limpact de la
distribution de mdicaments vermifuges aux enfants dans les coles kenyanes et
prsentent un exemple intressant de ce phnomne (encadr8.3). Les vers intestinaux sont des parasites qui peuvent tre transmis dune personne lautre par
contact avec des matires fcales contamines. Lorsquun enfant prend des mdicaments vermifuges, son degr dinfestation par les vers diminue. Les personnes
vivant dans le mme environnement que cet enfant sont leur tour en contact avec
moins de vers. Ainsi, dans lexemple kenyan, la distribution de vermifuges aux
enfants dune cole bncie non seulement aux enfants de cette cole (un effet
direct), mais galement ceux des coles voisines (un effet indirect).
Comme le montre la gure 8.1, la distribution de vermifuges aux coles du
groupeA permet de rduire le nombre de vers chez les enfants des coles du groupeB
ne participant pas au programme, mais se situant proximit des coles du groupeA.
En revanche, les coles non participantes loignes des coles du groupeA (coles
du groupeC) ne sont pas touches par les effets de diffusion, car la distribution de
mdicaments au groupeA na pas deffet indirect sur les vers touchant le groupeC.
Kremer et Miguel (2004) concluent que le traitement vermifuge rduit fortement le
taux dabsentisme non seulement dans les coles participant au programme (comparaison entre le groupeA et le groupeC), mais galement dans les coles non participantes voisines (comparaison entre le groupeB et le groupeC).
Quand des effets de dbordements sont possibles, il est important que lvaluateur vrie quils naffectent pas lensemble du groupe de comparaison. Pour
autant que suffisamment dunits de comparaison ne soient pas affectes par les
effets de diffusion (le groupe C dans lexemple du traitement vermifuge), vous
pourrez estimer limpact du programme en comparant les rsultats des units du
groupe de traitement et ceux des units du groupe de comparaison non affect.
Linconvnient est que lvaluation ne pourra pas permettre de gnraliser lestimation des effets du traitement lensemble de la population. Lors de la conception de lvaluation, si vous pensez quun programme engendrera des effets de
dbordements, vous pouvez ajuster la mthode dvaluation an de produire de
meilleurs rsultats. Premirement, lvaluation doit pouvoir compter sur un
Combinaisons de mthodes

123

Encadr 8.3 : Programme avec effets de diffusion


Traitement vermifuge, effets externes et ducation au Kenya
Le projet de traitement vermifuge dans les
coles primaires de Busia au Kenya a t mis en
uvre par lorganisation nerlandaise but non
lucratif Child Support Africa en coopration avec
le ministre de la Sant. Il est conu pour tudier divers aspects de la prvention et du traitement vermifuges. Le projet couvre initialement
75 coles, soit plus de 30 000 lves gs de
six 18 ans. Les coles bnficient de distribution de mdicaments vermifuges conformment aux recommandations de lOrganisation
mondiale de la sant ainsi que dune formation
prventive comprenant des prsentations sur le
thme de la sant, de diagrammes muraux et de
cours destins aux enseignants.
En raison de contraintes administratives et
financires, le programme a t graduellement
dploy par ordre alphabtique, le premier
groupe de 25 coles en bnficiant ds 1998,
le deuxime groupe en 1999 et le troisime
groupe en 2001. En utilisant cette assignation
alatoire au niveau des coles, Kremer et
Miguel (2004) sont en mesure destimer limpact du traitement vermifuge sur une cole et
de dterminer les effets de diffusion entre les
coles en utilisant la variation exogne de la
proximit des coles de comparaison au
groupe de traitement. Malgr une adhrence
lassignation alatoire relativement leve
(75 % des lves cibls par le traitement vermifuge reoivent des mdicaments, contre seulement un faible pourcentage des units du
groupe de comparaison), les chercheurs sont
galement en mesure dexploiter le manque
dadhrence totale pour dterminer les exter-

nalits ou effets de dbordements lintrieur


mme des coles traites. Kremer et Miguel
(2004) concluent que les externalits lintrieur mme des coles traites entrainent une
rduction de 12 points dinfections modres
leves tandis que leffet direct supplmentaire li la prise de mdicament vermifuge
correspond 14 points supplmentaires. Par
ailleurs, en termes dexternalits entre les
coles, ils estiment 26 points la baisse des
infections modres leves par tranche de
1 000 lves inscrits dans une cole du groupe
de traitement. Ces effets sur la sant sont galement accompagns dune hausse du taux de
frquentation de lcole dau moins 7 % et
dune rduction de labsentisme dau moins
25 %. Aucun impact significatif sur les rsultats aux examens nest relev.
Au vu du faible cot du traitement vermifuge et de ses effets relativement importants
sur la sant et lducation, les chercheurs
concluent que le traitement vermifuge est un
moyen relativement rentable damliorer les
taux de scolarisation. Ltude indique galement que les maladies tropicales comme les
vers peuvent jouer un rle important sur lducation et renforce la thorie selon laquelle la
forte charge de morbidit dont souffre lAfrique
contribue peut-tre son faible niveau de
revenu. Les auteurs du rapport recommandent
donc le renforcement des subventions
publiques pour les traitements mdicaux prsentant des effets de diffusion similaires dans
les pays en dveloppement.

Source : Kremer et Miguel 2004.

groupe de comparaison pur qui permette de gnraliser lestimation de limpact


du programme. Deuximement, la mthodologie peut rendre possible lestimation
de lampleur des effets de dbordements si elle gnre un groupe de comparaison
qui bncie seulement de ces effets indirects. Les dbordements sont souvent
intressants au niveau politique, car ils constituent des impacts indirects des programmes.
124

Lvaluation dimpact en pratique

Figure 8.1

Effets de diffusion

Groupe de traitement

Groupe de comparaison pur

Groupe A

Groupe C

Groupe B

Groupe de non-inscrits affect


par les effets de diffusion

La gure 8.1 montre quil est possible destimer la fois limpact dun programme et ses ventuels effets de diffusion. Les mdicaments sont distribus au
groupeA. Les effets du traitement se propagent au groupeB. Le groupeC est plus
loign et ne bncie donc pas des effets de diffusion. Ce scnario peut tre
obtenu par lassignation alatoire du traitement entre deux units rapproches et
une unit similaire plus loigne. Dans ce cadre simple, limpact du programme
peut tre estim en comparant les rsultats du groupeA ceux du groupeC, et les
effets de diffusion peuvent tre estims en comparant les rsultats du groupeB
ceux du groupeC.

Considrations supplmentaires
Outre le manque dadhrence totale et les effets de diffusion, dautres facteurs doivent tre pris en compte au moment de llaboration dune valuation dimpact.
Ces facteurs sont communs la plupart des mthodologies que nous avons abordes et ils sont gnralement plus difficiles attnuer1.
Au moment de la planication dune valuation, il convient de dterminer le
meilleur moment pour collecter les donnes. Sil faut attendre longtemps avant
quun programme exerce un impact sur les rsultats, collecter les donnes trop tt

Combinaisons de mthodes

125

peut impliquer une estimation dimpact nulle (voir par exemple King et Behrman
2009). Au contraire, si lenqute de suivi est ralise trop tard, vous ne serez pas en
mesure dvaluer les effets du programme temps pour informer les dcideurs. Si
vous souhaitez valuer la fois limpact court terme et long terme du programme, vous devrez collecter plusieurs rondes de donnes de suivi aprs lintervention. Le chapitre 10 contient des informations complmentaires pour
dterminer le calendrier de lvaluation.
Si vous souhaitez estimer limpact dun programme sur un groupe entier, vous
risquez de passer ct de certaines variations des impacts entre les diffrents bnciaires du traitement. La plupart des mthodes dvaluation partent du principe
quun programme affecte les rsultats de manire simple et linaire pour toutes les
units de la population tudie. Des problmes peuvent toutefois survenir lorsque
lampleur de la raction dpend de faon non linaire de lampleur de lintervention
ou lorsquun groupe recevant un traitement de forte intensit est compar un
groupe recevant un traitement de faible intensit. Si vous pensez que diffrents sousgroupes sont susceptibles de ragir diffremment au programme, vous pouvez envisager de former des chantillons spars pour chaque sous-groupe. Admettons que
vous cherchiez connatre limpact dun programme de repas scolaires sur les lles,
mais quelles ne reprsentent que 10% des lves. Dans ce cas, il est possible que
mme un large chantillon dlves ne contienne pas un nombre suffisant de lles
pour vous permettre destimer limpact du programme sur celles-ci. Il vous faudra
donc stratier votre chantillon en fonction du genre et inclure un nombre suffisant
de lles dans lchantillon nal pour vous permettre didentier un impact donn.
Lorsque vous ralisez une valuation dimpact, il est possible que vous provoquiez involontairement des changements de comportements au sein de la population ltude, ce qui peut limiter la validit externe des rsultats de votre
valuation. Par exemple, leffet Hawthorne se produit lorsque le fait mme dtre
observes provoque un changement de comportement chez les units (Levitt et
List 2009). Leffet John Henry se produit lorsque les units de comparaison font
des efforts supplmentaires pour compenser labsence de traitement. Lanticipation peut entraner un autre type de comportement involontaire. Dans le cadre
dun dploiement alatoire dun programme, les units du groupe de comparaison peuvent sattendre bncier du programme lavenir et donc commencer
changer de comportement avant mme que le programme ne leur parvienne. Si
vous avez des raisons de penser que ces comportements involontaires existent, la
cration de groupes de comparaison supplmentaires qui ne sont en aucune
faon affects par lintervention peut tre une option qui vous permet de contrler pour ces comportements, ou mme de mesurer explicitement leur amplitude.

126

Lvaluation dimpact en pratique

Un plan de rechange pour votre valuation


Mme si on est arm de la meilleure mthode dvaluation dimpact et quon est
anim des meilleures intentions, les choses ne se passent pas toujours comme
prvu. Dans le cadre dun rcent programme de formation professionnelle, lorganisme responsable de la mise en uvre du programme pensait que beaucoup
de candidats allaient sinscrire et avait projet de slectionner les participants de
manire alatoire partir du groupe de candidats. En raison dun taux de chmage lev au sein de la population cible, lorganisme pensait que le nombre de
candidats au programme de formation professionnelle serait nettement suprieur au nombre de places disponibles. Malheureusement, la campagne de promotion du programme a t moins efficace quon la espr et, au nal, le nombre
de candidats sest avr lgrement infrieur au nombre de places disponibles.
En labsence dun nombre suffisant de candidats pour pouvoir former un groupe
de comparaison et faute dun plan de rechange, le projet initial dvaluation du
programme a d tre abandonn. Ce type de situation est frquent, tout comme
les changements inattendus de contexte oprationnel ou politique. Il est donc
utile davoir un plan de rechange au cas o la mthodologie choisie initialement
ne peut pas tre applique. La partie3 du prsent manuel aborde plus en dtail
les aspects oprationnels et politiques de lvaluation.
Planier plusieurs mthodes dvaluation dimpact est galement une bonne
pratique mthodologique. Si vous avez des doutes quune mthode souffre dun
ventuel biais, lutilisation dune mthode complmentaire permet de vrier les
rsultats. Lorsquun programme fait lobjet dun dploiement alatoire (voir chapitre10), le groupe de comparaison est au nal intgr dans le programme, ce qui
limite la dure pendant laquelle le programme peut tre valu. Toutefois, si la
mthode de promotion alatoire est applique en plus de lassignation alatoire,
vous disposerez dun groupe de comparaison pour toute la dure du programme.
Avant lincorporation du dernier groupe au programme, vous aurez deux autres
groupes de comparaison (ceux obtenus par lassignation alatoire et par la promotion alatoire), bien qu long terme il ne vous restera plus que le groupe de
comparaison gnr par la promotion alatoire.

Note
1. Le chapitre3 aborde dautres facteurs limitant la validit externe lis aux biais
dchantillonnage ou diffrents niveaux dattrition pour le groupe de
traitement et le groupe de comparaison.

Combinaisons de mthodes

127

Rfrences
Cattaneo, Matias, Sebastian Galiani, Paul Gertler, Sebastian Martinez et Rocio
Titiunik. 2009. Housing, Health and Happiness. American Economic
Journal : Economic Policy 1 (1): 75105.
King, Elizabeth M. et Jere R. Behrman. 2009. Timing and Duration of Exposure
in Evaluations of Social Programs. World Bank Research Observer 24 (1): 5582.
Kremer, Michael et Edward Miguel. 2004. Worms: Identifying Impacts
on Education and Health in the Presence of Treatment Externalities.
Econometrica 72 (1): 159217.
Levitt, Steven D. et John A. List. 2009. Was There Really a Hawthorne Effect
at the Hawthorne Plant? An Analysis of the Original Illumination
Experiments. NBER Working Paper 15016, National Bureau of Economic
Research, Cambridge, MA.

128

Lvaluation dimpact en pratique

CHAPITRE9

valuation de programmes
multiples facettes
Jusqu prsent, nous nous sommes concentrs sur des programmes qui ne comprennent quun seul type de traitement. Dans la pratique, de nombreuses questions
politiques pertinentes se posent concernant des programmes multiples facettes,
par exemple des programmes qui combinent plusieurs types de traitement1. Les
dcideurs peuvent non seulement chercher savoir si un programme est efficace,
mais aussi sil fonctionne mieux ou est plus rentable quun autre. Par exemple, en vue
daccrotre le taux de scolarisation, est-il plus efficace de mettre en uvre des interventions qui inuencent la demande (comme les transferts montaires aux familles)
ou loffre (une meilleure rmunration des enseignants)? La mise en place conjointe
de ces deux types dinterventions serait-elle plus efficace que chaque intervention
ralise sparment? Autrement dit, sont-elles complmentaires? Dautre part, si la
rentabilit des programmes est une priorit, vous pouvez vous demander quel est le
niveau de services optimal que le programme doit fournir. Par exemple, quelle est la
dure optimale dun programme de formation professionnelle? Un programme de
six mois permet-il un plus grand nombre de participants de trouver un emploi
quun programme de trois mois? Le cas chant, la diffrence de rsultats est-elle
suffisante pour justier la mobilisation des ressources supplmentaires pour mettre
en uvre un programme de six mois ?
Au-del de la simple estimation de limpact dune intervention sur le rsultat
ltude, les valuations dimpact peuvent permettre de rpondre des questions
plus gnrales:
Quel est limpact dun traitement compar limpact dun autre traitement?
Par exemple, quel est limpact sur le dveloppement cognitif des enfants
dun programme dducation parental en comparaison limpact dun programme de nutrition?
129

Limpact cumul de deux traitements est-il plus important que la somme des impacts de chaque traitement pris sparment ? Par exemple, limpact global du
programme dducation parental et du programme de nutrition est-il plus important, quivalent ou moins important que la somme des impacts des deux
interventions pris sparment?
Quel est limpact supplmentaire dun traitement forte intensit compar un
traitement faible intensit? Par exemple, quel est limpact sur le dveloppement
cognitif des enfants en retard de croissance de la visite domicile dun travailleur
social toutes les deux semaines en comparaison une seule visite mensuelle?
Ce chapitre illustre comment laborer des valuations dimpact pour plusieurs
types de programmes multiples facettes: ceux qui offrent un traitement qui peut
avoir une intensit variable, et ceux qui contiennent plusieurs types de traitements. Nous abordons dans un premier temps les mthodes dlaboration dvaluation dimpact de programme avec plusieurs niveaux de bnces potentiels,
puis nous tudierons comment distinguer les diffrents types dimpact dun programme comportant plusieurs traitements. Les exemples donns reposent sur
lutilisation du mcanisme dassignation alatoire, mais peuvent tre galement
appliqus dautres mthodes.

valuation de programmes diffrents niveaux


de traitement
Il est relativement simple dlaborer une valuation dimpact pour un programme
qui prsente diffrents niveaux de traitement. Imaginez que vous cherchez valuer limpact dun programme prsentant deux intensits possibles du traitement: un niveau lev (par exemple, des visites toutes les deux semaines) et un
niveau faible (par exemple, des visites mensuelles). Vous voulez valuer limpact
des deux options pour savoir dans quelle mesure la frquence des visites inue
sur les rsultats. Pour cela, vous pouvez dsigner par tirage au sort les bnciaires du traitement de niveau dintensit lev, les bnciaires du traitement
de faible niveau dintensit et les membres du groupe de comparaison. La gure9.1
illustre ce processus.
Comme pour une assignation alatoire ordinaire, la premire tape consiste
dnir les units ligibles au programme. La deuxime tape consiste slectionner
un chantillon dunits pour lvaluation, savoir lchantillon dvaluation. Une fois
lchantillon dvaluation cr, la troisime tape consiste rpartir les units de
faon alatoire entre le groupe bnciant du traitement intensit lev, le groupe
bnciant du traitement faible intensit, et le groupe de comparaison. Lassignation alatoire des units diffrents niveaux de traitement permet dobtenir trois
groupes distincts:
Le groupeA est le groupe de comparaison.

130

Lvaluation dimpact en pratique

Figure 9.1

tapes de lassignation alatoire deux niveaux de traitement

WDSH
units ligibles

WDSH
chantillon dvaluation

WDSH
assignation alatoire aux
traitements de niveaux lev
et faible
ble

Units
non ligibles

Units
ligibles

Le groupeB reoit le traitement de faible niveau dintensit.


Le groupe C reoit le traitement de niveau dintensit lev.
Si elle est correctement effectue, lassignation alatoire permet de crer trois
groupes similaires. Vous pouvez donc estimer limpact du traitement de niveau lev
en comparant le rsultat moyen du groupeC celui du groupeA. Vous pouvez galement estimer limpact du traitement de faible intensit en comparant le rsultat
moyen du groupeB celui du groupeA. Enn, vous pouvez dterminer si le traitement de niveau lev a un impact plus important que le traitement de faible niveau
en comparant les rsultats moyens des groupesB et C.
Lestimation de limpact dun programme comportant plus de deux niveaux de
traitement suit la mme logique. Sil existe trois niveaux dintensit de traitement, le
processus dassignation alatoire donne lieu la cration de trois groupes de traitement en plus du groupe de comparaison. En gnral, pour n niveaux de traitement,
vous aurez n groupes de traitement plus un groupe de comparaison.
Lorsquil nest pas possible de procder une assignation alatoire, dautres
mthodes dvaluation peuvent tre appliques. Toutes les mthodes dvaluation
dcrites jusqu prsent permettent danalyser limpact relatif de diffrents
niveaux de traitement. Imaginons par exemple que vous souhaitiez valuer limpact de la variation du montant octroy des tudiants dans le cadre dun programme de bourses dtudes visant renforcer le taux de scolarisation au niveau
secondaire. Une bourse de 60dollars est accorde aux 25lves de chaque cole

valuation de programmes multiples facettes

131

obtenant les meilleurs rsultats la n du cycle primaire, et une bourse de 45dollars est accorde aux 25 suivants. Les lves obtenant les moins bons rsultats ne
reoivent pas de bourse. Dans ce contexte, un modle de discontinuit de la rgression permet de comparer les rsultats des lves non seulement autour du seuil de
45dollars, mais galement autour du seuil de 60dollars. Filmer et Schady (2009)
prsentent les rsultats dune valuation de ce type ralise au Cambodge lissue
de laquelle ils concluent que limpact de la bourse de 60dollars sur le taux de scolarisation nest pas plus lev que celui de la bourse de 45dollars. Ce rsultat est
trs important dun point de vue politique, car il suggre quil est possible daugmenter la couverture du programme dun tiers avec un mme budget (par exemple,
distribuer 20000 bourses de 45 dollars au lieu de 15000 bourses de 60 dollars)
tout en assurant lefficacit du programme.

valuation de traitements multiples laide


dtudes croises
Outre la comparaison de diffrentes intensits de traitement, il est galement possible de comparer diffrents types de traitement. En pratique, les dcideurs prfrent gnralement pouvoir comparer les avantages relatifs de diffrentes
interventions plutt que de connatre limpact dune seule intervention.
Imaginez que vous voulez valuer limpact sur le taux de scolarisation dun programme comportant deux interventions : des transferts montaires conditionnels
aux familles des tudiants et le transport scolaire gratuit. Vous souhaitez connatre
limpact distinct de chaque intervention et savoir si la combinaison des deux serait
plus efficace que la somme des impacts individuels. Le programme est propos aux
participants sous trois formes diffrentes: les transferts montaires conditionnels
uniquement, le transport scolaire gratuit uniquement ou une combinaison des deux.
Lassignation alatoire dun programme comportant deux interventions est
comparable celle utilise pour les programmes nen comportant quune seule. La
principale diffrence rside dans la ncessit deffectuer plusieurs tirages au sort au
lieu dun seul dans ce qui sappelle une tude croise. La gure9.2 illustre ce processus. Comme indiqu prcdemment, la premire tape consiste dnir les units
ligibles au programme. La deuxime tape consiste slectionner un chantillon
dunits partir de la population pour constituer lchantillon dvaluation. Une
fois lchantillon dvaluation cr, la troisime tapeconsiste rpartir de faon
alatoire les units entre le groupe de traitement et le groupe de comparaison.
ltape4, vous effectuez un deuxime tirage au sort pour slectionner de faon alatoire les units du groupe de traitement qui bncieront de la premire intervention. Enn, vous effectuez un autre tirage au sort pour slectionner un sous-groupe
au sein du groupe de comparaison qui bnciera de la deuxime intervention, le
reste du sous-groupe restant entirement lcart des interventions.
Le processus dassignation alatoire appliqu aux deux traitements permet dobtenir quatre groupes, comme lillustre la gure9.3.
Le groupeA bncie des deux interventions (transferts montaires et transport scolaire).
132

Lvaluation dimpact en pratique

Figure 9.2

tapes de lassignation alatoire pour deux interventions

WDSH
units ligibles

Units
non ligibles

WDSH
chantillon dvaluation

WDSH
assignation
alatoire au
1erWUDLWHPHQW

WDSH
assignation
alatoire au
2eWUDLWHPHQW

Units
ligibles

Le groupeB bncie uniquement de lintervention1 (transferts montaires).


Le groupeC bncie uniquement de lintervention2 (transport scolaire).
Le groupeD ne bncie daucune des deux interventions et constitue le groupe
de comparaison pur.
Si elle est correctement effectue, lassignation alatoire permet de crer quatre
groupes similaires. Vous pouvez alors estimer limpact de la premire intervention
en comparant le rsultat du groupeB celui du groupeD, le groupe de comparaison
pur . Vous pouvez galement estimer limpact de la deuxime intervention en
comparant le rsultat du groupeC celui du groupe de comparaison non expos. Ce
processus permet galement de comparer limpact supplmentaire li lassignation
de la deuxime intervention sur les units bnciant dj de la premire. En comparant les rsultats du groupeA et du groupeB, vous obtenez limpact de la deuxime intervention sur les units qui bncient dj de la premire; et en comparant
les rsultats du groupeA et du groupeC, on obtient limpact de la premire intervention sur les units qui bncient de la deuxime.

valuation de programmes multiples facettes

133

Figure 9.3 Groupes de traitement et groupe de comparaison pour un


programme deux interventions

Comparaison Traitement

Intervention 2

Intervention 1
Traitement

Comparaison

Groupe A

Groupe C

Groupe B

Groupe D

Lexplication ci-dessus se rfre au cas de lassignation alatoire pour dcrire


comment laborer une valuation dimpact pour un programme comportant deux
interventions. Lorsquun programme comporte plus de deux interventions, il est
possible daugmenter le nombre de tirages au sort et continuer subdiviser la
population pour crer des groupes soumis diffrentes combinaisons dinterventions. Il est galement envisageable de raliser des valuations combinant plusieurs traitements et plusieurs niveaux de traitement. Mme si le nombre de
groupes augmente, la thorie reste la mme.
Toutefois, lvaluation de plusieurs interventions peut prsenter des difficults
pratiques la fois au stade de lvaluation que de la mise en uvre du programme.
En effet, le programme est plus complexe et le nombre de branches du traitement
augmente exponentiellement. Pour lvaluation dune intervention, seuls deux
groupes sont ncessaires: le groupe de traitement et le groupe de comparaison. Pour
lvaluation de deux interventions, quatre groupes sont ncessaires: trois groupes
de traitement et un groupe de comparaison. Pour valuer trois interventions en
tenant compte de toutes les combinaisons possibles entre ces interventions, il faut
2 2 2 = 8groupes. En rsum, pour quune valuation couvre toutes les combinaisons possibles entre n interventions, il faut 2n groupes. Par ailleurs, pour tre en

134

Lvaluation dimpact en pratique

Encadr 9.1 : Comparer des alternatives de programmes


de prvention du VIH/sida au Kenya
Duflo et al. (2006) valuent limpact de plusieurs programmes de prvention du
VIH/sida dans deux zones rurales lOuest du Kenya laide dune tude croise.
Ltude est base sur un chantillon de 328 coles rparties en six groupes,
comme lillustre le tableau ci-dessous qui rsume la mise en uvre du programme.
Chaque groupe bnficie dune combinaison diffrente de trois traitements assigns de faon alatoire. Les traitements comprennent un programme de formation des enseignants visant renforcer leurs capacits enseigner le programme
national dducation sur le VIH/sida, la promotion de lorganisation de dbats sur le
rle des prservatifs dans les coles et lorganisation de concours de rdaction sur
le thme de la prvention, ainsi que la rduction des frais dducation grce la
distribution gratuite duniformes scolaires (voir tableau).

Rsum de la mise en uvre du programme

Formation
Programme
des
national
enseignants

Groupe

Nombre
dcoles

88

Oui

41

Oui

Oui

42

Oui

Oui

83

40

Oui

Oui

40

Oui

Oui

Dbat sur les


prservatifs
et rdaction
dessais
(printemps 2005)

Baisse des
frais
dducation
(printemps 2003
et automne 2004)

Oui
Oui
Oui
Oui

Oui

Les chercheurs concluent quau bout de deux ans, le programme de formation des
enseignants na quun impact limit sur les connaissances des lves, les activits
sexuelles rapportes, lutilisation du prservatif ou les grossesses chez les adolescentes, bien quil ait amlior lenseignement du programme national. Les dbats et
les concours de rdaction renforcent les connaissances et lutilisation des prservatifs
sans augmenter les activits sexuelles rapportes. Enfin, la rduction des frais dducation de par la distribution duniformes scolaires permet de rduire les taux dabandon
et les grossesses chez les adolescentes. Les chercheurs concluent que la distribution
duniformes scolaires a un impact plus marqu sur la rduction des grossesses chez les
adolescentes que la formation des enseignants au programme national sur le VIH/sida.
Source : Duflo et al. 2006.

valuation de programmes multiples facettes

135

Encadr 9.2 : Comparer diffrents programmes de


suivi de la corruption en Indonsie
En Indonsie, Olken (2007) utilise une tude croise novatrice pour tudier diffrentes mthodes de contrle de la corruption, savoir des audits gouvernementaux et un suivi communautaire sur le terrain. Il applique la mthodologie de
lassignation alatoire dans plus de 600 villages o des routes allaient tre
construites dans le cadre dun projet national damlioration des infrastructures.
Dune part, lun des traitements consiste prvenir certains villages slectionns de manire alatoire que leur projet de construction allait faire lobjet
dun audit par un agent gouvernemental. Dautre part, pour mesurer la participation de la communaut au contrle de la corruption, les chercheurs mettent en
place deux interventions. Ils organisent des runions de responsabilisation communautaire et distribuent des fiches de commentaires pouvant tre remplis de
faon anonyme. Pour mesurer les niveaux de corruption, une quipe indpendante dingnieurs et darpenteurs prlve des chantillons des nouvelles
routes, estimant le cot des matriaux utiliss puis comparant les rsultats obtenus aux budgets dclars.
Olken conclut que laugmentation des audits gouvernementaux (la probabilit daudit passant denviron 4 % 100 %) permet de rduire les dpenses
manquantes denviron huit points (dun point de dpart de 24 %). Lintensification de la participation communautaire au contrle de la corruption exerce un
impact sur labsence des ouvriers, mais pas sur les dpenses manquantes. Les
fiches de commentaires ne donnent des rsultats probants que lorsquelles sont
distribues aux enfants lcole pour tre remis leurs parents et non quand ils
sont distribus par les chefs de village.
Source : Olken, 2007.

mesure de distinguer les diffrences de rsultats entre les diffrents groupes, chaque
groupe doit contenir un nombre suffisant dunits pour garantir une puissance statistique satisfaisante. An de dceler des diffrences entre les diffrentes branches
de lintervention, des chantillons plus importants seront ncessaires que pour
effectuer de simples comparaisons dun groupe de traitement et dun groupe de
comparaison. Si les deux branches du traitement entranent des changements de
rsultats, des chantillons plus importants devront tre constitus pour dtecter
dventuelles diffrences (souvent plus petites) entre les deux groupes.
Finalement, les tudes croises peuvent galement tre mises en place dans le
cadre dvaluations combinant plusieurs mthodes (encadrs9.1 et 9.2). Les rgles
oprationnelles qui rgissent lassignation de chaque traitement dterminent la
combinaison des mthodes utiliser. Par exemple, le premier traitement peut tre
attribu sur la base dun seuil dligibilit tandis que le deuxime est assign de
manire alatoire. Dans ce cas, il est possible de raliser un modle de discontinuit
de la rgression pour la premire intervention et suivre une mthode dassignation
alatoire pour la seconde.
136

Lvaluation dimpact en pratique

Note
1. Voir Banerjee et Duo (2009) pour une explication plus dtaille.

Rfrences
Banerjee, Abhijit et Esther Duo. 2009. The Experimental Approach to
Development Economics. NBER Working Paper 14467, National Bureau of
Economic Research, Cambridge, MA.
Duo, Esther, Pascaline Dupas, Michael Kremer et Sameul Sinei. 2006.
Education and HIV/AIDS Prevention: Evidence from a Randomized
Evaluation in Western Kenya. Document de travail consacr la
recherchesur les politiques 402, Banque mondiale, Washington, DC.
Filmer, Deon et Norbert Schady. 2009. School Enrollment, Selection and Test
Scores. Document de travail consacr la recherchesur les politiques 4998,
Banque mondiale, Washington, DC.
Olken, Benjamin. 2007. Monitoring Corruption: Evidence from a Field
Experiment in Indonesia. Journal of Political Economy 115 (2): 20049.

valuation de programmes multiples facettes

137

Partie 3

COMMENT METTRE
EN UVRE UNE VALUATION
DIMPACT
Dans la premire partie de louvrage, nous avons expos pourquoi effectuer des
valuations dimpact et expliqu quand elles sont opportunes. Les valuations
sont conues pour rpondre des questions de politique bien dfinies, par
exemple, dans le cadre de ngociations budgtaires ou pour prendre des
dcisions sur lextension dun programme alimentaire, laugmentation du montant de bourses pour les tudiants ou la mise en uvre dune rforme hospitalire. Les objectifs de lvaluation et les questions qui lorientent doivent dcouler directement de ces questions politiques. Aprs avoir clairement dfini le
programme valuer et les questions de politique sur lesquelles lvaluation
doit porter, il est utile dlaborer une thorie du changement, telle quune chane
de rsultats du programme, et de choisir des indicateurs en consquence. Dans
la deuxime partie de cet ouvrage, nous avons dcrit une srie de mthodes,
illustres par des exemples, qui permettent dvaluer limpact dun programme ;
nous avons prsent les avantages et les inconvnients de chacune delles.

La troisime partie porte sur les tapes oprationnelles qui jalonnent la gestion
ou la commande dune valuation dimpact. Ces tapes constituent les
lments clefs de la ralisation dune valuation dimpact dans le but de rpondre aux questions de politique formules et destimer limpact causal du
programme. Les tapes oprationnelles dune valuation dimpact peuvent tre
regroupes en quatre phases principales : conception de lvaluation, choix dun
chantillon, collecte des donnes et production et diffusion des rsultats.
La figure ci-dessous illustre ces phases, dtailles dans les chapitres 10 13.
Le chapitre 10 porte sur les principales composantes de la mise en uvre dune
valuation. Elle commence par le choix dune mthode dvaluation en fonction
du plan dimplmentation du programme. Avant de pouvoir mettre lvaluation
en uvre, vous vous assurez quelle rpond des normes dthique. Vous
constituez ensuite une quipe charge de lvaluation, vous tablissez un budget et dfinissez un mode de financement.
Le chapitre 11 passe en revue comment constituer des chantillons pour collecter des donnes et combien dunits y inclure.
Au chapitre 12, nous abordons les diffrentes tapes de la collecte de donnes.
En gardant lesprit les questions de politique auxquelles vous voulez rpondre
et la conception de votre valuation, vous devez dterminer si les donnes
existantes sont suffisantes et dcider si de nouvelles donnes doivent tre collectes. Vous commanditez la rdaction dun questionnaire pertinent qui vous
permettra de mesurer les indicateurs choisis. Vous choisissez ensuite une entreprise ou un organisme spcialis en collecte de donnes. Celui-ci recrutera et
formera du personnel de terrain et procdera au pilotage du questionnaire.
Aprs avoir effectu les ajustements ncessaires, lentreprise ou lorganisme
pourra entamer le travail sur le terrain. Enfin, les donnes collectes sont saisies
ou traites et valides avant dtre analyses.
Le chapitre 13 porte sur les tapes finales de lvaluation. Il dcrit les produits
gnrs par lvaluation et le contenu des rapports dvaluation, et nonce
quelques lignes directrices sur la manire de diffuser les rsultats auprs des
dcideurs et des diffrentes parties prenantes.

140

Lvaluation dimpact en pratique

Figure P3.1

Feuille de route pour la mise en uvre dune valuation dimpact

s Dcider quoi valuer


s Dfinir les objectifs, les questions de politique
s tablir les hypothses/la thorie du changement/
la chane de rsultats
Prparer lvaluation
s
Choisir les indicateurs
(partie I)

Mettre
en uvre
lvaluation
(ch. 10)

s
s
s
s
s

Choisir une mthode dvaluation


Sassurer que lvaluation rpond aux normes thiques
Constituer une quipe dvaluation
Dterminer le calendrier de lvaluation
tablir le budget de lvaluation

s Dcider la taille de lchantillon


s Choisir une stratgie dchantillonnage

Choisir lchantillon
(ch. 11)

Collecter
les donnes
(ch. 12)

Produire et
dissminer
les rsultats
(ch. 13)

s Dcider quelles donnes collecter


s Faire appel une socit ou un organisme spcialis
pour collecter les donnes
s laborer le questionnaire
s Procder au pilotage questionnaire
s Effectuer le travail de terrain
s Saisir et valider les donnes

s
s
s
s

Analyser les donnes


Rdiger le rapport
Discuter des rsultats avec les dcideurs
Diffuser les rsultats

141

CHAPITRE 10

Mettre en uvre
une valuation dimpact
Dans la deuxime partie de ce manuel, nous avons voqu diverses mthodes permettant de gnrer des groupes de comparaison valides. Lestimation de limpact
causal dun programme est fonde sur ces groupes de comparaison. Nous allons
maintenant examiner les aspects pratiques relatifs au choix de la mthode la plus
adquate pour un programme donn. Comme nous le verrons, les rgles oprationnelles du programme dterminent la provenance des groupes de comparaison et,
partant, la mthode dvaluation la plus approprie compte tenu du contexte.

Choisir une mthode dvaluation


La validit de lestimation de limpact causal dun programme dpend essentiellement de lexistence dun groupe de comparaison de qualit. Dans la deuxime partie de ce manuel, nous avons voqu plusieurs groupes de comparaison valides, en
particulier ceux gnrs par lassignation alatoire, la promotion alatoire, le
modle de discontinuit de la rgression, la mthode de la double diffrence et
lappariement. Dans le prsent chapitre, nous considrons comment choisir lune
de ces mthodes en fonction du contexte. Le principe fondamental est que les
rgles oprationnelles du programme permettent de dterminer la mthode la
mieux adapte: ce sont donc ces rgles qui doivent conduire la mthode dvaluation, et non linverse. La mise en place dune valuation ne doit en aucun cas
requrir des changements radicaux des lments cls de lintervention dans le seul
but dutiliser une mthode dvaluation donne.

Concept cl :
Les rgles oprationnelles du programme
dterminent le choix
de la mthode
dvaluation
(et non linverse).

143

Lassignation alatoire est souvent la mthode prfre des valuateurs.


Applique dans les rgles de lart, elle assure la comparabilit tant des caractristiques observables que des caractristiques non observables du groupe de traitement
et du groupe de comparaison, tout en prsentant un risque de biais limit. Puisque
lassignation alatoire fournit une estimation de leffet de traitement moyen sur une
population donne de manire largement intuitive et exige peu de connaissances en
conomtrie, elle facilite grandement la communication des rsultats aux dcideurs.
Il nest toutefois pas toujours possible dutiliser des mthodes dassignation
alatoire, notamment lorsquelles sont incompatibles avec les rgles oprationnelles
des programmes.
Les rgles oprationnelles les plus importantes pour la conception dune valuation sont celles qui permettent didentier les units ligibles un programme et la
manire dont seffectue la slection en vue de la participation au programme.
Les groupes de comparaison sont constitus partir de la population ligible qui ne
peut pas tre intgre au programme un moment donn (par exemple, si la
demande est suprieure loffre) ou partir de la population qui prsente des
caractristiques proches de celles ncessaires pour participer un programme, mais
qui en est exclue en raison des rgles de ciblage ou dligibilit du programme.
Il est difficile de trouver des groupes de comparaison valides si les rgles rgissant
lligibilit et la slection ne sont pas quitables, transparentes et que les gestionnaires des programmes en sont tenus responsables.
Principes des rgles de ciblage
Il est pratiquement toujours possible de dterminer un groupe de comparaison
valide si les rgles oprationnelles de slection des bnciaires sont quitables,
transparentes et que les gestionnaires des programmes en sont tenus responsables:
Les rgles quitables dnissent un classement ou un ordre dligibilit selon un
indicateur reconnu des besoins, ou offrent le programme tous, ou du moins
donnent tous une chance gale den bncier.
Concept cl :
Il est pratiquement
toujours possible de
dterminer un groupe
de comparaison valide
si les rgles
oprationnelles de
slection des
bnficiaires sont
quitables,
transparentes et que
les gestionnaires des
programmes en sont
tenus responsables.

144

Le critre de transparence implique que les rgles soient publiques de manire


ce que la socit civile puisse les reconnaitre et vrier quelles sont bien
respectes. Pour tre transparentes, les rgles doivent tre quantitatives et faciles
observer par les parties externes.
Les gestionnaires des programmes sont tenus responsables des rgles de slection
des bnciaires quand ils doivent en rendre compte et quand elles constituent la
base sur laquelle leur performance est mesure et leur rtribution tablie.
Comme nous le verrons ultrieurement, le critre dquit implique souvent lutilisation soit de lassignation alatoire, soit du modle de discontinuit de la rgression.
La transparence et la responsabilisation des gestionnaires permettent de sassurer
que les critres de ciblage sont quantitativement vriables et mis en uvre comme
prvu. Si les rgles oprationnelles ne respectent pas ces trois principes de bonne
gouvernance, tant la conception du programme que la mise en uvre de lvaluation
deviennent problmatiques.
Lvaluation dimpact en pratique

Les rgles oprationnelles dligibilit rpondent aux critres de transparence et


de responsabilisation quand elles sont quantiables, publiques, et quelles peuvent
faire lobjet dune vrication externe. Ces principes de bonne gouvernance augmentent la probabilit quun programme bncie rellement la population cible
et constituent la pierre angulaire dune bonne valuation. Si les rgles ne sont ni
quantiables ni vriables, lquipe charge de lvaluation aura du mal vrier si
lassignation au groupe de traitement ou au groupe de comparaison a t effectue
comme prvu ou mme comprendre comment cette assignation a eu lieu. Si les
valuateurs sont dans lincapacit dobserver le processus dassignation, ils ne
pourront pas analyser correctement les donnes pour dterminer limpact du programme. La comprhension des rgles dassignation du programme est absolument
essentielle pour dterminer la mthode dvaluation dimpact la plus adquate.

Rgles oprationnelles de ciblage


Les rgles oprationnelles rgissent les bnces offerts par le programme, leur
nancement et leur distribution, ainsi que le mode de slection des bnciaires.
Les rgles de nancement du programme et dintgration des bnciaires sont
fondamentales la dnition des groupes de comparaison valides. Les rgles dintgration des bnciaires recouvrent lligibilit, lallocation de ressources limites et
le calendrier dintgration des bnciaires. Plus prcisment, les rgles cls pour
choisir les groupes de comparaison relvent de trois questions oprationnelles fondamentales, se rapportant elles-mmes au nancement, au ciblage et au calendrier:
1. Financement : le programme dispose-t-il de suffisamment de ressources pour
couvrir lensemble de la population ligible ? Les organismes publics et les
organisations non gouvernementales ne disposent pas toujours des fonds
ncessaires pour offrir les services du programme toutes les personnes ligibles
qui souhaitent y participer. Dans de tels cas, les autorits doivent dcider qui,
parmi la population ligible, intgrera le programme et qui en sera exclu. Les
programmes sont parfois limits une rgion donne, aux zones rurales ou de
petites communauts mme sil existe des personnes ligibles dans dautres
rgions ou dans des communauts plus grandes.
2. Ciblage: qui est ligible au programme? Un seuil dligibilit a-t-il t x ou le
programme est-il ouvert tout le monde? Linstruction publique et les services de
sant primaires sont gnralement offerts tous. Toutefois, de nombreux
programmes sappuient sur des rgles de ciblage reposant sur un classement continu des bnciaires potentiels et la dnition dun seuil dligibilit. Par exemple,
les programmes de retraites xent un ge partir duquel les personnes deviennent
ligibles. Les programmes de transferts montaires classent souvent les mnages
selon leur niveau de pauvret, et seuls les mnages au-dessous dun certain seuil
sont considrs comme ligibles.

Mise en uvre dune valuation dimpact

145

3. Calendrier: comment les bnciaires potentiels sont-ils intgrs au programme


tous ensemble en une seule fois ou par phases travers le temps? Dans de nombreux
cas, les contraintes administratives et de ressources empchent les autorits de
servir immdiatement tous les membres du groupe cible. Si le programme doit
tre mis en uvre par phases, il faut alors dsigner qui seront les premiers
bnciaires et qui seront les suivants. Une approche commune consiste largir
le programme par rgion, en intgrant tout dabord les populations ligibles dun
village ou dune rgion donns, puis progressivement les autres.
Identification et classement des bnficiaires par ordre de priorit
Les trois questions prcdentes se rfrent laspect oprationnel fondamental du
mode de slection des bnciaires. Comme nous le verrons plus tard, cet aspect est
essentiel pour dnir des groupes de comparaison valides. Les groupes de comparaison proviennent soit de la population non ligible soit, plus frquemment, de la
population ligible non encore intgre au programme. La manire dont lordre dintgration est tabli dpend en partie des objectifs du programme. Sagit-il dun programme de retraites pour les personnes ges, dun programme de rduction de la
pauvret, ou dun programme de vaccination ouvert lensemble de la population?
Pour dterminer lordre de priorit des bnciaires, la dnition dun indicateur
la fois quantiable et vriable est ncessaire. Lorsquun indicateur est tabli, son
application dpend de la capacit des autorits mesurer les besoins et les classer
par ordre de priorit. Si les autorits peuvent prcisment classer les bnciaires
potentiels en fonction de leurs besoins relatifs, un dploiement du programme selon
lordre de priorit dtermin par ces besoins rpond des raisons thiques. Toutefois, pour tablir un tel classement en fonction des besoins, il faut non seulement
disposer dun indicateur quantiable, mais avoir les capacits et les ressources suffisantes pour procder des mesures individuelles de cet indicateur.
Dans certains cas, lligibilit un programme est dtermine par un indicateur
continu, pour lequel la collecte des donnes est facile et bon march, par exemple
lge dadmissibilit dans le cadre de prestations de retraite. Par exemple, lge de
70 ans constitue un seuil dligibilit la retraite simple mesurer et appliquer.
Pourtant, ce type dindicateur ne permet le plus souvent pas de classer les besoins
relatifs au sein de la population ligible. Par exemple, une personne de 69 ans na
pas forcment moins besoin de prestations de retraite quune personne de 70 ans;
de la mme manire, une personne de 75 ans na pas forcment plus besoin dune
retraite quune personne de 72 ans. Avec un indicateur comme lge de la retraite,
il est possible didentier la population ligible, mais il nest pas ncessairement
possible dtablir un classement des besoins relatifs au sein de cette population.
Dautres programmes tablissent des critres dligibilit qui pourraient aussi
priori permettre de dterminer lligibilit et dtablir un classement des besoins relatifs. Par exemple, de nombreux projets visent les populations pauvres, mais les indicateurs de pauvret ables qui permettent de classer les mnages sont souvent
difficiles mesurer, et la collecte des donnes ncessaires est souvent onreuse.

146

Lvaluation dimpact en pratique

La collecte de donnes sur le revenu ou la consommation de lensemble des bnciaires potentiels dans le but de les classer par niveau de pauvret constitue un processus complexe et onreux. Pour cette raison, nombreux sont les programmes qui
utilisent une approche indirecte comme un test de type proxy mean pour estimer
le niveau de pauvret. Ces approches fournissent des mesures approximatives du
niveau de pauvret des bnciaires potentiels en se fondant sur leur possession dactifs ou leurs caractristiques sociodmographiques (Grosh et al. 2008). Cependant,
ces mesures peuvent contenir des erreurs, cotent cher et ne permettent pas toujours
dtablir un classement prcis des mnages selon leurs besoins ou leur statut socioconomique, surtout dans la partie infrieure de la distribution du revenu. Les tests de
type proxy mean peuvent contribuer dterminer de manire relativement able
si un mnage donn se situe au-dessus ou au-dessous dun seuil donn, mais se rvlent moins efficaces lorsquil sagit destimer la distance par rapport ce seuil. Ces
approches permettent didentier les populations pauvres ligibles, mais pas forcment dtablir un classement de ces populations en fonction de leurs besoins relatifs.
Pour contourner les problmes de cots et la complexit associs au classement
des individus ou des mnages selon leurs besoins relatifs, le ciblage des programmes
seffectue souvent un niveau suprieur, par exemple au niveau des communauts.
Lhypothse sous-jacente cette approche est que les mnages qui composent les
communauts sont globalement homognes et que la grande majorit de la population est potentiellement ligible. Il serait ds lors injusti de subir des couts levs
dans le seul but didentier un nombre limit dindividus inligibles. Dans ce cas,
tous les membres de la communaut sont considrs comme ligibles au programme.
Cette stratgie est souvent efficace pour de petites communauts rurales, mais elle
lest moins pour les programmes raliss en zones urbaines, o les populations sont
plus htrognes. Le ciblage un niveau dagrgation lev prsente des avantages
oprationnels indniables, mais ne permet pas toujours dviter le classement des
bnciaires sur la base dun indicateur objectif et quantiable des besoins.
Si lagence qui assure le nancement du programme dcide de ne pas tablir de
classement des besoins, car elle estime le risque derreur ou les cots trop levs, elle
doit recourir dautres critres pour dnir comment articuler la squence des diffrentes phases du programme. Lquit est un critre compatible avec les principes
de bonne gouvernance. Une rgle quitable peut consister donner toutes les personnes ligibles la mme chance dtre intgres dans la premire phase du programme et dassigner, de manire alatoire, les bnciaires potentiels lune des
phases suivantes du programme. Cette rgle dallocation est non seulement juste et
quitable, mais elle permet de garantir la validit interne et externe de lvaluation.
Passer des rgles oprationnelles aux groupes de comparaison
Dans le tableau 10.1, nous prsentons les groupes de comparaison possibles en fonction
des rgles oprationnelles des programmes et des trois questions oprationnelles
fondamentales relatives au nancement, au ciblage et au calendrier que nous avons
voques ci-dessus. Le tableau comprend deux colonnes principales: la premire correspond aux cas o le programme nest pas dot des ressources suffisantes pour couvrir lensemble des bnciaires potentiels, et la seconde aux cas o ces ressources
Mise en uvre dune valuation dimpact

147

Tableau 10.1 Relations entre les rgles oprationnelles dun programme et les mthodes
dvaluation dimpact
FINANCEMENT

CALENDRIER

RGLES DE
CIBLAGE

Demande suprieure loffre


(ressources limites)

Pas de demande excdentaire


(ressources suffisantes)

Ciblage selon
classement
continu et seuil
dligibilit
(1)

Pas de ciblage
selon
classement
continu et seuil
dligibilit
(2)

Pas de ciblage
selon
classement
continu et seuil
dligibilit
(3)

Pas de ciblage
selon
classement
continu et seuil
dligibilit
(4)

CELLULE A1

CELLULE A2

CELLULE A3

CELLULE A4

(3.1)
Assignation
alatoire

(3.1)
Assignation
alatoire

(4) MDR

(3.2)
Promotion
alatoire

(3.1)
Assignation
alatoire par
phases

(3.1)
Assignation
alatoire par
phases

(4) MDR

(3.2)
Promotion
alatoire pour
participation
phase initiale

Mise en uvre
par phases (A)

(5) DD avec
(6) Appariement

(5) DD avec
(6) Appariement

Mise en uvre
immdiate (B)

CELLULE B1

CELLULE B2

CELLULE B3

CELLULE B4

(3.1)
Assignation
alatoire

(3.1)
Assignation
alatoire

(4) MDR

En absence
de participation
universelle :

(4) MDR

(3.2)
Promotion
alatoire

(3.2)
Promotion
alatoire

(5) DD avec

(5) DD avec

(6) Appariement

(6) Appariement

Remarque : les chiffres entre parenthses renvoient au chapitre du manuel o la mthode est prsente. MDR = modle de
discontinuit de la rgression ; DD = double diffrence

sont suffisantes (nancement). Chacune de ces deux colonnes est son tour subdivise
en deux autres colonnes selon que le programme est cibl ou ouvert tous
(rgles de ciblage). Les lignes sont divises en fonction des impratifs temporels
(calendrier), selon que les bnciaires du programme sont intgrs immdiatement
au programme ou par phases. Chaque cellule du tableau indique les mthodes
possibles pour former un groupe de comparaison valide. Chaque cellule est associe
une lettre indiquant sa place dans les lignes du tableau (ligne A ou B) et un chiffre
reprsentant les colonnes (de 1 4). Par exemple la cellule A1 se rfre la premire
ligne (A) et la premire colonne (1). Dans la cellule A1 gurent les mthodes dvaluation les plus adaptes aux programmes cibls, dots de ressources limites et mis en
uvre par phases.
148

Lvaluation dimpact en pratique

Pour la plupart des programmes, une mise en uvre par phases est ncessaire du
fait de contraintes nancires, logistiques ou administratives. Cette catgorie de
programmes se retrouve dans la premire ligne du tableau (cellules A1, A2, A3 et A4).
Dans ces cas-l, la rgle oprationnelle la plus quitable, la plus transparente et qui
permet de tenir les gestionnaires des programmes responsables consiste donner
chacun une chance gale dintgrer le programme dans chacune des phases, autrement dit de procder par assignation alatoire aux diverses phases du programme.
Lorsque les ressources sont limites, cest--dire dans les cas o les ressources
sont insuffisantes pour couvrir lensemble de la population (cellules A1 et A2, ainsi
que B1 et B2), la demande peut rapidement dpasser loffre. Un tirage au sort est
alors un bon moyen de choisir les bnciaires parmi une population ayant les
mmes besoins relatifs. Ainsi, chacun a une chance gale dintgrer le programme.
Le tirage au sort est une rgle oprationnelle dallocation des services dun programme qui est quitable, transparente et qui permet de tenir les gestionnaires des
programmes responsables.
Les cellules A1 et A3 comprennent une autre catgorie de programmes, savoir
ceux qui doivent tre mis en uvre par phases et o un classement des bnciaires
selon les besoins est possible. Si les bnciaires potentiels sont classs selon des
critres quantitatifs et quun seuil dligibilit peut tre x, un modle de discontinuit de la rgression peut tre adopt.
Les cellules de la dernire ligne du tableau regroupent une autre grande catgorie, les programmes pour lesquels les capacits administratives sont suffisantes pour
permettre une mise en uvre immdiate. Lorsque les ressources sont limites et
quil nest pas possible dtablir un classement des bnciaires (cellule B2), lvaluation peut avoir recours une assignation alatoire quand la demande est suprieure
loffre. Si les ressources sont suffisantes pour couvrir lensemble de la demande et
quil ny pas de critres de ciblage (cellule B4), la promotion alatoire est alors la
seule possibilit pour autant que la participation au programme ne soit pas universelle. Sil est possible dtablir une priorit parmi les bnciaires potentiels et que le
programme est cibl, le modle de discontinuit de la rgression peut de nouveau
faire laffaire.
Dtermination de lchelle minimum de lintervention
Les rgles oprationnelles dterminent galement lchelle minimum dintervention, cest--dire le niveau auquel le programme est mis en uvre. Par exemple, si un
programme de sant est excut lchelle rgionale, tous les villages de la rgion en
bncieront (en groupe) ou en seront exclus. Certains programmes peuvent tre
efficacement mis en uvre au niveau des individus, des mnages ou des institutions
tandis que dautres doivent tre implments au niveau dune communaut ou dune
rgion administrative. Lexcution dune intervention un niveau lev (par exemple
au niveau dune province ou dun tat) peut se rvler problmatique pour lvaluation pour trois raisons principales:
1. La taille de lchantillon dvaluation et le cot de lvaluation augmentent avec
lchelle dintervention.

Mise en uvre dune valuation dimpact

149

2. Plus lchelle dintervention est leve, plus il est difficile de disposer dun nombre
suffisant dunits inclure dans lvaluation.
3. La validit interne de lvaluation peut tre plus risque avec des units
dintervention grande chelle.
Premirement, les valuations portant sur des niveaux dintervention levs comme
des communauts ou des rgions administratives exigent des chantillons de taille
plus importante et sont plus coteuses que les valuations concernant des units
dun niveau moindre comme les personnes ou les mnages1. Le niveau dintervention
est important, car il dnit lunit laquelle le traitement sera appliqu ainsi que les
groupes de comparaison forms, ce qui dtermine aussi la taille de lchantillon
dvaluation et donc son cot. Pour les interventions un niveau lev, un chantillon plus important est ncessaire pour pouvoir dterminer limpact rel du programme. Lintuition sous-jacente cette affirmation sera examine au chapitre 11,
lequel porte sur les calculs de puissance et la manire de dnir la taille de lchantillon dvaluation.
Un point lgrement diffrent est que la taille de lchantillon ncessaire pour
que lassignation alatoire gnre des groupes de traitement et de comparaison quilibrs devient problmatique des niveaux levs dagrgation. Intuitivement,
si le niveau dagrgation est la province et que le pays ne compte que six provinces,
lassignation alatoire a peu de chances de conduire des groupes de traitement et
de comparaison quilibrs. Supposons que nous affectons trois provinces au groupe
de traitement et les trois autres au groupe de comparaison ; il est trs peu probable
que les provinces du groupe de traitement soient similaires celles du groupe de
comparaison mme si le nombre de mnages dans chaque province est important.
Pour quilibrer les groupes de comparaison et de traitement, llment cl est le
nombre dunits affectes chacun des deux groupes (dans ce cas le nombre de
provinces) et non pas le nombre dindividus ou de mnages dans lchantillon.
Le troisime problme lorsque lintervention est mise en uvre un niveau lev
est que les changements diffrentiels dans le temps ont plus de risques daffecter la
validit interne de la slection alatoire mme si les caractristiques des groupes
sont initialement quilibres. Revenons notre exemple des provinces comme
niveau dintervention dans le cadre du programme dassurance maladie. Certaines
provinces sont assignes de manire alatoire au groupe de traitement et dautres au
groupe de comparaison. Supposons que nous avons de la chance et que les deux
groupes sont quilibrs au dpart, cest--dire que les mnages du groupe de traitement et ceux du groupe de comparaison affichent initialement des dpenses de sant
directes moyennes quivalentes. Aprs la collecte des donnes de rfrence, certaines provinces peuvent dcider de lancer dautres programmes de sant comme
des programmes de vaccination ou encore des projets dapprovisionnement en eau
et dassainissement qui permettent damliorer la sant de la population et, de ce fait,
de rduire les dpenses de sant directes des mnages. Si les groupes de comparaison et de traitement ne bncient pas tous des mmes politiques, limpact de notre
programme dassurance maladie sur les dpenses de sant directes des mnages se
confondra avec limpact des autres politiques de sant mises en uvre par certaines

150

Lvaluation dimpact en pratique

provinces. De mme, certaines provinces peuvent enregistrer une croissance conomique suprieure dautres. Or, les dpenses de sant ont de fortes chances daugmenter plus rapidement dans les provinces o la croissance est plus importante. L
aussi, si la croissance conomique diffre dans les groupes de comparaison et de
traitement, limpact du programme dassurance maladie sur les dpenses de sant
directes risque dtre difficile isoler de limpact de la croissance conomique sur les
conomies locales. En gnral, il est difficile de tenir compte de ces changements
lorsquils ont lieu des niveaux dintervention levs. Lassignation alatoire des
niveaux dintervention moins levs permet de mieux matriser ces lments menaant la cohrence interne de lvaluation.
Pour viter les problmes lis la mise en uvre dune intervention un niveau
gographique ou administratif lev, les responsables de programme doivent dterminer le niveau minimum auquel le programme peut tre mis en uvre. Cette
chelle minimum dintervention est fonction de plusieurs facteurs:
Les conomies dchelle et la complexit administrative de la mise en uvre du
programme
Les capacits administratives de distribuer le programme au niveau des individus ou des mnages
Les craintes dventuels conits civils
Les craintes de contamination du groupe de comparaison.
Lchelle minimum dintervention dpend gnralement des conomies dchelle et
de la complexit administrative associes la mise en uvre du programme.
Par exemple, un programme dassurance maladie peut ncessiter un bureau pour recevoir les demandes des bnciaires et rgler les fournisseurs. Les cots xes de fonctionnement de ce bureau doivent tre rpartis sur un grand nombre de bnciaires;
il peut donc tre moins rentable dexcuter le programme un niveau individuel quau
niveau communautaire. Toutefois, lorsquil sagit dinterventions nouvelles non encore
prouves, il peut tre plus judicieux daccepter les inefficiences court terme et de
mettre en uvre le programme par district administratif de manire garantir la crdibilit de lvaluation et rduire les cots de collecte des donnes.
Les gouvernements argumentent parfois que pour les programmes administrs
localement, comme les programmes dassurance maladie, les capacits administratives sont insuffisantes pour envisager une mise en uvre au niveau individuel.
Ils estiment en effet quil serait fastidieux de mettre en place des systmes pour offrir
diffrents services diffrents bnciaires lintrieur dunits administratives
locales, et quil nest donc pas possible deffectuer une assignation au groupe de traitement et au groupe de comparaison. Ce problme constitue une srieuse entrave
la conception de lvaluation et, de ce fait, la russite de ltude.
Parfois, les autorits prfrent aussi excuter les programmes un niveau dagrgation plus lev (par exemple au niveau de la communaut) pour viter dventuels
conits si les membres du groupe de comparaison voient leurs voisins du groupe de
traitement bncier du programme avant eux. Dans les faits, il existe peu dl-

Mise en uvre dune valuation dimpact

151

ments pour appuyer ces craintes. De nombreux programmes sont mis en uvre avec
succs au niveau des individus ou des mnages au sein de communauts sans gnrer de conit; il suffit que lassignation ait lieu de manire quitable, transparente et
que les gestionnaires de programme en soient tenus responsables.
Dautre part, lorsquun programme est mis en uvre un niveau peu lev,
comme lindividu ou le mnage, une contamination du groupe de comparaison peut
compromettre la validit interne de lvaluation. Supposons par exemple que nous
cherchons valuer leffet de lapprovisionnement en eau courante sur la sant des
mnages. Si des robinets sont installs chez un mnage et pas chez son voisin, le
mnage faisant partie du groupe de traitement peut trs bien partager leau avec son
voisin qui, lui, fait partie du groupe de comparaison; ce voisin ne constituera alors
plus un bon point de comparaison du fait de cet effet de dbordement.
Dans les faits, les responsables de programme doivent donc trouver lchelle
minimum dintervention permettant 1) de disposer dun chantillon dvaluation
suffisamment important, 2) de matriser les risques sur le plan de la validit interne,
et 3) de sadapter au contexte oprationnel. Lencadr 10.1 illustre le choix et les
implications de lchelle minimum dintervention dans le cas des programmes de
transferts montaires.

Encadr 10.1 : Programmes de transferts montaires et chelle


minimum dintervention
Dans la majorit des programmes de transferts
montaires conditionnels, lchelle minimum
dintervention est la communaut, pour des raisons administratives et de conception du programme, mais aussi pour viter les effets de
diffusion et dventuels conflits qui pourraient
natre au sein dune communaut si le traitement
tait attribu un niveau infrieur.
Par exemple, lvaluation du programme de
transferts montaires conditionnels Progresa/
Oportunidades au Mexique repose sur un
dploiement du programme au niveau des communauts rurales avec une assignation alatoire
des communauts par phases au groupe de traitement ou au groupe de comparaison. Tous les
mnages ligibles des communauts assignes
au groupe de traitement intgrent le programme

au printemps 1998 et tous les mnages ligibles


des communauts assignes au groupe de comparaison lintgrent 18 mois plus tard, soit lhiver 1999. Les valuateurs trouvent une corrlation
importante au niveau des rsultats entre les
mnages des communauts. Pour garantir une
puissance statistique suffisante lvaluation,
davantage de mnages doivent tre inclus dans
lchantillon dvaluation que ce qui aurait t
ncessaire si le groupe de traitement et le groupe
de comparaison avaient t constitus au niveau
des mnages. Limpossibilit de mettre en uvre
le programme lchelle des mnages ncessite
donc un chantillon plus grand et entrane des
cots dvaluation plus levs. Ce type de
contraintes se retrouve dans un grand nombre de
programmes de dveloppement humain.

Sources : Behrman et Hoddinott 2001 ; Gertler 2004 ; Levy et Rodrguez 2005 ; Schultz 2004 ; Skoufias et
McClafferty 2001.

152

Lvaluation dimpact en pratique

Lvaluation est-elle thique ?


Les valuations dimpact soulvent souvent des questions dthique. La premire
question se poser est de savoir sil est thique dinvestir des ressources publiques
considrables dans des programmes dont lefficacit nest pas garantie. Dans ce
contexte, cest plutt le dfaut dvaluation qui nest pas thique. En effet, les informations sur lefficacit dun programme produites par les valuations dimpact peuvent conduire une utilisation plus efficace et plus thique des ressources publiques.
Lorsque la dcision est prise de mener une valuation dimpact, dautres questions dordre thique doivent tre considres. Elles ont trait tant aux rgles dattribution des bnces du programme quaux mthodes dtude de sujets humains.
Le premier principe respecter en matire dassignation des bnces dun programme est de ne jamais empcher ou retarder leur distribution cause de lvaluation. Dans ce manuel, nous avons dj soulign que les valuations ne doivent en aucun
cas dicter la manire dont les bnces dun programme sont assigns, mais quelles
doivent au contraire tre adaptes aux rgles oprationnelles du programme. Dans ce
cadre, les problmes thiques qui peuvent survenir ne seront pas lis lvaluation
dimpact elle-mme, mais directement aux rgles dattribution du programme.
Lassignation alatoire des bnces du programme pose souvent des questions
thiques lies au fait que certains bnciaires ligibles ne participent pas au programme. Pourtant, la plupart des programmes sont dots de moyens nanciers et
administratifs limits rendant impossible la couverture immdiate de lensemble
des bnciaires potentiels. Dun point de vue thique, tous les sujets qui sont galement ligibles la participation un programme social donn devraient avoir la
mme chance de bncier dudit programme. Lassignation alatoire rpond ce
principe fondamental. Dans les cas o un programme doit tre mis en uvre par
phases, une slection alatoire peut tre effectue pour dterminer lordre selon
lequel les personnes formant la population ligible bncieront du programme.
Les personnes choisies pour intgrer le programme ultrieurement formeront
alors le groupe de comparaison, permettant ainsi non seulement de concevoir une
bonne tude dvaluation, mais aussi dallouer des ressources rares de manire
transparente et quitable.
Dans de nombreux pays et institutions internationales, des commissions ou des
comits dthique ont t mis en place pour encadrer les recherches portant sur les
sujets humains. Ces comits sont chargs dvaluer, dapprouver et de suivre les
recherches en cours. Leur objectif premier est de protger les droits et de promouvoir le bien-tre de tous les sujets participant ces tudes. Malgr leur orientation
oprationnelle, les valuations dimpact sont galement des travaux de recherche
et, en tant que telles, doivent se conformer aux directives sappliquant aux
recherches portant sur des sujets humains.
Aux tats-Unis, le Bureau de protection de la recherche humaine (Office for
Human Research Protections), rattach au Dpartement de la sant et des services
humains (Department of Health and Human Services), est responsable de la coor-

Mise en uvre dune valuation dimpact

Concept cl :
Il ne faut jamais
empcher ou retarder
les bnfices offerts
par un programme
cause de lvaluation.

153

dination des travaux des comits dthique institutionnels mis en place dans toutes
les universits et institutions de recherche. Ce bureau publie aussi une compilation de plus dun millier de lois, rglementations et directives relatives au sujet de
la recherche humaine dans 96 pays et tablit des liens avec les codes thiques et les
normes rglementaires en vigueur dans les principales organisations internationales et rgionales.
Par exemple, toutes les recherches menes aux tats-Unis ou nances par des
agences fdrales amricaines comme linstitut national de la sant (National Institutes of Health) ou lagence amricaine de dveloppement international (USAID)
doivent tre conformes aux principes thiques et aux exigences rglementaires de la
lgislation fdrale2. La lgislation amricaine sur la protection des sujets de
recherche humains se base sur le Rapport Belmont et prvoit:
une slection quitable des sujets
la minimisation des risques pour les sujets
une exposition au risque raisonnable, proportionnelle aux bnces attendus
lobtention du consentement clair de chaque sujet ou de son reprsentant lgal
ladoption de dispositions visant protger les donnes personnelles concernant
les sujets et garantir la condentialit
la mise en place de dispositions particulires pour protger les sujets plus vulnrables comme les enfants, les dtenus ou les moins nantis.
Les principes lmentaires de protection des droits et de promotion du bien-tre
de tous les sujets, initialement dicts pour les essais mdicaux, sappliquent aussi
aujourdhui en recherche sociale. Pour lvaluation des programmes sociaux, les
trois premiers points de la liste ci-dessus renvoient aux questions thiques lies
lattribution des bnces. Les trois derniers concernent les protocoles selon
lesquels les sujets humains sont tudis dans le cadre de lvaluation3.
Au moment de concevoir ou de commissionner une valuation, il convient de
bien vrier que chaque tape est en conformit avec les lois ou procdures dexamen en vigueur qui rgissent la recherche sur les sujets humains, que ce soit dans
le pays o lvaluation est effectue, ou dans le pays de lorganisme qui nance
lvaluation.

Comment constituer une quipe dvaluation ?


Une valuation requiert un partenariat entre des dcideurs et des valuateurs, les
deux groupes dpendant les uns des autres pour le succs de lexercice. Les dcideurs doivent fournir lorientation de ltude et assurer la pertinence de lvaluation

154

Lvaluation dimpact en pratique

en dterminant si lvaluation est ncessaire, en formulant les questions dvaluation, en mettant disposition les ressources adquates pour la ralisation de lvaluation, en assurant la supervision des travaux, et en utilisant les rsultats pour informer
leur prise de dcision. Les valuateurs sont responsables des aspects techniques,
savoir la dnition de la mthodologie, la constitution de lchantillon dvaluation,
la collecte des donnes et lanalyse.
Une valuation est un juste quilibre entre les comptences techniques et limpartialit dun groupe dvaluateurs externes dune part, et la pertinence politique,
lorientation stratgique et la coordination oprationnelle des dcideurs dautre part.
Dans ce partenariat, le degr de sparation institutionnelle entre ceux qui ralisent
lvaluation et ceux qui en exploitent les rsultats constitue un lment cl. Lindpendance des valuateurs par rapport linstitution responsable du projet qui fait
lobjet de lvaluation est primordiale pour en garantir lobjectivit. Toutefois, les
valuations peuvent souvent servir plusieurs objectifs, parmi lesquels le renforcement des capacits des institutions publiques en matire dvaluation et la sensibilisation des gestionnaires du programme aux effets de leurs projets sur le terrain
durant leur mise en uvre.
Pour quune valuation dimpact soit une russite, les valuateurs et les dcideurs doivent imprativement collaborer. Lvaluation doit tre mene par un
groupe externe de manire en assurer lobjectivit et la crdibilit ; toutefois, elle
ne saurait tre dtache des rgles oprationnelles. Il convient en particulier de
tenir compte des rgles de mise en uvre du programme pour garantir une bonne
conception de lvaluation et pour sassurer que le programme et lvaluation sont
excuts de manire coordonne, lun nentravant pas lautre. En outre, faute dun
engagement marqu des dcideurs ds le dbut du processus, les rsultats ont
moins de chances davoir une pertinence politique directe ou dinuencer les
politiques menes par les autorits.

Concept cl :
Une valuation est
un partenariat entre
des dcideurs et des
valuateurs.

Composition dune quipe dvaluation


Les dcideurs peuvent mandater une valuation dimpact sous diverses formes darrangements contractuels. Premirement, linstitution publique commanditant lvaluation peut dcider de sous-traiter lensemble du travail. Elle doit alors tablir au
moins une version prliminaire du plan dvaluation indiquant notamment les
objectifs cls, les questions de politique, la mthodologie souhaite, les donnes
collecter et les plafonds budgtaires. Ce plan fait office de cadre de rfrence pour
lancer un appel doffres techniques et nancires auprs dvaluateurs externes.
Il peut galement spcier la composition minimum souhaite de lquipe dvaluateurs externes. La prparation des propositions techniques est loccasion pour les
valuateurs externes de suggrer des amliorations au plan dvaluation tabli par
les autorits. Une fois lvaluation contracte, lagence externe retenue se charge de
la gestion de lvaluation et dsigne un gestionnaire de lvaluation. Dans ce cas de
gure, les autorits se contentent dun rle de supervision.

Mise en uvre dune valuation dimpact

155

Dans un deuxime type darrangement, linstitution publique qui commandite


lvaluation peut aussi dcider den assurer la gestion directe. Dans ce cas, elle devra
tablir le plan dvaluation et sous-traiter la ralisation de lvaluation par composantes et par tapes successives. Le gestionnaire de lvaluation est alors linstitution
publique qui a demand lvaluation.
Indpendamment des dispositions contractuelles, lune des principales tches
qui incombent au gestionnaire de lvaluation est la constitution de lquipe dvaluation en tenant compte des intrts des clients et des diverses tapes ncessaires pour
mener lvaluation bien. Chaque valuation est diffrente, mais lquipe technique,
qui doit assurer la collecte des donnes qualitatives et quantitatives, sentourera dans
presque tous les cas des personnes suivantes:
un gestionnaire de lvaluation, qui sera charg de dnir les objectifs cls, les
questions de politique, les indicateurs et les besoins en matire dinformations
(souvent en troite collaboration avec les dcideurs et partir dune thorie du
changement comme la chane de rsultats), de slectionner la mthode dvaluation, de constituer lquipe dvaluation et de prparer les termes de rfrence pour les composantes de lvaluation qui seront sous-traites. Il est important de choisir un gestionnaire de lvaluation capable de travailler
efficacement avec les organismes de collecte de donnes, les analystes et les
dcideurs qui utiliseront les donnes et les rsultats de lvaluation. Si le gestionnaire de lvaluation nest pas sur place, il est recommand de dsigner un
gestionnaire local qui assurera la coordination du travail dvaluation en collaboration avec le gestionnaire international.
un spcialiste en chantillonnage, qui dirigera les travaux lis aux calculs de puissance et lchantillonnage. Pour les valuations dimpact quantitatives, ce
spcialiste doit effectuer les calculs de puissance pour dterminer la taille de
lchantillon adquate selon les indicateurs retenus, slectionner lchantillon,
analyser la validit de lchantillon obtenu par rapport lchantillon prvu et
formuler des conseils aux analystes en leur indiquant, le cas chant, comment
introduire des pondrations au moment de lanalyse. Cet expert pourra aussi
slectionner les sites ou groupes pour la phase pilote du projet. Sil sagit dun
consultant international, il aura sans doute besoin dtre assist dun coordonnateur local qui collectera les donnes ncessaires au tirage de lchantillon.
une personne ou une quipe responsable de la conception des instruments de collecte
des donnes et des manuels les accompagnant, qui veillera, en collaboration avec le
gestionnaire de lvaluation, ce que ces instruments permettent bien de recueillir les donnes ncessaires lanalyse et qui contribuera lessai des questionnaires durant la phase pilote.

156

Lvaluation dimpact en pratique

une quipe de terrain, qui comprendra, entre autres, un responsable de terrain


charg de la supervision de lensemble du travail de collecte des donnes, de la
planication des oprations de collecte la formation et lorganisation des
quipes de terrain, lesquelles sont gnralement constitues de superviseurs et
denquteurs.
des gestionnaires de donnes et des agents de saisie, qui devront concevoir les programmes de saisie des donnes, saisir et vrier la validit des donnes, fournir la
documentation ncessaire et produire des rapports prsentant une description
basique des donnes qui seront ensuite vris par les analystes.
des analystes de donnes et des analystes stratgiques, qui travailleront partir des
donnes fournies et en collaboration avec le gestionnaire de lvaluation pour
effectuer lanalyse et rdiger les rapports dvaluation.
Partenaires de lvaluation
Lune des premires questions sur laquelle les dcideurs et le gestionnaire de lvaluation doivent trancher est de savoir si lvaluation (ou une partie de lvaluation)
peut tre mise en uvre localement et de dterminer le type de supervision et dassistance extrieure ncessaires. Les capacits en matire dvaluation varient beaucoup dun pays lautre. Les contrats internationaux permettant une socit dun
pays donn de mener une valuation dans un autre pays sont de plus en plus courants. Il est galement de plus en plus frquent que les gouvernements et les institutions internationales effectuent conjointement des valuations au niveau local, tout
en assurant une supervision internationale. Cest au gestionnaire de lvaluation
dvaluer les capacits locales et de dterminer qui sera responsable des divers
aspects de lvaluation.
Une autre question qui se pose est de savoir sil convient de travailler avec une
socit prive ou un organisme public. Les socits ou les instituts de recherche privs sont souvent plus mme de tenir le calendrier, mais dans ce cas, lopportunit
de renforcer les capacits dans le secteur public peut tre perdue. En revanche, les
socits prives sont parfois plus rticentes intgrer des lments qui rendront
leurs efforts plus couteux. Les valuations peuvent aussi tre cones des instituts
de recherche ou des universits. La rputation et lexpertise technique de certains
instituts de recherche ou de certaines universits peuvent constituer un gage de crdibilit des rsultats obtenus et donc contribuer leur acceptation immdiate par les
parties prenantes au programme. Toutefois, ces organisations manquent parfois de
lexprience oprationnelle et des capacits ncessaires pour mener bien certains
aspects de lvaluation, tels que la collecte des donnes. Ces aspects devront alors
tre cons dautres partenaires. Dans tous les cas, quelle que soit la combinaison
retenue, il est impratif dtudier soigneusement lexprience des ventuels collaborateurs en matire dvaluation pour faire le bon choix.

Mise en uvre dune valuation dimpact

157

En particulier, en considrant de travailler avec une institution publique, lvaluateur doit bien tudier les capacits de lquipe dvaluation la lumire des autres
activits sa charge. Ceci est encore plus vrai si linstitution en question assume des
responsabilits multiples avec un personnel limit. Mieux vaut avoir une bonne ide
de la charge de travail de linstitution an dvaluer si son volume de travail affectera
la qualit de lvaluation, mais aussi an destimer le cot dopportunit en termes
dautres tches que linstitution pourrait raliser la place. Par exemple, une valuation dimpact dune rforme du systme ducatif ncessitait la participation du personnel de lquipe charge de lvaluation des examens nationaux semestriels.
Cette quipe avait t associe lvaluation dimpact parce quelle regroupait les
professionnels les plus qualis en la matire et que cette opration permettait une
complmentarit entre lvaluation dimpact et les examens nationaux. Toutefois,
tant la rforme que lvaluation dimpact durent tre reportes. Ceci a non
seulement remis en cause le travail denqute, mais a aussi retard la ralisation des
examens naux qui nont pas eu lieu selon le calendrier prvu. En plus de lvaluation, le pays a ainsi perdu une belle occasion de faire le suivi du progrs de son
systme ducatif. Il est possible dviter les problmes de ce type en assurant une
bonne coordination entre les responsables de lunit charge de lvaluation
dimpact, de manire permettre une planication adquate des diverses activits
ainsi quune bonne rpartition du personnel et des ressources.

Quand effectuer lvaluation ?


Dans la premire partie du prsent manuel, nous avons voqu les avantages des
valuations prospectives, prvues ds le dbut de la prparation du programme. Une
planication prcoce permet dlargir les possibilits pour la constitution des
groupes de comparaison, permet dassurer la collecte des donnes de rfrence et
contribue tablir un consensus sur les objectifs du programme et de lvaluation
entre les diverses parties prenantes.
Il est important de prvoir lvaluation ds la phase de conception du projet, mais
il peut tre utile dattendre que le projet ait acquis une certaine maturit avant de
raliser lvaluation. Les projets pilotes ou les rformes nouvelles font souvent lobjet
de rvisions tant au niveau de leur contenu que de la manire, du moment, du lieu et
des responsables de leur mise en uvre. Les responsables du programme peuvent
avoir besoin de temps pour intgrer et appliquer systmatiquement de nouvelles
rgles oprationnelles. Lexercice dvaluation exige que le programme soit mis en
uvre selon des rgles oprationnelles prcises pour pouvoir gnrer des contrefactuels adquats. En ce sens, il est parfois prfrable de raliser des valuations pour
des programmes tablis.
La collecte de donnes de rfrence est toujours ncessaire, mais la question du
laps de temps requis avant de mesurer les rsultats se pose souvent. Tout dpend
du contexte: Si lvaluation a lieu trop tt, il y a un risque de ne mesurer quun
impact partiel ou nul ; si elle a lieu trop tard, il y a un risque que le programme ait
perdu le soutien des donateurs ou des autorits ou quun mauvais programme ait

158

Impact Evaluation in Practice

dj t largi (King et Behrman 2009, p. 56). Les lments suivants doivent tre
pris en considration lorsquil sagit de dterminer le calendrier de collecte des
donnes de suivi4:
Le cycle du programme, notamment la dure, le temps ncessaire la mise en
uvre et les retards ventuels
Le temps jug ncessaire pour que le programme produise des rsultats ainsi que
la nature des rsultats ltude
Les cycles dlaboration des politiques publiques.
En premier lieu, lvaluation dimpact doit tre en adquation avec le cycle de mise
en uvre du programme. Lvaluation ne doit pas modier le plan de droulement
du programme. Par essence, lvaluation est soumise au calendrier du programme ;
elle doit se plier la dure prvue du programme. Elle doit galement sadapter
aux ventuels retards de mise en uvre si les services prvus tardent tre offerts
ou sont retards par des facteurs externes5. En gnral, mme sil faut prvoir un
calendrier dvaluation ds la conception du programme, les valuateurs doivent
faire preuve de exibilit et accepter de procder des modications au fur et
mesure du droulement du programme. Il faut en outre prvoir un bon systme de
suivi pour que le rythme de lvaluation puisse sadapter au rythme auquel les
interventions se droulent.
Le calendrier de collecte des donnes de suivi doit tenir compte du temps qui
sera ncessaire aprs la mise en uvre du programme pour que les rsultats se
matrialisent. La chane de rsultats permet justement didentier les indicateurs
de rsultats et de dnir le moment opportun pour les mesurer. Certains programmes (comme les programmes de lets sociaux) visent des bnces court
terme tandis que dautres (comme les programmes dducation de base) sont plus
orients vers le long terme. De plus, certains rsultats ncessitent, par nature, plus
de temps pour se manifester (cest le cas par exemple des rsultats au plan de
lesprance de vie ou de la fcondit dans les rformes de sant) que dautres
(comme les programmes de formation).
Par exemple, dans le cadre de lvaluation du Fonds dinvestissement social en
Bolivie, les donnes de rfrence ont t recueillies en 1993, mais il a fallu attendre
jusquen 1998 pour collecter les donnes de suivi en raison du temps ncessaire
pour que lensemble des interventions soient excutes (projets dapprovisionnement en eau et de rseaux dassainissement, cliniques et coles) et pour que les
effets sur lducation et la sant de la population se fassent sentir (Newman et al.
2002). Une priode de temps similaire a t ncessaire pour lvaluation du projet
dducation primaire au Pakistan, qui reposait sur une approche exprimentale
ayant recours des donnes de rfrence et de suivi pour valuer limpact des
coles communautaires sur les rsultats, notamment scolaires, des tudiants
(King, Orazem et Paterno, 2008).
Le moment o la collecte des donnes de suivi doit avoir lieu dpend donc largement du programme et de lindicateur des rsultats ltude. Pour certaines valuations, les donnes de suivi peuvent tre recueillies alors que le programme est

Mise en uvre dune valuation dimpact

159

en cours de mise en uvre, ce qui permet de mesurer les impacts court terme et
de faire le suivi de lchantillon dvaluation de manire limiter son attrition dans
le temps. Pour les programmes dont les oprations sont limites dans le temps, la
collecte de donnes de suivi aprs la n du programme peut permettre de mieux
mesurer les changements long terme. Des collectes de donnes de suivi peuvent
mme tre organises plusieurs reprises, ce qui donne la possibilit danalyser et
de comparer les rsultats court et moyen terme.
Les donnes de suivi collectes au cours de la mise en uvre du programme peuvent ne pas suffire pour estimer limpact total du programme si la mesure des indicateurs intervient trop tt. En effet, les programmes ne sont pas forcment pleinement
efficaces au dbut de leur lancement. Les promoteurs et les bnciaires du programme ont besoin dun temps dapprentissage (King et Behrman 2009, 65). Il nen
reste pas moins quil est trs utile davoir des informations sur limpact court terme.
Comme nous lavons dj soulign, certains programmes (comme les programmes
de lets sociaux) visent principalement des objectifs court terme. Des informations sur la performance court terme dun programme peuvent galement donner
des indications sur les rsultats esprs plus long terme. Les indicateurs court
terme permettent souvent de bonnes prdictions des indicateurs plus long terme
(par exemple, les naissances sous assistance mdicale constituent un indicateur
court terme de lvolution de la mortalit infantile). Les donnes de suivi collectes
alors que le programme est en cours de mise en uvre permettent aussi de dgager
des rsultats prliminaires de lvaluation dimpact, ce qui peut tre loccasion de
relancer le dialogue entre les valuateurs et les dcideurs.
Les donnes de suivi qui permettent de mesurer les rsultats long terme aprs
la mise en uvre du programme sont gnralement celles qui permettent de cerner
le mieux lefficacit dun programme. Par exemple, les rsultats positifs mis en vidence par les valuations de limpact long terme des programmes de dveloppement de la petite enfance aux tats-Unis (Currie et Thomas 1995, 2000 ; Currie
2001) et en Jamaque (Grantham-McGregor et al. 1994) ont t dterminants dans la
dcision dinvestir dans ces projets.
Lobtention dimpacts long terme constitue parfois lobjectif explicite de certains programmes, mais ils peuvent aussi rsulter deffets imprvus et indirects,
lis par exemple aux changements de comportement. La dtermination de limpact long terme peut nanmoins se rvler problmatique. Limpact peut tout
simplement disparatre au l du temps. Une mthodologie dvaluation dimpact
bien conue peut tre compromise. Par exemple, des effets de dbordements peuvent se produire entre les bnciaires du programme et les units du groupe
de comparaison.
Bien que les donnes de suivi court et long terme soient complmentaires, le
calendrier de lvaluation doit tenir compte du moment opportun pour que les rsultats de lvaluation clairent les prises de dcision de politique publique. Il doit ainsi
assurer la synchronisation des activits dvaluation et de collecte de donnes avec
les prises de dcision majeures. La production des rsultats doit tre planie de
manire justier les budgets, llargissement ventuel du programme ou toute
autre dcision stratgique de politique publique.

160

Lvaluation dimpact en pratique

Comment tablir le budget dune valuation dimpact ?


Ltablissement du budget est lune des dernires tapes dans la conception dune
valuation dimpact. Dans cette section, nous allons examiner les cots de certaines valuations dimpact ralises par le pass, aborder comment dnir le budget dune valuation et suggrer quelques possibilits de nancement.
Donnes sur les cots
Les tableaux 10.2 et 10.3 prsentent les cots dvaluations dimpact de quelques
projets soutenus par la Banque mondiale. Les projets gurant dans le tableau 10.2
sont issus dune revue exhaustive des programmes nancs par lunit Protection
sociale et emploi. Ceux du tableau 10.3 ont t slectionns en fonction de la disponibilit des donnes budgtaires parmi les valuations dimpact nances par le
Fonds espagnol dvaluation dimpact (SIEF). Ces deux chantillons ne sont pas
ncessairement reprsentatifs de lensemble des valuations menes par la Banque
mondiale, dautant plus que les donnes relatives aux cots ne sont pas toujours
disponibles, mais ils nen constituent pas moins de bonnes rfrences sur les cots
dvaluations dimpact rigoureuses.
Tableau 10.2

Cots dvaluations dimpact de projets soutenus par la Banque mondiale

Cot total de
lEI (USD)

Cot total du
programme
(USD)

EI/cot
total du
programme
(%)

valuation dimpact (EI)

Pays

Dveloppement des comptences


et de lemploi des migrants

Chine

220 000

50 000 000

0,4

Projet de filet de protection sociale

Colombie

130 000

86 400 000

0,2

Programme dinvestissement
dans les secteurs sociaux

Rpublique
dominicaine

600 000

19 400 000

3,1

Protection sociale

Jamaque

800 000

40 000 000

2,0

Assistance technique Projet


de filet de protection sociale

Pakistan

2 000 000

60 000 000

3,3

Projet de protection sociale

Panama

1 000 000

24 000 000

4,2

1er projet communautaire damlioration des conditions de vie

Rwanda

1 000 000

11 000 000

9,1

Phase 3 du projet de Fonds social


pour le dveloppement

Rp. du
Ymen

2 000 000

15 000 000

13,3

968 750

38 225 000

4,5

Moyenne

Source : calculs des auteurs partir dun chantillon de programmes de la Banque mondiale dans le secteur de la protection sociale.
Remarque : EI = valuation dimpact

Mise en uvre dune valuation dimpact

161

162

Tableau 10.3

Rpartition des cots pour un chantillon de projets soutenus par la Banque mondiale
Rpartition des cots de lEI

valuation dimpact du SIEF

Pays

Crdit dappui la rduction de la


pauvret et la sant maternelle Bnin

Cot total

Dplacements

Personnel
Banque
mondiale

Consultants
(nationaux et
internationaux)

Collecte de
donnes (y.c.
personnel)

Autres (cots
de diffusion et
ateliers)

1 690 000

270 000

200 000

320 000

840 000

60 000

Rmunration la
performance des enseignants

Brsil

513 000

78 000

55 000

105 000

240 000

35 000

Programme Nadie es Perfecto


pour amliorer les
comptences parentales

Chili

313 000

11 500

35 500

260 000

6 000

Rmunration la
performance dans le secteur
de la sant : valuation du
projet Sant XI

Chine

308 900

60 000

35 000

61 000

152 900

Programme national de
garantie de lemploi rural

Inde

390 000

41 500

50 000

13 500

270 000

15 000

ducation, Sant et Nutrition/


Rle du contrle du paludisme
dans lamlioration de lducation Kenya

652 087

69 550

60 000

103 180

354 000

65 357

Campagne de prvention du sida


chez les jeunes : abstinence,
fidlit et sexualit sans risque

Lesotho

630 300

74 300

9 600

98 400

440 000

8 000

TMC, scolarisation et risque


de sida

Malawi

1 842 841

83 077

144 000

256 344

1 359 420

Programme ContigoVamos por


Mas Oportunidades dans ltat
de Guanajuato

Mexique

132 199

2 660

50 409

80 640

1 150

Projet pilote TMC et ducation


en milieu rural

Maroc

674 367

39 907

66 000

142 460

426 000

Apprendre et grandir avec le


VIH/sida : assignation alatoire
dun programme de dveloppement de la petite enfance

Mozambique

838 650

86 400

31 000

62 500

638 750

20 000

Formation des distributeurs


communautaires la prvention et au traitement du
paludisme

Nigria

1 024 040

64 000

35 000

106 900

817 740

ducation, Sant et Nutrition/


Rle du contrle du paludisme
dans lamlioration de
lducation

Sngal

644 047

61 800

60 000

102 890

354 000

65 357

Les TMC pour viter le sida et


dautres maladies sexuellement transmissibles

Tanzanie

771 610

60 000

62 000

100 000

518 611

30 999

744 646

71 621

66 031

115 975

482 290

30 686

Moyenne

Source : calculs des auteurs partir dun chantillon dvaluations dimpact finances par le Fonds espagnol dvaluation dimpact.
Remarque : TMC = transferts montaires conditionnels ; = non disponible ; SIEF, Fonds espagnol dvaluation dimpact (Spanish Impact Evaluation Fund).

163

Les cots directs des activits dvaluation vont de 130000 deuxmillions de


dollars pour un cot moyen de 968750 dollars. Ces cots sont trs variables dune
valuation lautre et peuvent paratre levs en valeur absolue. Toutefois, en
termes relatifs, ils ne dpassent pas 4,5 % en moyenne (fourchette comprise entre
0,2% et 13,3%) du cot total du programme6. partir de lchantillon de projets
tudi, il apparat que les valuations dimpact ne reprsentent quun pourcentage
limit du budget total dun programme. Il convient en outre de comparer les cots
de lvaluation dimpact au cot dopportunits en labsence dune valuation
rigoureuse et, par consquent, au risque de mise en uvre dun programme inefficace. Les valuations permettent aux chercheurs et aux dcideurs didentier les
programmes ou les composantes dun programme qui fonctionnent et ceux qui ne
fonctionnent pas, et de dterminer les stratgies les plus efficaces pour atteindre
les objectifs du programme. Dans cette perspective, les ressources ncessaires la
ralisation dune valuation dimpact constituent un investissement relativement
faible au vu de lutilit dun tel travail.
Le tableau 10.3 prsente la rpartition des cots dun chantillon dvaluations
dimpact nances par le Fonds espagnol dvaluation dimpact (SIEF). Le cot total
englobe le temps de travail du personnel de la Banque mondiale et des consultants
nationaux et internationaux, les dplacements, la collecte des donnes et les activits de diffusion de linformation7. Dans les valuations gurant dans le tableau,
comme dans presque toutes les valuations o les donnes existantes ne peuvent pas
tre utilises, ce sont les cots de collecte des donnes qui sont les plus importants:
ils ne reprsentent pas moins de 60 % du cot total en moyenne.
Il est important de souligner que ces chiffres concernent des valuations de
taille et de type diffrents. Le cot relatif de lvaluation dun programme pilote est
gnralement plus lev que celui dun programme denvergure nationale ou
ouvert lensemble de la population. De plus, certaines valuations ne ncessitent
quune enqute de suivi ou peuvent se fonder sur des donnes existantes, tandis
que dautres exigent plusieurs oprations de collecte de donnes. Le manuel sur
les Enqutes sur le niveau de vie des mnages1 (Grosh et Glewwe, 2000) donne une
estimation des cots des oprations de collecte denqute de mnages dans divers
pays. Les auteurs de ltude insistent sur le fait que les cots encourus dpendent
largement des capacits de lquipe locale, des ressources disponibles et du temps
pass sur le terrain. Pour raliser une meilleure estimation des cots dune enqute
dans un contexte donn, il est recommand de commencer par contacter les services statistiques nationaux.
Estimation du budget dune valuation dimpact
Il est vident que de nombreuses ressources doivent tre mobilises pour raliser
une valuation dimpact. Le budget comprend les frais de personnel pour, au minimum, un chercheur, un assistant de recherche, un coordinateur de terrain, un spcialiste de lchantillonnage, des enquteurs et le personnel du projet qui peut

164

Lvaluation dimpact en pratique

apporter un appui dans le cadre de lvaluation. Ces ressources humaines peuvent


aussi comprendre des chercheurs et des experts dorganisations internationales, des
consultants locaux ou internationaux et du personnel local travaillant pour le programme. Aux frais de personnel sajoutent les frais de dplacements et de mission
(htels et indemnits quotidiennes) ainsi que les frais de diffusion, souvent sous
forme dateliers, de rapports et de publications acadmiques.
Comme nous lavons dj soulign, les cots les plus importants dune valuation
sont les cots relatifs la collecte des donnes (y compris la cration et la mise en
uvre dune enqute pilote), au matriel et aux quipements ncessaires cette collecte, la formation et au salaire journalier des enquteurs, aux vhicules et lessence ainsi quaux oprations de saisie des donnes. Pour calculer le cot de ces
intrants, il est ncessaire de faire quelques hypothses sur, par exemple, le temps
ncessaire pour raliser un questionnaire ou le temps de dplacement entre les sites.
Le tableau 10.4 prsente une feuille de calcul permettant destimer les cots de la
collecte des donnes.
Les cots dune valuation dimpact peuvent tre rpartis sur plusieurs exercices.
Le tableau 10.5 montre comment les cots de chaque tape dune valuation peuvent
tre rpartis sur plusieurs exercices des ns comptables et de reporting. Les
besoins nanciers sont plus levs les annes o une collecte de donnes est ralise.
Financement des valuations dimpact
Une valuation dimpact peut tre nance partir de plusieurs sources, dont les
prts-projets, les budgets directs des programmes, les subventions de recherche ou
le nancement de donateurs. Les quipes dvaluation se tournent souvent vers plusieurs sources pour runir les fonds ncessaires. Les valuations ont t traditionnellement principalement nances par des budgets de recherche, mais les sources
de nancement se diversient de plus en plus avec le dveloppement croissant des
pratiques dlaboration des politiques fonde sur les preuves. Lorsque lenjeu dun
programme est important pour lensemble dune communaut et quune valuation
solide et crdible peut tre mise en place pour acqurir de nouvelles connaissances,
les dcideurs doivent tre encourags rechercher des nancements extrieurs,
particulirement puisque les rsultats de lvaluation constituent un bien public.
Parmi les nanceurs potentiels gurent ltat, les banques de dveloppement, les
organisations multilatrales, les organismes des Nations Unies, les fondations, les
mcnes ainsi que les instituts de recherche et dvaluation tels que lInitiative internationale pour lvaluation dimpact.

Mise en uvre dune valuation dimpact

165

Tableau 10.4

Feuille de calcul pour lestimation du cot dune valuation dimpact


Tches et ressources

Nombre

Taux/
unit

Nombre
dunits

Total

Personnel
Personnel charg de lvaluation
(gestionnaire de lvaluation, etc.)
Consultants internationaux et/ou nationaux
(chercheurs/responsable denqutes)
Assistant de recherche
Statisticien
Coordonnateur de terrain
Dplacements
Billets davion/voyages nationaux
et internationaux
Transports routiers
Frais de mission (htels et indemnits
journalires)
Collecte de donnesaa
Conception de linstrument
Pilotage
Formation
Dplacements et indemnits journalires
Matriel et quipement pour lenqute
Impression des questionnaires
Personnel de terrain
Enquteurs
Superviseurs
Transport (vhicules et essence)
Chauffeurs
Saisie et nettoyage des donnes
Analyse et diffusion des donnes
Ateliers
Articles, rapports
Autres
Bureaux
Communications
Logiciels
a. Les calculs relatifs la collecte de donnes doivent reflter les hypothses telles que le nombre de rondes de collecte
ncessaires, le temps ncessaire la collecte, le nombre de villages dans lchantillon, le nombre de mnages par village,
la longueur du questionnaire, les temps de dplacement, etc.

166

Lvaluation dimpact en pratique

Tableau 10.5

Budget dune valuation dimpact


Phase de conception

A. Salaires du personnel

Phase de collecte des donnes de rfrence

Units

Cot par
unit
(USD)

Nombre
dunits

Cot
total
(USD)

Semaines

7 500

15 000

B. Frais de consultants

Units

Cot par
unit
(USD)

Nombre
dunits

Semaines

7 500

10 250

Cot total
(USD)
15 000
27 940

Consultant international (1)

Jours

450

15

6 750

Jours

450

Consultant international (2)

Jours

350

10

3 500

Jours

350

10

3 500

Assistant de recherche/coordonnateur de terrain

Jours

188

Jours

188

130

24 440

Voyages

3 350

3 350

Voyages

3 350

3 350

Jours

150

750

Jours

150

750

Voyages

3 500

7000

Voyages

3 500

7000

Jours

150

20

3 000

Jours

150

20

3 000

C. Dplacements et frais de mission


Personnel : billets davion internationaux
Personnel : htels et indemnits quotidiennes
Billets internationaux : consultants internationaux
Htels et indemnits quotidiennes :
consultants internationaux
Billets internationaux : coordonnateur de terrain

14 100

15 450

Voyages

Voyages

1 350

1 350

Jours

Jours

150

Donnes type 1 : consentement

cole

120

100

12 000

Donnes type 2 : rsultats volet ducation

Enfant

14

3 000

42 000

Donnes type 3 : rsultats volet Sant

Enfant

24

3 000

7 200

Htels et indemnits quotidiennes :


coordonnateur de terrain
D. Collecte de donnes

126 000

V. Autres
Atelier(s)
Diffusion/reporting
Autres 1 (frais gnraux de coordination)
167

Cot total par phase

Phase de conception

39 350

Phase de collecte des donnes


de rfrence

184 390

( suivre)

168

Tableau 10.5

(suite)
Donnes de suivi Phase I

Donnes de suivi Phase II

Units

Cot par
unit
(USD)

Nombre
dunits

Cot
total
(USD)

Semaines

7 500

15 000

Consultant international (1)

Jours

450

15

Consultant international (2)

Jours

350

Assistant de recherche/coordonnateur de terrain

Jours

A. Salaires du personnel

Units

Cot par
unit
(USD)

Nombre
dunits

Cot total
(USD)

Semaines

7 500

15 000

6 750

Jours

450

10

4 500

20

7 000

Jours

350

10

3 500

188

100

18 800

Jours

188

130

24 440

Voyages

3 350

6 700

Voyages

3 350

6 700

Jours

150

10

1 500

Jours

150

10

1 500

Voyages

3 500

7 000

Voyages

3 500

7 000

Jours

150

20

3 000

Jours

150

20

3 000

Voyages

1 350

1 350

Voyages

1 350

1 350

Jours

150

450

Jours

150

450

B. Frais de consultants

32 550

C. Dplacements et frais de mission


Personnel : billets davion internationaux
Personnel : htels et indemnits quotidiennes
Billets internationaux : consultants internationaux
Htels et indemnits quotidiennes :
consultants internationaux
Billets internationaux : coordonnateur de terrain
Htels et indemnits quotidiennes :
coordonnateur de terrain

32 440

20 000

D. Collecte de donnes

20 000

114 000

114 000

Donnes type 1 : consentement


Donnes type 2 : rsultats volet ducation

Enfant

14

3 000

42 000

Enfant

14

3 000

42 000

Donnes type 3 : rsultats volet Sant

Enfant

24

3 000

72 000

Enfant

24

3 000

72 000

V. Autres

65 357

Atelier(s)

20 000

40 000

Diffusion/reporting

5 000

15 000

Autres 1 (frais gnraux de coordination)

5 179

10 357

Cot total pas phase

Phase de suivi I

181 550

Phase de suivi II

246 797

Cot total de lvaluation :

652 087

Notes
1. Le contenu de cette section sapplique plus directement la mthode de
lassignation alatoire, mais les mmes principes sappliquent aux valuations
bases sur dautres mthodes.
2. Voir Kimmel 1988 ; NIH 2006; USAID 2008 ; U.S. Department of Health and
Human Services 2010 ; et U.S. National Archives 2009.
3. Parmi les risques et difficults associs la collecte de donnes pour lvaluation
de programmes sociaux citons limpossibilit dobtenir le consentement clair
des sujets, lvaluation du dveloppement cognitif des enfants en prsence des
parents qui peut donner lieu des suppositions sur leur dveloppement futur,
le fait de demander parler en priv des femmes ou dinterviewer des femmes
sur des sujets sensibles en prsence dhommes de la famille, le fait dignorer le
temps ou cot dopportunit de participer une enqute et loffre dune
compensation le cas chant.
4. Pour de plus amples dtails sur les questions de calendrier des valuations de
programmes sociaux, voir King et Behrman (2009).
5. Plusieurs raisons peuvent expliquer pourquoi la mise en uvre dun programme nest pas immdiate ou parfaite, pourquoi la dure dexposition un
traitement varie non seulement dune zone lautre, mais aussi entre chaque
bnciaire nal, et pourquoi des temps dexpositions diffrents peuvent
conduire lestimation dimpacts diffrents (King et Behrman 2009, 56).
6. Dans ce cas, le cot est exprim en pourcentage de la part du cot du projet
nance par la Banque mondiale.
7. Ce chiffre ne comprend pas les cots du personnel local souvent trs impliqu
dans la conception et la supervision de lvaluation, car les donnes relatives
ces cots sont rarement disponibles.

Rfrences
Behrman, Jere R. et John Hoddinott. 2001. An Evaluation of the Impact of
PROGRESA on Pre-school Child Height. FCND Briefs 104, International Food
Policy Research Institute, Washington, DC.
Currie, Janet. 2001. Early Childhood Education Programs. Journal of Economic
Perspectives 15 (2): 21338.
Currie, Janet et Duncan Thomas. 1995. Does Head Start Make a Difference?
American Economic Review 85 (3): 34164.
. 2000. School Quality and the Longer-Term Effects of Head Start. Journal
of Economic Resources 35 (4): 75574.
Gertler, Paul J. 2004. Do Conditional Cash Transfers Improve Child Health?
Evidence from PROGRESAs Control Randomized Experiment. American
Economic Review 94 (2): 33641.
Grantham-McGregor, S., C. Powell, S. Walker et J. Himes. 1994. The Long-Term
Follow-up of Severely Malnourished Children Who Participated in an Intervention Program. Child Development 65: 42893.
Mise en uvre dune valuation dimpact

169

Grosh, Margaret et Paul Glewwe, eds. 2000. Designing Household Survey Questionnaires for Developing Countries: Lessons from 15 Years of the Living Standards
Measurement Study, vols. 1, 2 et 3. Washington DC: Banque mondiale.
Grosh, Margaret, Carlo del Ninno, Emil Tesliuc et Azedine Ouerghi. 2008. For
Protection and Promotion: The Design and Implementation of Effective Safety
Nets. Washington DC: Banque mondiale.
Jalan, Jyotsna et Martin Ravallion. 2003a. Estimating the Benet Incidence of an
Antipoverty Program by Propensity-Score Matching. Journal of Business &
Economic Statistics 21 (1): 1930.
. 2003b. Does Piped Water Reduce Diarrhea for Children in Rural India?
Journal of Econometrics 112 (1): 15373.
Kimmel, Allan. 1988. Ethics and Values in Applied Social Research. Californie: Sage
Publications.
King, Elizabeth M. et Jere R. Behrman. 2009. Timing and Duration of Exposure
in Evaluations of Social Programs. World Bank Research Observer 24 (1):5582.
King, Elizabeth M., Peter F. Orazem et Elizabeth M. Paterno. 2008. Promotion
with and without Learning: Effects on Student Enrollment and Dropout
Behavior. Document de travail consacr la recherche sur les politiques 4722,
Banque mondiale, Washington, DC.
Levy, Santiago et Evelyne Rodrguez. 2005. Sin Herencia de Pobreza: El Programa
Progresa-Oportunidades de Mxico. Washington DC: Banque interamricaine de
dveloppement.
NIH (U.S. National Institutes of Health). 2006. Regulations and Ethical
Guidelines et Rapport Belmont. Office of Human Subjects Research.
http://ohsr.od.nih.gov/index.html.
Newman, John, Menno Pradhan, Laura B. Rawlings, Geert Ridder, Ramiro Coa et
Jose Luis Evia. 2002. An Impact Evaluation of Education, Health, and Water
Supply Investments by the Bolivian Social Investment Fund. tude conomique
de la Banque mondiale 16 (2): 24174.
Rosenbaum, Paul. 2002. Observational Studies. Springer Series in Statistics.
Rosenbaum, Paul et Donald Rubin. 1983. The Central Role of the Propensity Score
in Observational Studies of Causal Effects. Biometrika 70 (1): 4155.
Schultz, Paul. 2004. School Subsidies for the Poor: Evaluating the Mexican
Progresa Poverty Program. Journal of Development Economics 74 (1): 199250.
Skouas, Emmanuel et Bonnie McClafferty. 2001. Is Progresa Working? Summary of the Results of an Evaluation by IFPRI. Institut international de
recherche sur les politiques alimentaires, Washington, DC.
USAID (agence amricaine pour le dveloppement international). 2008.
Procedures for Protection of Human Subjects in Research Supported by
USAID. http://www.usaid.gov/policy/ads/200/humansub.pdf.
U.S. Department of Health and Human Services. 2010. International Compilation
of Human Research Protections. Office for Human Research Protections.
http://www.hhs.gov/ohrp/international/HSPCompilation.pdf.
U.S. National Archives. 2009. Protection of Human Subjects. U.S. Code of Federal
Regulations, Titre 22, partie 225.

170

Lvaluation dimpact en pratique

CHAPITRE11

Choisir lchantillon
Une fois que vous avez choisi une mthode de slection du groupe de comparaison,
ltape suivante de la planication dune valuation dimpact consiste dterminer
les donnes et lchantillon ncessaires pour estimer avec prcision les diffrences
de rsultats entre le groupe de traitement et le groupe de comparaison. Vous devez
dterminer la taille de lchantillon et la faon de prlever les units de la population
ltude pour former cet chantillon.

Quelles sont les donnes ncessaires ?


Il est essentiel de disposer de donnes de qualit pour valuer limpact de lintervention sur les rsultats ltude. La chane de rsultats aborde au chapitre 2 constitue
un bon point de dpart pour dnir les indicateurs mesurer et le moment le plus
propice pour le faire. Les donnes les plus essentielles sont celles qui permettent de
mesurer les indicateurs de rsultats directement affects par le programme. Lvaluation dimpact ne doit toutefois pas se rduire la mesure des rsultats que le programme vise directement. Des donnes sur des indicateurs de rsultats indirectement
affects par le programme ou sur des indicateurs retant les effets involontaires du
programme augmentent la valeur des informations gnres par lvaluation
dimpact. Comme nous lavons vu au chapitre 2, les indicateurs de rsultats doivent
de prfrence tre spciques, mesurables, attribuables, ralistes et cibls.
Les valuations dimpact sont gnralement ralises sur plusieurs priodes, et
vous devez donc dterminer le moment adquat pour mesurer les indicateurs de

171

Concept cl :
Les indicateurs choisis
doivent couvrir toute
la chane de rsultats
afin de mesurer les
rsultats finaux, les
rsultats intermdiaires, la mise en
uvre de lintervention,
les facteurs exognes
et les caractristiques
de contrle.

rsultats. En suivant la chane de rsultats, vous pouvez tablir un classement des


indicateurs de rsultats allant des indicateurs court terme (comme les taux de scolarisation dans le contexte dun programme ducatif ) aux indicateurs long terme
(comme lachvement des tudes ou linsertion professionnelle). An de mesurer
limpact de manire able au l du temps, des donnes sur ces indicateurs doivent
dans la mesure du possible tre collectes ds lenqute de rfrence. La section du
chapitre 10 consacre au calendrier des valuations apporte des indications sur le
moment le plus propice pour collecter les donnes de suivi.
Nous allons voir que certains indicateurs peuvent ne pas se prter une valuation dimpact si les chantillons sont de taille rduite. En effet, la taille des chantillons ncessaire pour mesurer les impacts sur des indicateurs de rsultats
extrmement variables, rares ou susceptibles de ntre que lgrement affects par
une intervention, peut tre prohibitive. Par exemple, pour cerner limpact dune
intervention sur le taux de mortalit maternelle, un chantillon doit contenir un
grand nombre de femmes enceintes. Dans ce cas, il peut tre utile daxer lvaluation
dimpact sur des indicateurs pour lesquels il existe une puissance suffisante pour
dtecter un impact.
Outre les indicateurs de rsultat, il est galement utile de prendre en compte les
lments suivants:
Donnes administratives sur la mise en uvre de lintervention. Il faut au moins
disposer de donnes de suivi pour savoir quand un programme dbute et qui en
bncie ainsi que pour pouvoir mesurer lintensit de lintervention dans les cas
o tous les bnciaires ne bncient pas du mme contenu, de la mme qualit
ou de la mme dure de traitement.
Donnes sur les facteurs exognes susceptibles dinuer sur le rsultat ltude.
Ces donnes permettent de vrier sil existe des inuences extrieures. Cet aspect est particulirement important lors de lutilisation de mthodes dvaluation
reposant sur un plus grand nombre dhypothses que les mthodes alatoires.
La prise en compte de variables de contrle permet galement de renforcer la
puissance statistique.
Donnes sur dautres caractristiques. Linclusion de variables de contrles
supplmentaires ou lanalyse de lhtrognit des effets du programme selon
certaines caractristiques permet daffiner lestimation des effets du traitement.
En rsum, il est ncessaire dobtenir des indicateurs tout au long de la chane de
rsultats, y compris des indicateurs de rsultats naux, des indicateurs de rsultats
intermdiaires, et des mesures de la mise en uvre de lintervention, des facteurs
exognes et des caractristiques de contrl1.
La mthodologie dvaluation dimpact choisie dtermine aussi les donnes
ncessaires. Par exemple, si vous choisissez la mthode de lappariement ou de la
double diffrence, il vous faudra collecter des donnes portant sur une large gamme
de caractristiques la fois pour le groupe de traitement et pour le groupe de comparaison, par exemple pour pouvoir effectuer les tests de robustesse dcrits dans la
deuxime partie du manuel.

172

Lvaluation dimpact en pratique

Il est utile dlaborer, pour chaque valuation, une matrice comprenant la liste
des questions ltude, les indicateurs de rsultats pour chaque question, les autres
types dindicateurs indispensables et les sources des donnes, comme indiqu la
gure 2.3 (chapitre 2).
Les donnes existantes sont-elles suffisantes ?
Certaines donnes existantes sont presque toujours indispensables au dbut dun
programme pour estimer les valeurs de rfrence des indicateurs ou pour effectuer
des calculs de puissance, comme nous le verrons plus loin. Au-del de ltape de
planication, lutilisation de donnes existantes peut nettement diminuer le cot
dune valuation dimpact.
Toutefois, il est rare que les donnes existantes suffisent. Les valuations dimpact ncessitent des donnes exhaustives couvrant un chantillon suffisamment
important et reprsentatif la fois du groupe de traitement et du groupe de comparaison. Des donnes de recensement couvrant lensemble des groupes de traitement et
de comparaison sont rarement disponibles. Mme si des recensements ont t raliss, les donnes ne contiennent gnralement quun nombre limit de variables ou
ne sont pas collectes rgulirement. Les enqutes nationales auprs des mnages
comportent parfois une gamme tendue de variables, mais contiennent rarement
suffisamment dobservations la fois pour le groupe de traitement et le groupe de
comparaison pour permettre une valuation dimpact. Admettons par exemple que
vous souhaitiez valuer un vaste programme national qui concerne 10 % des mnages
dans un pays donn. Si une enqute nationale est ralise chaque anne auprs de
5000 mnages, elle couvrira peut-tre 500 mnages bnciant du programme valu. Cet chantillon est-il suffisant pour raliser une valuation dimpact ? Les calculs
de puissance peuvent permettre de rpondre cette question, mais dans la plupart
des cas, la rponse est non.
Il convient toutefois denvisager srieusement lutilisation de donnes administratives existantes pour raliser des valuations dimpact. Les donnes administratives sont collectes dans le cadre des activits ordinaires des organismes
responsables de lexcution des programmes, le plus souvent au moment de la
prestation des services. Dans certains cas, les donnes de suivi contiennent des
indicateurs de rsultats. Par exemple, certaines coles compilent les taux de scolarisation, de frquentation ou les rsultats aux examens tandis que certains centres
de sant enregistrent les donnes anthropomtriques et les vaccinations ou les
dossiers de sant de leurs patients. Certaines valuations rtrospectives marquantes sont fondes sur des registres administratifs (par exemple, ltude de
Galiani, Gertler et Schargrodsky publie en 2005 sur la politique dalimentation en
eau en Argentine).
An de dterminer si les donnes existantes peuvent tre utilises pour une valuation dimpact donne, les questions suivantes doivent tre poses:
Taille. Les bases de donnes existantes sont-elles assez grandes pour dtecter
un changement des indicateurs de rsultats avec une puissance suffisante?

Choix de lchantillon

173

chantillonnage. Les donnes existantes sont-elles disponibles la fois pour


le groupe de traitement et le groupe de comparaison? Les chantillons existants
sont-ils prlevs partir dun cadre dchantillonnage correspondant la population ltude ? Les units ont-elles t prleves du cadre dchantillonnage
laide dune mthode probabiliste?
Porte. Les donnes existantes contiennent-elles tous les indicateurs ncessaires
pour rpondre toutes les questions de politique ltude?
Frquence. La collecte des donnes existantes est-elle suffisamment frquente?
Des donnes existantes sont-elles disposition pour toutes les units de lchantillon et toute la priode tudie?
Il est relativement rare que des donnes existantes soient suffisantes pour une
valuation dimpact. Vous devrez par consquent fort probablement prvoir un budget pour la collecte de nouvelles donnes. La collecte des donnes reprsente souvent un cot important, mais il sagit galement dun investissement rendement
lev dont dpend la qualit de lvaluation.
Dans certains cas, les donnes ncessaires lvaluation dimpact peuvent
tre collectes en dployant de nouveaux systmes dinformation, pour autant
que ce dploiement soit conforme la mthodologie dvaluation adopte, en
particulier que les indicateurs de rsultats soient collects pour le groupe de
traitement et le groupe de comparaison. Il peut tre ncessaire de lancer de nouveaux systmes dinformation avant le lancement de nouvelles interventions an
que les centres administratifs du groupe de comparaison utilisent le nouveau
systme avant de recevoir lintervention valuer. tant donn que la qualit des
donnes administratives peut varier, des audits et des vrications externes sont
ncessaires pour garantir la abilit de lvaluation. La collecte de donnes
dvaluation dimpact par le biais de sources administratives au lieu denqutes
peut nettement rduire le cot de lvaluation, mais nest pas toujours faisable.
Si les donnes administratives ne sont pas suffisantes pour votre valuation,
vous devrez avoir recours des donnes denqute. Il vous faudra alors dterminer si vous pouvez utiliser les enqutes existantes ou si de nouvelles initiatives
nationales de collecte de donnes sont prvues (par exemple des enqutes dmographiques, sanitaires ou de mesure des niveaux de vie des mnages). Si une
enqute couvrant les indicateurs ltude est prvue, il peut tre possible
dtendre lchantillonnage pour les besoins de lvaluation. Par exemple, lvaluation du Fonds social du Nicaragua repose sur les donnes dune enqute nationale sur la mesure du niveau de vie des mnages complt dun chantillon
supplmentaire de bnciaires (Pradhan et Rawlings 2002). Si une enqute prvue couvre la population ltude, il peut tre possible dy ajouter une srie de
questions aux ns de lvaluation.
La plupart des valuations dimpact ncessitent la collecte de donnes denqutes, dont au moins une enqute de rfrence et une enqute de suivi. Les donnes
denqute peuvent tre de diffrents types en fonction du programme valuer et
des units analyses. La plupart des valuations prennent pour principale source
de donnes des enqutes ralises auprs de personnes ou de mnages. Nous
allons nous attacher ci-dessous aux principes gnraux de collecte des donnes
174

Lvaluation dimpact en pratique

denqute. Sils sappliquent principalement aux enqutes auprs des mnages, ces
principes peuvent galement tre appliqus la plupart des autres types de donnes denqute2.
Avant de dcider si vous allez utiliser les donnes existantes ou collecter de
nouvelles donnes denqute, il convient de dterminer la taille de lchantillon
ncessaire. Si les donnes existantes contiennent un nombre suffisant dobservations, vous pourriez tre en mesure de les utiliser. Dans le cas contraire, des donnes supplmentaires devront tre collectes. Une fois que vous avez dcid de
collecter des donnes denqute pour votre valuation, vous devez:
dterminer qui va collecter les donnes ;
laborer et tester des questionnaires ;
effectuer des travaux de collecte sur le terrain et des contrles de qualit ; et
traiter et stocker les donnes.
Dans la suite de ce chapitre, nous verrons comment dterminer la taille de
lchantillon ncessaire et la faon de procder lchantillonnage. Les autres tapes
de la collecte de donnes sont abordes au chapitre 12. La mise en uvre des diffrentes tapes est gnralement cone un organisme indpendant, mais il est
essentiel de comprendre leur porte et leurs principales composantes pour grer
efficacement une valuation dimpact.

Calculs de puissance : quelle est la taille


de lchantillon ncessaire ?
Au moment de sinterroger sur lventuelle utilisation de donnes existantes ou la
collecte de nouvelles donnes, la premire tape consiste dnir la taille de
lchantillon ncessaire. Les calculs effectus dans ce but sont appels des calculs
de puissance . Dans cette section, nous voquerons lintuition sous-jacente aux
calculs de puissance en nous concentrant sur le cas le plus simple : une valuation
ralise laide de la mthode de lassignation alatoire, en partant du principe que
ladhrence est totale. (Ladhrence totale signie que toutes les units assignes
au groupe de traitement reoivent effectivement le traitement et que toutes celles
qui sont assignes au groupe de comparaison ne le reoivent effectivement pas.)
Objectifs des calculs de puissance
Les calculs de puissance indiquent la taille minimum de lchantillon ncessaire
pour raliser une valuation dimpact et pour rpondre de manire able la question de politique ltude. Ils peuvent notamment tre utiliss pour :
Considrer si les bases de donnes existantes sont assez grandes pour raliser
une valuation dimpact.

Choix de lchantillon

Concept cl :
Les calculs de
puissance indiquent la
taille de lchantillon
ncessaire pour quune
valuation fournisse
une estimation prcise
de limpact dun
programme
(cest--dire de la
diffrence des
rsultats entre le
groupe de traitement
et le groupe de
comparaison).

175

viter de collecter trop dinformations, ce qui peut savrer trs coteux.


viter de collecter trop peu de donnes. Admettons que vous souhaitiez valuer
un programme qui a un impact positif sur ses bnciaires. Si lchantillon est
trop petit, vous risquez de ne pas pouvoir dtecter cet impact positif et de
conclure que le programme na pas eu deffet. Ceci peut amener les dcideurs
supprimer le programme, dans ce cas au dtriment des bnciaires et de
la socit.
Les calculs de puissance indiquent la taille minimale de lchantillon (et donc du
budget minimal) ncessaire pour mesurer limpact dun programme, savoir le plus
petit chantillon permettant didentier des diffrences pertinentes de rsultats
entre le groupe de traitement et le groupe de comparaison. Les calculs de puissance
sont essentiels pour correctement dterminer les programmes qui fonctionnent et
ceux qui ne fonctionnent pas.
Limpact du programme est-il diffrent de zro ?
La plupart des valuations dimpact cherchent tester une hypothse simple qui se
rsume par la question suivante : le programme a-t-il un impact ? Autrement dit,
limpact du programme est-il diffrent de zro ? Deux tapes sont ncessaires pour
rpondre cette question:
1. Estimer les rsultats moyens pour le groupe de traitement et pour le groupe de
comparaison.
2. Dterminer sil existe une diffrence entre le rsultat moyen du groupe de traitement et celui du groupe de comparaison.

Estimer les rsultats moyens du groupe de traitement et du groupe


de comparaison
Admettons que vous souhaitiez estimer limpact dun programme de nutrition sur
le poids des enfants de cinq ans. Nous partons de lhypothse selon laquelle
100000 enfants ont particip au programme et 100000 enfants ny ont pas particip,
les participants ayant t slectionns de manire alatoire parmi les 200 000
enfants du pays. Dans un premier temps, vous devrez estimer le poids moyen des
participants et des non participants.
Pour dterminer le poids moyen des enfants participant3 au programme, vous
pourriez peser chacun dentre eux puis calculer la moyenne. Cette approche serait
videmment extrmement coteuse. Heureusement, il nest pas ncessaire de peser
chaque enfant. En effet, la moyenne peut tre estime partir du poids moyen dun
chantillon prlev sur la population denfants participants4. Plus lchantillon est
grand, plus la moyenne de lchantillon se rapprochera de la moyenne relle.
Si lchantillon est petit (deux enfants par exemple), le poids moyen constituera une
estimation trs imprcise de la moyenne pour la population ltude. En revanche,
un chantillon de 10000 enfants donnera une estimation plus prcise et plus proche
176

Lvaluation dimpact en pratique

du vritable poids moyen. De manire gnrale, plus le nombre dobservations dans


un chantillon est lev, plus les statistiques qui en sont extraites sont ables5.
La gure 11.1 illustre ce phnomne. Supposons que vous constituiez un chantillon partir de la population ltude, dans ce cas les enfants participant au programme. Dans un premier temps, vous prlevez un chantillon de seulement deux
observations. Dans ce cas, rien ne garantit que lchantillon prsente les mmes
caractristiques que la population ltude. Vous risquez en effet de slectionner
deux individus prsentant des caractristiques inhabituelles. Ainsi, mme si seulement 20% des enfants de la population ltude portent des chapeaux ronds, il est
possible que vous prleviez un chantillon de deux enfants chapeau rond. Ce serait
un coup de malchance, mais ce nest pas impossible. Augmenter la taille de lchantillon permet de rduire ce risque. Un grand chantillon est plus susceptible de ressembler la population ltude quun petit chantillon. La gure 11.1 illustre ce qui
se passe lorsque vous prlevez un grand chantillon. Il est fort probable quun grand
chantillon prsente plus ou moins les mmes caractristiques que la population :
dans notre exemple, 20% des enfants portent des chapeaux ronds, 10% portent des
chapeaux carrs et 70% portent des chapeaux triangulaires.
Nous savons maintenant quun grand chantillon permet de donner une image
plus prcise de la population des enfants participants. Il en va de mme pour les
enfants non participants : plus lchantillon de non participants est grand, plus
limage que nous obtenons de la population est prcise. Pourquoi est-ce important ?
Si nous sommes en mesure destimer le rsultat (poids) moyen des enfants participants et non participants plus prcisment, nous serons galement en mesure dtablir avec plus de prcision la diffrence de poids entre les deux groupes, et donc
Figure 11.1 Un grand chantillon ressemble mieux la population

Un petit
chantillon

Population ltude

Choix de lchantillon

Un grand
chantillon

177

limpact du programme. En dautres termes, si vous navez quune vague ide du


poids moyen des enfants dans les groupes de traitement et de comparaison, vous ne
pourrez pas avoir une ide prcise de la diffrence de poids entre les deux groupes.
Dans la section suivante, nous dveloppons cette ide de faon lgrement
plus formelle.
Comparer les rsultats moyens entre les groupes de traitement
et de comparaison
Une fois que vous avez estim le rsultat (poids) moyen du groupe de traitement
(enfants participants slectionns par assignation alatoire) et du groupe de comparaison (enfants non participants slectionns par assignation alatoire), vous pouvez
dterminer sil existe une diffrence entre les deux. Il vous suffit de soustraire les
moyennes pour obtenir la diffrence. Lvaluation dimpact compare alors lhypothse
nulle (ou hypothse par dfaut),
H0 : impact = 0

(hypothse selon laquelle le programme na pas dimpact),

lhypothse alternative:
Ha : impact 0

(hypothse selon laquelle le programme a un impact).

Imaginez que, dans lexemple du programme de nutrition, vous commenciez


votre valuation partir dun chantillon de deux enfants traits et de deux enfants
de comparaison. Au vu de la taille rduite de lchantillon, votre estimation du poids
moyen des enfants traits et des enfants constituant le groupe de comparaison, et
donc de la diffrence entre les deux groupes, ne sera pas trs able. Vous pouvez
vrier ce phnomne en prlevant diffrents chantillons de deux enfants traits et
deux enfants constituant le groupe de comparaison. Vous constaterez que limpact
estim du programme varie grandement.
Maintenant, imaginons que vous effectuiez votre valuation partir dun chantillon de 1000 enfants traits et de 1000 enfants constituant le groupe de comparaison. Comme nous lavons mentionn, vos estimations du poids moyen des deux
groupes seront beaucoup plus prcises. Votre estimation de la diffrence entre les
deux groupes en sera galement dautant plus prcise.
Admettons que vous obteniez un poids moyen pour lchantillon des enfants traits (participants) de 25,2 kg contre 25kg pour lchantillon des enfants non participants (groupe de comparaison). La diffrence entre les deux groupes stablit
0,2kg. Si ces chiffres avaient t obtenus partir dchantillons comprenant chacun
deux observations, vous nauriez pas pu tre certain que limpact de 0,2kg ne provient pas dun manque de prcision dans vos estimations. En revanche, sils sont
obtenus partir dchantillons de 1000 observations chacun, vous pouvez affirmer
avec plus de certitude que votre estimation se rapproche du vritable impact du
programme, qui dans ce cas est positif.

178

Lvaluation dimpact en pratique

La question fondamentale devient alors : quelle taille doit prcisment avoir


lchantillon pour tre sr quune estimation dimpact positif rete effectivement le
vritable impact du programme et non un manque de prcision des estimations?
Deux erreurs potentielles dans les valuations dimpact
Lorsque vous cherchez dterminer si un programme a un impact, vous pouvez
commettre deux types derreurs potentielles. Une erreur de type I apparait lorsque
lvaluation amne conclure quun programme a eu un impact alors que ce nest pas
le cas. Dans notre exemple du programme de nutrition, cette erreur serait commise
si, en tant quvaluateur, vous arriviez la conclusion que le poids moyen des enfants
de lchantillon trait tait suprieur celui des enfants de lchantillon de comparaison, alors que le poids moyen dans les deux groupes est en fait quivalent. Dans ce
cas, limpact positif que vous avez constat est entirement attribuable au manque
de prcision de vos estimations.
linverse, une erreur de type II apparait lorsque lvaluation amne conclure
quun programme na eu aucun impact alors quil en a en ralit eu un. Dans notre
exemple du programme de nutrition, vous commettriez une erreur de type II si vous
arriviez la conclusion que le poids moyen des enfants des deux chantillons est le
mme, alors que le poids moyen des enfants de la population traite est en fait diffrent celui des enfants du groupe de comparaison. L encore, limpact estim aurait
d tre diffrent de zro, mais le manque de prcision de vos estimations vous amne
conclure que le programme na pas eu dimpact.
Lorsquils testent lhypothse quun programme a eu un impact, les statisticiens
peuvent limiter la probabilit derreurs de type I. En effet, la probabilit de commettre une erreur de type I est dnie par un paramtre appel le niveau de
conance. Le niveau de conance est souvent x 5%, ce qui indique que vous
pouvez tre sr 95 % de votre conclusion selon laquelle le programme a eu un
impact. Si vous craignez de commettre une erreur de type I, vous pouvez xer un
niveau de conance plus faible, de 1 % par exemple, pour pouvoir tre sr 99% de
votre conclusion selon laquelle le programme a eu un impact.
Les erreurs de type II sont galement une source dinquitude pour les dcideurs.
De nombreux facteurs inuencent la probabilit de commettre une erreur de
type II; toutefois, la taille de lchantillon est un facteur dterminant. Si le poids
moyen de 50000 enfants traits est le mme que le poids moyen de 50000 enfants
de comparaison, vous pouvez probablement conclure avec certitude que le programme na pas eu dimpact. En revanche, si les deux enfants de votre chantillon de
traitement psent le mme poids que les deux enfants du groupe de comparaison,
il sera plus difficile de formuler une conclusion avec certitude. Vous vous demanderez alors si le poids moyen est similaire parce que lintervention na pas eu dimpact
ou parce que les donnes sont insuffisantes pour tester lhypothse partir dun
chantillon si petit. En prlevant de grands chantillons, vous rduisez le risque de

Choix de lchantillon

Concept cl :
La puissance est la
probabilit dobserver
un impact sil se
produit. La puissance
dune valuation
dimpact est leve
si le risque de ne pas
observer un impact
existant, cest--dire
de commettre une
erreur de type II,
est faible.

179

nobserver, par (bon ou mauvais) hasard, que des enfants ayant le mme poids. Avec
de grands chantillons, la diffrence de moyennes entre un chantillon de traitement
et un chantillon de comparaison fournit une estimation able de la vritable diffrence qui existe entre toutes les units traites et toutes les units du groupe
de comparaison.
La puissance (ou puissance statistique) dune valuation dimpact correspond la
probabilit quelle dtecte une diffrence entre les groupes de traitement et de comparaison, si une telle diffrence existe. La puissance dune valuation dimpact est
leve si le risque de ne pas observer un impact qui existe, cest--dire de commettre
une erreur de type II, est faible. Les exemples cits plus haut montrent que la taille
de lchantillon est un facteur dterminant de la puissance dune valuation
dimpact. Nous allons approfondir cette intuition dans les sections suivantes.
Pourquoi les calculs de puissance sont dterminants pour les dcisions
politiques
Les calculs de puissance permettent de dterminer la taille dchantillon ncessaire
pour viter de conclure quun programme na pas eu dimpact alors quil en a en fait
eu un (erreur de type II). La puissance dun test est gale un moins la probabilit
dune erreur de type II.
La puissance dune valuation dimpact est leve si une erreur de type II est peu
probable, cest--dire quil y a peu de chance que vous obteniez des rsultats indiquant que le programme valu na pas eu dimpact alors quil en a bel et bien eu un.
Dans une perspective purement politique, les valuations dimpact de faible
puissance qui prsentent un fort risque derreur de type II sont potentiellement
non seulement inutiles, mais galement trs coteuses. La forte probabilit derreur de type II compromet la abilit de tout rsultat nindiquant pas dimpact.
Consacrer des ressources des valuations dimpact faible puissance est donc un
investissement risqu.
Les valuations faible puissance peuvent galement avoir des consquences
dramatiques sur le plan pratique. Par exemple, dans notre exemple prcdent du
programme de nutrition, si vous concluez que le programme na pas dimpact alors
quil en a bel et bien eu un, les dcideurs seront susceptibles de mettre n un programme qui est en fait bnque pour les enfants. Il est donc essentiel de limiter la
probabilit derreurs de type II en utilisant des chantillons assez grands dans le
cadre des valuations dimpact. Cest la raison pour laquelle il est si important et
pertinent deffectuer des calculs de puissance.
Les calculs de puissance tape par tape
Nous abordons maintenant les principes fondamentaux de calculs de puissance
partir du cas simple dun programme assign alatoirement. Pour raliser des
calculs de puissance, il faut poser les six questions suivantes:
1. Le programme produit-il des grappes?
2. Quel est lindicateur de rsultat?
180

Lvaluation dimpact en pratique

3. Souhaitez-vous comparer les impacts du programme entre plusieurs


sous-groupes?
4. Quel est le niveau minimum dimpact qui justierait linvestissement effectu
dans lintervention?
5. Quel est le niveau de puissance raisonnable pour lvaluation ralise?
6. Quelles sont la moyenne et la variance de rfrence des indicateurs de rsultats?
Chacune de ces tapes doit tre considre dans le contexte politique particulier
au sein duquel lvaluation dimpact est mise en uvre.
Nous avons dj mentionn que lchelle minimum dintervention conditionne la
taille de lchantillon ncessaire pour lvaluation. La premire tape des calculs de
puissance consiste dterminer si le programme que vous voulez valuer produit
des grappes. Des grappes sont formes lorsque le niveau dintervention du programme est diffrent du niveau auquel vous souhaitez mesurer les rsultats.
Par exemple, un programme peut tre mis en uvre au niveau dun hpital, dune
cole ou dun village (donc, par grappes) alors que vous souhaitez mesurer son
impact sur les patients, les tudiants ou les villageois (voir tableau 11.1)6.
La nature des donnes dchantillons obtenues pour un programme formant
des grappes diffre lgrement de celle des chantillons obtenus pour un programme qui ne forme pas de grappes. Par consquent, les tapes des calculs de
puissance sont lgrement diffrentes selon que le traitement est assign de
manire alatoire aux diffrentes grappes ou toutes les units dune population.
Nous aborderons chaque situation lune aprs lautre. Nous commencerons par les
principes des calculs de puissance en labsence de grappes, cest--dire lorsque le
traitement est assign au niveau o les rsultats sont observs, avant de passer aux
cas o il existe des grappes.

Tableau 11.1

Exemples de grappes

Traitement

Niveau dassignation
du traitement (grappe)

Unit auprs de
laquelle le rsultat
est mesur

Transferts montaires
conditionnels

Village

Mnages

Traitement contre
le paludisme

cole

Individus

Programme de formation

Quartier

Individus

Choix de lchantillon

181

Calculs de puissance en absence de grappes


Admettons que vous ayez rpondu la premire question ci-dessus en dterminant
que les bnces du programme valuer ne sont pas assigns par grappe.
En dautres termes, les bnces du programme sont assigns de manire alatoire
toutes les units de la population ligible. Dans ce cas, lchantillon dvaluation peut
tre constitu en prlevant un chantillon alatoire de la population ltude.
Les deuxime et troisime tapes concernent les objectifs de lvaluation. la deuxime tape, vous devez dterminer les principaux indicateurs de rsultats que le programme cherche amliorer. Ces indicateurs dcoulent de la question de recherche
fondamentale de lvaluation et du cadre conceptuel dcrits dans la Partie 1. La prsente discussion contribuera illustrer les types dindicateurs qui se prtent le mieux
une valuation dimpact.
Troisimement, la question de politique qui motive lvaluation requiert parfois
la comparaison des impacts dun programme entre diffrents sous-groupes, par
exemple entre individus de diffrents ges ou catgories de revenus. Si tel est le cas,
la taille des chantillons devra tre plus grande, et les calculs de puissance devront
tre adapts en consquence. Par exemple, la question de politique peut demander si
limpact dun programme ducatif varie entre les lles et les garons. Intuitivement,
il faut disposer dun nombre suffisant dtudiants de chaque genre au sein du groupe
de traitement et du groupe de comparaison pour pouvoir dtecter limpact sur
chaque sous-groupe. Pour comparer limpact dun programme entre deux sousgroupes, il est parfois ncessaire de doubler la taille de lchantillon. Lorsque les
sous-groupes sont plus htrognes (tranches dges par exemple), la taille de
lchantillon ncessaire peut considrablement augmenter.
Quatrimement, vous devez dterminer limpact minimum qui justierait linvestissement effectu dans lintervention. Il sagit fondamentalement dune question de politique et non dune question technique. Un programme de transferts
montaires conditionnels est-il un investissement justi sil rduit la pauvret de
5%, de 10% ou de 15% ? Un programme dactivation sur le march du travail se
justie-t-il sil augmente les revenus de 5 %, de 10 % ou de 15 % ? La rponse
dpend du contexte, mais il est ncessaire, quelles que soient les circonstances, de
dterminer le changement des indicateurs de rsultat qui justierait un investissement dans le programme. Autrement dit, il faut dterminer le niveau dimpact en
dessous duquel une intervention est considre comme un chec? La rponse cette
question dpend non seulement du cot du programme et du type de traitement
quil propose, mais galement du cot dopportunit de ne pas investir les fonds
dans une autre intervention.
Les calculs de puissance permettent dadapter la taille de lchantillon pour pouvoir dtecter leffet minimal dsir. Pour quune valuation dtecte un faible impact,
les estimations de la diffrence de rsultats moyens entre le groupe de traitement et
le groupe de comparaison devront tre trs prcises, ce qui ncessite un grand
chantillon. En revanche, pour les interventions qui ne sont juges utiles que si elles
entranent des changements considrables des indicateurs de rsultat, les chan-

182

Lvaluation dimpact en pratique

tillons utiliss pour lvaluation dimpact pourront tre plus petits. Il convient nanmoins de dterminer leffet minimal dtectable avec prudence tant donn que tout
impact infrieur leffet minimal dsir risque de ne pas tre dtect.
Cinquimement, lvaluateur doit consulter des statisticiens pour dterminer un
niveau de puissance raisonnable pour lvaluation prvue. Comme nous lavons mentionn, la puissance dun test est gale un moins la probabilit dune erreur de
type II. La puissance est donc comprise entre zro et un et plus elle est leve, moins
il y a de risque de ne pas dtecter un impact existant. Une puissance de 80% est un
niveau frquemment utilis pour les calculs de puissance. Cela signie que vous
allez dtecter un impact existant dans 80 % des cas. Un niveau de puissance plus
lev de 0,9(ou 90 %) constitue souvent un niveau utile, bien que plus prudent et
entranant par consquent une hausse de la taille de lchantillon requis7.
Siximement, vous devez demander un statisticien destimer certains paramtres de rfrence comme la moyenne et la variance des indicateurs de rsultats.
Ces valeurs de rfrence doivent de prfrence tre obtenues partir de donnes
existantes collectes dans un contexte comparable celui du programme ltude8.
Il est trs important de noter que plus un indicateur de rsultat est variable, plus il
sera difficile de formuler une estimation able de leffet du traitement. Dans
lexemple du programme de nutrition, le poids des enfants est le rsultat ltude. Si
tous les enfants psent le mme poids dans lenqute de rfrence, il sera possible
destimer limpact de lintervention partir dun chantillon relativement rduit.
En revanche, si les poids de rfrence des enfants affichent une grande variance, un
chantillon plus grand sera ncessaire pour estimer limpact du programme.
lissue de ces six tapes, le statisticien peut effectuer le calcul de puissance en
utilisant un logiciel statistique standard9. Le calcul de puissance qui en rsultera
indiquera la taille de lchantillon ncessaire en fonction des paramtres dnis aux
tapes 1 6. Les calculs de puissance sont faciles raliser une fois que les questions
dordre politique (points 3 et 4) ont t rsolues.10
Lorsquun statisticien est mandat pour faire des calculs de puissance, il est
recommand de demander une analyse de la sensibilit des calculs de puissance
aux changements dhypothses. Ceci est important pour comprendre dans quelle
mesure la taille de lchantillon devra tre augmente pour que les hypothses de
dpart deviennent plus conservatrices (baisse de limpact espr, hausse de la
variance dans lindicateur de rsultat ou niveau de puissance plus lev). Il est
galement utile de demander des calculs de puissance pour diffrents indicateurs
de rsultats tant donn que la taille de lchantillon ncessaire peut considrablement changer si certains indicateurs de rsultats sont plus ou moins variables
que dautres.
Enn, les calculs de puissance permettent dtablir la taille minimum de
lchantillon ncessaire. Dans la pratique, les problmes de mise en uvre impliquent souvent que la taille de lchantillon effectif soit infrieure la taille prvue.
Toute dviation de ce type doit tre envisage avec prudence, mais il est conseill
dajouter une marge de 10 20% la taille de lchantillon prvue par les calculs
de puissance11.

Choix de lchantillon

Concept cl :
La taille de lchantillon requis augmente
si leffet minimal
dtectable est faible,
si lindicateur de
rsultat est trs
variable ou sil sagit
dun vnement rare,
et si lvaluation vise
comparer les impacts
entre diffrents
sous-groupes.

183

Taille de lchantillon ncessaire pour valuer une version amplifie


du Programme de subvention de lassurance maladie (PSAM)
La prsidente et le ministre de la Sant se sont montrs satisfaits de la qualit et des
rsultats de lvaluation du Programme de subvention de lassurance maladie
(PSAM), notre exemple des chapitres prcdents. Toutefois, avant dtendre le
PSAM, ils dcident de mettre en uvre titre de projet pilote une version amplie
du programme, quils appellent PSAM+. Le PSAM nance une partie des frais de
lassurance maladie pour les mnages pauvres qui vivent en milieu rural, couvrant
les dpenses relatives aux soins de sant primaires et lachat de mdicaments, mais
pas les frais dhospitalisation. La prsidente et le ministre de la Sant souhaitent
savoir si un PSAM+ ampli couvrant galement les frais dhospitalisation pourrait
permettre de rduire davantage les dpenses de sant la charge directe des
mnages. Ils vous demandent donc de concevoir une valuation dimpact pour savoir
si le PSAM+ rduit bel et bien les dpenses de sant des mnages ruraux pauvres.
Dans ce contexte, vous nhsitez pas sur le choix de la mthode dvaluation
dimpact: le PSAM+ est dot de ressources limites. Dans limmdiat, il ne peut pas
tre mis en uvre auprs de lensemble de la population. Vous concluez donc que
lassignation alatoire est la mthode dvaluation la plus pertinente et la plus
robuste. La prsidente et le ministre de la Sant comprennent le fonctionnement de
la mthode dassignation alatoire et y sont trs favorables.
An de naliser la conception de lvaluation dimpact, vous demandez un statisticien de vous aider dnir la taille de lchantillon ncessaire. Avant de commencer, le statisticien vous demande de lui fournir certaines informations cls.
Il a six questions vous poser.
1. Le statisticien demande si le programme PSAM+ va gnrer des grappes.
ce stade, vous ne le savez pas encore. Vous pensez quil est possible de procder
une assignation alatoire du PSAM + au niveau des mnages parmi tous les
mnages ruraux pauvres qui bncient dj du PSAM. Toutefois, il vous semble
possible que la prsidente et le ministre de la Sant prfrent peut-tre assigner
le programme au niveau des villages, ce qui entranerait la cration de grappes.
Le statisticien propose de commencer par effectuer des calculs de puissance sans
grappe, puis dexaminer dans quelle mesure lexistence de grappes inuerait sur
les rsultats.
2. Le statisticien vous demande quel est lindicateur de rsultat. Vous expliquez que
le gouvernement souhaite utiliser un indicateur bien dni : les dpenses de sant directes des mnages. Le statisticien cherche une base de donnes rcente
pour obtenir des valeurs de rfrence pour cet indicateur. Il propose dutiliser
lenqute de suivi de lvaluation du PSAM. Il remarque que, parmi les mnages
ayant bnci du PSAM, les dpenses annuelles de sant directes par personne
slvent en moyenne 7,84dollars.

184

Lvaluation dimpact en pratique

3. Le statisticien sassure que vous ne souhaitez pas mesurer limpact du programme


sur des sous-groupes par exemple des rgions ou des populations spciques.
4. Le statisticien demande quel est limpact minimum qui justierait un investissement dans la version amplie du programme. En dautres termes, il veut
connatre le montant de la baisse des dpenses de sant en dessous de la moyenne
de rfrence de 7,84dollars qui justierait lintervention. Il explique quil ne sagit
pas selon lui dune considration technique, mais plutt dune question dordre
politique. Pour cette raison cest un dcideur tel que vous de dterminer leffet
minimum que lvaluation doit permettre de dtecter. Vous avez entendu la prsidente mentionner que le PSAM+ serait considr comme efficace sil permettait
de rduire les dpenses de sant directes des mnages de deuxdollars. Toutefois,
vous savez que, dans le cadre de lvaluation, il vaut mieux tre prudent dans la
dtermination de limpact minimum dtectable, tout impact infrieur tant peu
susceptible dtre dtect. Pour comprendre comment la taille de lchantillon
ncessaire varie en fonction de leffet minimum dtectable, vous suggrez au statisticien deffectuer des calculs en vue dune rduction minimum des dpenses de
sant directes de undollar, de deuxdollars et de troisdollars.
5. Le statisticien vous demande le niveau de puissance que vous jugeriez raisonnable pour lvaluation ralise. Il ajoute que les calculs de puissance sont gnralement raliss sur la base dune puissance de0,9, mais il propose de raliser
ultrieurement des tests de sensibilit un niveau moins conservateur de0,8.
6. Enn, le statisticien demande quelle est la variance de lindicateur de rsultat
dans la population ltude. Il consulte nouveau les donnes des mnages
ayant bnci du PSAM en indiquant que lcart-type des dpenses de sant
directes est de huitdollars.
Avec toutes ces informations, le statisticien effectue les calculs de puissance.
Comme convenu, il commence par le cas le plus conservateur dune puissance de0,9.
Il obtient les rsultats gurant dans le tableau11.2.
Il conclut que pour dtecter une baisse de deux dollars des dpenses de sant
directes avec une puissance de0,9, lchantillon doit contenir au moins 672 units
(336 units traites et 336 units de comparaison, en labsence de grappes).
Il indique que sil vous convenait de dtecter une baisse de trois dollars des
dpenses de sant directes, un chantillon plus rduit dau moins 300 units
(150 units dans chaque groupe) serait suffisant. En revanche, un chantillon
beaucoup plus important dau moins 2 688 units (1 344 dans chaque groupe)
serait ncessaire pour dtecter une baisse de un dollar dans les dpenses de sant
directes.

Choix de lchantillon

185

Tableau 11.2 Taille de lchantillon ncessaire selon les diffrents effets


minimums dtectables (baisse des dpenses de sant des mnages),
puissance = 0,9, sans grappe
Effet minimal
dtectable

Groupe de
traitement

Groupe de
comparaison

chantillon total

$1

1 344

1 344

2 688

$2

336

336

672

$3

150

150

300

Remarque : leffet minimal dtectable correspond la rduction minimum des dpenses de sant
directes des mnages que lvaluation dimpact doit pouvoir dtecter.

Le statisticien produit ensuite un deuxime tableau pour un niveau de puissance de 0,8. Le tableau11.3 montre que les tailles dchantillons ncessaires sont
infrieures pour une puissance de 0,8 que pour une puissance de 0,9. Pour dtecter
une baisse de deux dollars des dpenses de sant directes des mnages, un chantillon total dau moins 502 units est suffisant. Pour dtecter une baisse de troisdollars, au moins 224 units sont ncessaires. Toutefois, pour dtecter une baisse de
undollar, au moins 2008 units sont ncessaires.
Le statisticien explique que les rsultats sont typiques des calculs de puissance:
Plus le niveau de puissance est lev (ou prudent), plus la taille de lchantillon
ncessaire est importante.
Plus limpact dtecter est rduit, plus lchantillon ncessaire est grand.

Tableau 11.3 Taille de lchantillon ncessaire selon les diffrents effets


minimums dtectables (baisse des dpenses de sant des mnages),
puissance = 0,8, sans grappe
Effet minimal
dtectable

Groupe de
traitement

Groupe de
comparaison

chantillon total

1$

1 004

1 004

2 008

2$

251

251

502

3$

112

112

224

Remarque : leffet minimal dtectable correspond la rduction minimum des dpenses de sant
directes des mnages que lvaluation dimpact doit pouvoir dtecter.

186

Lvaluation dimpact en pratique

Tableau 11.4 Taille de lchantillon ncessaire pour dtecter diffrents


effets minimums dsirs (hausse du taux dhospitalisation), puissance = 0,9,
sans grappe
Effet minimal
dtectable (point
de pourcentage)

Groupe de
traitement

Groupe de
comparaison

chantillon total

9 717

9 717

19 434

2 430

2 430

4 860

1 080

1 080

2 160

Remarque : leffet minimal dsir correspond au changement minimum du taux dhospitalisation


(exprim en points de pourcentage) que lvaluation dimpact doit pouvoir dtecter.

Le statisticien demande si vous souhaitez raliser des calculs de puissance pour


dautres indicateurs de rsultats. Vous suggrez dvaluer galement la taille de
lchantillon ncessaire pour dtecter si le PSAM+ affecte le taux dhospitalisation.
Dans lchantillon des villages bnciant du PSAM, 5% des mnages comptent un
membre qui a t hospitalis au cours de la dernire anne. Le statisticien produit un
nouveau tableau qui indique que des chantillons relativement importants seraient
ncessaires mme pour dtecter de grands changements du taux dhospitalisation
de un, deux ou trois points par rapport au taux de rfrence de 5% (tableau 11.4).
Le tableau indique que les tailles des chantillons ncessaires sont plus importantes pour ce rsultat (taux dhospitalisation) que pour les dpenses de sant
directes. Le statisticien conclut que si vous souhaitez dtecter les impacts sur ces
deux indicateurs de rsultats, vous devrez utiliser les plus grands chantillons proposs par les calculs de puissance portant sur le taux dhospitalisation. Si vous choisissez dutiliser des chantillons de la taille suggre par les calculs de puissance
effectus pour les dpenses de sant directes, le statisticien recommande de prciser
la prsidente et au ministre de la Sant que lvaluation ne prsentera pas une
puissance suffisante pour dtecter les effets sur le taux dhospitalisation.

QUESTION 8

A. Quelle taille dchantillon recommanderiez-vous pour estimer limpact du PSAM+


sur les dpenses de sant directes ?
B. La taille de cet chantillon est-elle suffisante pour dtecter un changement du taux
dhospitalisation ?

Calculs de puissance avec grappes


Les paragraphes prcdents prsentent les calculs de puissance pour des programmes ne produisant pas de grappes. Toutefois, comme nous lavons vu dans la
deuxime partie du manuel, les bnces de nombreux programmes sont assigns
par grappes. Nous allons donc dcrire brivement comment adapter les principes de
base des calculs de puissance aux chantillons par grappes.

Choix de lchantillon

187

Lorsquil existe des grappes, il convient de noter que le nombre de grappes est un
paramtre beaucoup plus important que le nombre dindividus qui composent les
grappes. Un nombre suffisant de grappes est ncessaire pour pouvoir identier avec
un degr de certitude suffisant lventuel impact dun programme en comparant les
rsultats des chantillons de traitement et de comparaison.
Si vous assignez de faon alatoire un traitement au sein dun petit nombre de
grappes, il est peu probable que les groupes de traitement et de comparaison soient
identiques. Lassignation alatoire entre deux districts, deux coles ou deux hpitaux ne garantit pas que les deux grappes soient similaires. En revanche, lassignation alatoire dune intervention entre 100districts, 100coles ou 100hpitaux a
plus de probabilits de crer un groupe de traitement et un groupe de comparaison
similaires. En rsum, un nombre suffisant de grappes est ncessaire pour sassurer
quun quilibre est atteint. Par ailleurs, le nombre de grappes joue galement un rle
dans la prcision des effets estims. Un nombre suffisant de grappes est ncessaire
pour tester lhypothse selon laquelle un programme a un impact avec une puissance
satisfaisante. Il est donc trs important de sassurer que le nombre de grappes disponibles pour lassignation alatoire est assez grand.
Sur la base de lintuition dcrite ci-dessus, vous pouvez dnir le nombre de
grappes ncessaire pour effectuer un test dhypothse prcis en effectuant des
calculs de puissance. La ralisation de calculs de puissance pour des chantillons
grappes ncessite une tape supplmentaire par rapport la procdure de base:
1. Le programme produit-il des grappes?
2. Quel est lindicateur de rsultat?
3. Souhaitez-vous comparer les impacts du programme entre plusieurs
sous-groupes?
4. Quel est le niveau minimum dimpact qui justierait linvestissement effectu
dans lintervention?
5. Quelle est la moyenne de rfrence de lindicateur de rsultat?
6. Quelle est la variance de lindicateur de rsultat dans la population ltude?
7. Quelle est la variance de lindicateur de rsultat au sein des grappes?
Par rapport aux calculs de puissance sans grappe, une tape est ajoute : vous
devez demander votre statisticien quel est le degr de corrlation entre les rsultats au sein des grappes. lextrme, tous les rsultats dune mme grappe peuvent
afficher une corrlation parfaite. Par exemple, il est possible que les revenus des
mnages ne soient pas particulirement variables au sein dun village, mais que
dimportantes ingalits existent entre diffrents villages. Dans ce cas, si vous souhaitez ajouter un individu votre chantillon dvaluation, laddition dun individu
dun nouveau village augmentera plus la puissance que laddition dun individu

188

Lvaluation dimpact en pratique

venant dun village dj reprsent. En effet, dans ce dernier cas, le deuxime villageois sera trs probablement similaire au villageois dj inclus dans lchantillon.
En gnral, plus la corrlation intra-grappe des rsultats est leve, plus le nombre
de grappes ncessaire pour obtenir un niveau de puissance donn augmente.
Dans les chantillons par grappes, les calculs de puissance mettent en vidence la
balance ncessaire entre lajout de nouvelles grappes lchantillon et de nouvelles
observations dans les grappes de lchantillon. Laugmentation relative de la puissance due lajout dune unit au sein dune nouvelle grappe est presque toujours
plus importante que lajout dune unit au sein dune grappe existante. Bien que
laugmentation de puissance associe lajout dune nouvelle grappe puisse tre
importante, lajout de grappes peut aussi avoir des consquences oprationnelles et
affecter le cot de la collecte de donnes. La section suivante explique comment
raliser des calculs de puissance avec des grappes dans lexemple du PSAM+
et certaines des dcisions possibles.
Dans de nombreux cas, il faut au moins 30 50grappes dans le groupe de traitement et dans le groupe de comparaison pour obtenir une puissance suffisante et
garantir lquilibre des caractristiques de rfrence avec la mthode dassignation
alatoire. Toutefois, le nombre peut varier en fonction des diffrents paramtres
mentionns ci-dessus, tout comme le degr de corrlation intra-grappe. De plus,
le nombre de grappes ncessaire est gnralement plus lev avec des mthodes
autres que lassignation alatoire (toutes choses gales par ailleurs).

Concept cl :
Pour les calculs de
puissance, le nombre
de grappes est plus
important que le
nombre dindividus
au sein des grappes.
Il faut le plus souvent
au moins 30 grappes
dans chaque groupe
(groupe de traitement
et groupe de
comparaison).

Taille de lchantillon ncessaire pour valuer une version amplifie


du Programme de subvention de lassurance maladie (PSAM)
avec grappes
Aprs votre discussion avec le statisticien concernant les calculs de puissance pour
le PSAM+, vous dcidez de vous entretenir avec la prsidente et le ministre de la
Sant au sujet des consquences dune assignation alatoire du PSAM+ aux individus bnciant dj du PSAM. Cette conversation vous permet dtablir quune telle
procdure ne serait pas politiquement ralisable : il serait difficile dexpliquer
pourquoi une personne pourrait bncier dune couverture supplmentaire, mais
pas son voisin.
Au lieu dappliquer la slection alatoire au niveau individuel, vous proposez de
slectionner de manire alatoire plusieurs villages bnciant du PSAM pour piloter le PSAM+. Tous les habitants des villages slectionns seraient alors ligibles.
Cette procdure entrane la cration de grappes et ncessite donc de nouveaux
calculs de puissance. Vous cherchez maintenant dterminer la taille de lchantillon ncessaire pour valuer limpact du PSAM+ dans un contexte
dassignation alatoire par grappe.
Vous consultez nouveau votre statisticien. Il vous rassure en dclarant que cela
ne ncessite quun petit effort supplmentaire. Sur sa liste, seule une question reste
sans rponse. Il doit savoir la variance de lindicateur de rsultat au sein des grappes.
Il trouve la rponse cette question dans les donnes de suivi du PSAM :
la corrlation intra-village des dpenses de sant directes est gale 0,04.

Choix de lchantillon

189

Il vous demande galement si un plafond a t dni pour le nombre de villages


dans lesquels le nouveau projet pilote peut tre lanc. tant donn que le PSAM a t
mis en uvre dans 100villages, vous lui expliquez que vous pourriez avoir au maximum 50 villages de traitement et 50 villages de comparaison pour le programme
PSAM+. Sur la base de ces informations, le statisticien produit les calculs illustrs au
tableau 11.5 pour une puissance de0,9.
Il conclut que pour dtecter une baisse de deuxdollars des dpenses de sant
directes, lchantillon doit inclure au moins 900units, soit neuf units par grappe
pour 100grappes. Il note que ce chiffre est suprieur celui de lchantillon correspondant lassignation alatoire au niveau des mnages qui ne ncessite que 672units au total. Pour dtecter une baisse de troisdollars des dpenses de sant directes,
lchantillon doit inclure au moins 340 units, ou quatre units par grappe pour
85grappes.
Toutefois, lorsque le statisticien tente de dnir lchantillon ncessaire pour
dtecter une baisse de un dollar des dpenses de sant directes, il conclut quun tel
impact ne pourrait pas tre dtect avec 100 grappes. Au moins 109 grappes
seraient ncessaires, et le nombre dobservations au sein de chaque grappe serait
extrmement lev. Ces conclusions indiquent quun grand nombre de grappes est
ncessaire pour quune valuation ait assez de puissance pour dtecter des impacts
relativement rduits, indpendamment du nombre dobservations au sein de
chaque grappe.
Le statisticien suggre alors de recalculer ces chiffres avec une puissance de
seulement 0,8(voir le tableau 11.6). Les tailles dchantillon ncessaires sont plus
rduites, mais restent plus importantes pour un chantillon par grappes que pour
un simple chantillon alatoire.

Tableau 11.5 Taille de lchantillon ncessaire pour diffrents effets


minimums dtectables (baisse des dpenses de sant des mnages),
puissance = 0,9, 100 grappes maximum
Effet minimal
dtectable

Nombre de
grappes

Units par
grappe

chantillon
total avec
grappes

chantillon
total sans
grappe

1$

Impossible

Impossible

Impossible

2 688

2$

100

900

672

3$

85

340

300

Remarque : leffet minimal dtectable correspond la rduction minimum des dpenses de sant
directes des mnages que lvaluation dimpact doit pouvoir dtecter.

190

Lvaluation dimpact en pratique

Tableau 11.6 Taille de lchantillon ncessaire pour diffrents effets


minimums dtectables (baisse des dpenses de sant des mnages),
puissance = 0,8, 100 grappes maximum

Effet minimal
dtectable

Nombre de
grappes

Units par
grappe

chantillon
total avec
grappes

chantillon
total sans
grappe

$1

100

102

10 200

2 008

$2

90

630

502

$3

82

246

224

Remarque : leffet minimal dtectable correspond la rduction minimum des dpenses de sant
directes des mnages que lvaluation dimpact doit pouvoir dtecter.

Le statisticien calcule alors comment le nombre total dobservations ncessaires varie en fonction du nombre de grappes. Il dcide de refaire les calculs pour
un effet minimal dtectable de deuxdollars et une puissance de0,9. La taille de
lchantillon total ncessaire pour estimer un tel impact augmente fortement
lorsque le nombre de grappes diminue (tableau11.7). Pour 100 grappes,900 observations sont ncessaires. Pour 30 grappes, lchantillon total doit alors contenir
6690 observations. En revanche, pour 157grappes, seules 785observations sont
ncessaires.

QUESTION 9

A. Quelle taille dchantillon total recommanderiez-vous pour estimer limpact


du PSAM+ sur les dpenses de sant directes ?
B. Dans combien de villages recommanderiez-vous la prsidente et au ministre
de la Sant de dployer le PSAM+ ?

Tableau 11.7 Taille de lchantillon ncessaire pour dtecter un impact


minimum de 2 dollars pour diffrents nombres de grappes, puissance = 0,9
Effet minimal
dtectable

Nombre de
grappes

Units par
grappe

chantillon total
sans grappe

2$

30

223

6 690

2$

60

20

1 200

2$

86

11

946

2$

100

900

2$

120

840

2$

135

810

2$

157

785

Choix de lchantillon

191

En rsum

Concept cl :
Les mthodes
dvaluation dimpact
quasi exprimentales
ncessitent presque
toujours des
chantillons plus
grands que le cas
de rfrence de
lassignation alatoire.

Pour rsumer, la qualit dune valuation dimpact dpend directement de la qualit


des donnes sur lesquelles elle se fonde. ce titre, il est essentiel de crer des chantillons bien construits et dune taille adquate. Nous avons pass en revue les principes de base des calculs de puissance. Dans la planication dune valuation, les
calculs de puissance sont un outil essentiel pour limiter les cots de collecte des
donnes. Ils permettent dviter de collecter plus de donnes que ncessaire tout en
minimisant le risque de conclure de faon errone quun programme na pas dimpact alors quil en a bien eu un. Les calculs de puissance se fondent sur des informations techniques et statistiques, mais aussi sur des dcisions politiques. En gnral,
laugmentation de la taille de lchantillon a des rendements dcroissants. Pour dnir la taille de lchantillon adquate, il faut donc trouver le juste quilibre entre la
prcision des estimations dimpact et les considrations budgtaires.
Nous nous sommes concentrs ici sur le cas de rfrence dune valuation dimpact mise en uvre au moyen de lassignation alatoire. Il sagit du scnario le plus
simple, et donc le plus adapt pour dcrire lintuition sous-jacente aux calculs de
puissance. De nombreux aspects pratiques des calculs de puissance nont cependant pas t abords, et de nombreux scnarios divergent des exemples simplis
prsents ici. Par exemple, les mthodes dvaluation dimpact quasi exprimentales ncessitent presque toujours des chantillons plus importants que dans le cas
de lassignation alatoire. Par ailleurs, la taille de lchantillon ncessaire augmente sil existe un risque de biais dans lestimation des effets du traitement ou
dans les cas o ladhrence nest pas totale. Ces aspects sortent du cadre du prsent
ouvrage, mais vous trouverez une description plus dtaille dans Spybrook et al.
(2008) ou Rosenbaum (2009, chapitre 14). Il existe plusieurs ressources de
rfrence pour approfondir la conception dchantillons. Ainsi, la Fondation
W.T. Grant a mis au point lOptimal Design Software for Multi-Level and Longitudinal Research, un logiciel utile pour les analyses de puissance statistique en prsence de grappes. Dans la pratique, les agences qui commanditent une valuation
sont nombreuses faire appel un spcialiste pour effectuer les calculs de puissance. Ce dernier devrait tre mme de prodiguer des conseils si des mthodes
autres que lassignation alatoire sont utilises.

Choisir une stratgie dchantillonnage


La taille nest pas le seul facteur qui garantit ladquation dun chantillon pour une
valuation dimpact. Le procd utilis pour prlever lchantillon de la population
ltude a galement une grande importance. Les principes dchantillonnage
peuvent orienter le prlvement dchantillons reprsentatifs. Lchantillonnage
comprend trois tapes :
1. Dterminer la population ltude.
2. Dnir un cadre dchantillonnage.

192

Lvaluation dimpact en pratique

3. Prlever autant dunits du cadre dchantillonnage que les calculs de puissance


le ncessitent.
Dans un premier temps, la population ltude doit tre clairement dnie12.
Pour cela, il convient de dnir avec prcision lunit dobservation pour laquelle
les rsultats seront mesurs, avec une description claire de la couverture gographique ou de tout autre attribut pertinent caractrisant la population. Par exemple,
si vous grez un programme de dveloppement de la petite enfance, vous pouvez
chercher mesurer les rsultats cognitifs pour des enfants de troissix ans dans
lensemble du pays, pour des enfants de cette tranche dges uniquement dans les
zones rurales ou seulement pour des enfants inscrits lcole maternelle.
Dans un deuxime temps, une fois que la population ltude a t dnie, il
convient de crer un cadre dchantillonnage. Le cadre dchantillonnage est la liste
la plus exhaustive qui puisse tre dresse des units dune population ltude.
Thoriquement, le cadre dchantillonnage doit concider parfaitement avec la
population ltude. Par exemple, un recensement parfaitement jour de la population ltude constituerait un cadre dchantillonnage idal. Dans la pratique,
des listes existantes comme les donnes dun recensement de population, dun
recensement institutionnel ou des listes dinscription un programme sont souvent utilises comme cadres dchantillonnage.
Un bon cadre dchantillonnage est essentiel pour que les conclusions tires de
lanalyse dun chantillon soient applicables lensemble de la population.
En effet, un cadre dchantillonnage qui ne concide pas parfaitement avec la
population ltude engendre un biais de couverture, comme lillustre la gure11.2.
En prsence dun biais de couverture, les rsultats de lchantillon nont pas une
validit externe pour lensemble de la population ltude, mais uniquement pour

Concept cl :
Le cadre dchantillonnage est la liste
existante la plus
exhaustive des units
constituant la
population ltude.
Un biais de couverture
apparait sil y a une
divergence entre le
cadre dchantillonnage et la population
ltude.

Figure 11.2 Un cadre dchantillonnage valide couvre lintgralit


de la population ltude

Cadre
dchantillonnage
valide

Cadre
dchantillonnage
invalide
Population
ltude

Choix de lchantillon

193

Concept cl :
Lchantillonnage
est le processus par
lequel les units sont
prleves du cadre
dchantillonnage.
Lchantillonnage
probabiliste attribue
chaque unit une
probabilit bien dfinie
dtre slectionne.

194

la population du cadre dchantillonnage. Par consquent, les biais de couverture


faussent linterprtation des rsultats de lvaluation dimpact puisque la source de
ces rsultats nest pas claire.
Lorsque vous envisagez de prlever un nouvel chantillon ou dvaluer la qualit
dun chantillon existant, il est important de dterminer si le meilleur cadre dchantillonnage disponible concide avec la population ltude. La gnralisation des statistiques extraites de lchantillon toute la population ltude dpend de lampleur
du biais de couverture, autrement dit de labsence de diffrence entre le cadre
dchantillonnage et la population ltude.
Par exemple, un biais de couverture peut apparaitre si vous souhaitez tudier tous
les mnages dun pays, mais que vous utilisez lannuaire tlphonique comme cadre
dchantillonnage : dans ce cas, les mnages sans tlphone ne seront pas inclus dans
lchantillon. Ceci peut fausser les rsultats de lvaluation si les mnages sans tlphone prsentent galement dautres caractristiques qui les diffrencient de la population ltude et que ces caractristiques affectent la faon dont les mnages
bncieraient de lintervention. Par exemple, les mnages sans tlphone peuvent se
situer dans des zones rurales recules. Si vous souhaitez valuer limpact dun programme de formation professionnelle, omettre les mnages les plus isols peut affecter les rsultats de lvaluation, car ces mnages sont probablement ceux qui ont le
plus de mal intgrer le march du travail.
Le risque de biais de couverture est rel, et la prudence est donc de rigueur lors
de la dnition des cadres dchantillonnage. Par exemple, les donnes de recensement peuvent contenir la liste de toutes les units dune population. Toutefois, si une
priode trop longue sest coule entre le recensement et la formation dun chantillon, le cadre dchantillonnage peut ne pas tre totalement jour, ce qui crera un
biais de couverture. Par ailleurs, il est possible que les donnes de recensement ne
contiennent pas suffisamment dinformations sur des caractristiques prcises pour
pouvoir constituer un cadre dchantillonnage. Si la population ltude est constitue denfants allant lcole maternelle et que le recensement ne contient pas dinformations sur les inscriptions lcole, des donnes complmentaires seront
ncessaires13.
Une fois que la population ltude et le cadre dchantillonnage sont dnis,
vous devez choisir la mthode de prlvement de lchantillon. Il existe plusieurs
procdures. Les mthodes dchantillonnage probabilistes sont les plus rigoureuses,
car elles attribuent chaque unit une probabilit bien dnie dtre slectionne.
Les trois principales mthodes dchantillonnage probabilistes sont les suivantes14:
chantillonnage alatoire. Toutes les units de la population ont exactement la
mme probabilit dtre prleves15.
chantillonnage alatoire strati. La population est divise en groupes (hommes
et femmes par exemple) et un chantillonnage alatoire est effectu au sein de
chaque groupe. Par consquent, toutes les units dun mme groupe (ou strate)
ont la mme probabilit dtre prleves. Si les groupes sont assez grands, lchantillonnage strati permet de tirer des conclusions sur les rsultats non seulement au niveau de la population, mais galement au sein de chaque groupe.

Lvaluation dimpact en pratique

La stratication est essentielle pour les valuations qui visent comparer les impacts dun programme entre diffrents sous-groupes.
chantillonnage par grappes. Les units sont divises en grappes et un chantillon alatoire de grappes est prlev. Lensemble des units des grappes prleves constitue alors lchantillon ou seul un certain nombre dunits sont slectionnes de manire alatoire au sein de chaque grappe. Par consquent, chaque
grappe a une probabilit bien dnie dtre slectionne, et les units slectionnes de chaque grappe ont elles aussi une probabilit bien dnie dtre
prleves.
Dans le contexte dune valuation dimpact, la procdure de prlvement dun
chantillon dpend souvent des rgles dligibilit du programme valuer.
Comme nous lavons mentionn dans la section consacre la taille des chantillons, si la plus petite unit de mise en uvre viable est plus grande que lunit
dobservation, lassignation alatoire du traitement engendrera la cration de
grappes. Pour cette raison, lchantillonnage par grappes est souvent utilis dans
les tudes dvaluation dimpact.
Lchantillonnage non probabiliste peut entraner de graves erreurs dchantillonnage. Lchantillonnage dirig ou lchantillonnage de commodit sont parfois
utiliss la place des procdures dchantillonnage probabilistes dcrites ci-dessus. Dans ces cas, des erreurs dchantillonnage peuvent survenir mme si le cadre
dchantillonnage couvre lensemble de la population et quil nexiste aucun biais
de couverture. Considrons par exemple que pour une enqute nationale, un
groupe denquteurs est mandat de collecter des donnes sur les mnages en se
rendant dans les foyers les plus proches de lcole dans chaque village. En suivant
cette procdure dchantillonnage non probabiliste, il est probable que lchantillon ne sera pas reprsentatif de lensemble de la population ltude. Un biais de
couverture sera cr, car les foyers loigns ne seront pas couverts par lenqute.
En n de compte, il faut choisir avec prudence son cadre dchantillonnage et sa
procdure dchantillonnage pour assurer la validit externe des rsultats obtenus
pour lensemble de la population ltude. Mme si le cadre dchantillonnage prsente une couverture parfaite et quune procdure dchantillonnage probabiliste est
utilise, des erreurs non lies lchantillonnage peuvent affecter la validit externe
de lchantillon. Nous abordons ces erreurs dans le prochain chapitre.

Notes
1. Les donnes sur les cots sont galement ncessaires pour lanalyse
cot-bnce.
2. Pour une description dtaille des enqutes auprs des mnages, voir Grosh
et Glewwe (2000) et ONU (2005). Dal Poz et Gupta (2009) abordent certains
problmes spciques la collecte des donnes dans le secteur de la sant.
3. ce stade, la discussion peut sappliquer nimporte quelle population:
lensemble de la population ltude, la population du groupe de traitement
ou la population du groupe de comparaison.
Choix de lchantillon

195

4. Dans ce contexte, le terme population ne fait pas rfrence la population


dun pays, mais plutt lensemble du groupe denfants qui nous intresse,
savoir la population ltude.
5. Cette intuition est formalise par le thorme limite central. Pour un
rsultat y , ce thorme nonce que la moyenne de lchantillon constitue une
estimation valide de la moyenne de la population. Par ailleurs, pour un
chantillon de taille n et une variance de dans la population, la variance de
la moyenne de lchantillon est inversement proportionnelle la taille de
lchantillon:

var( y ) =

6.

7.

8.

9.
10.

11.
12.

13.

196

.
n
Plus la taille de lchantillon n augmente, plus la variance des estimations
dchantillon sapproche de zro. Autrement dit, la moyenne est estime avec
plus de prcision avec de grands chantillons quavec de petits chantillons.
Lallocation du traitement par grappe est souvent incontournable cause de
considrations sociales ou politiques qui rendent impossible lassignation alatoire
lintrieur des grappes. Dans le contexte dune valuation dimpact, la cration de
grappes est souvent ncessaire en raison du risque de dbordements ou de
diffusion des bnces du programme entre les individus au sein des grappes.
Outre la puissance, il convient galement de xer un niveau de conance
tablissant une probabilit acceptable derreur de type I, gnralement
0,05(ou 0,01 pour un niveau plus conservateur).
Si les calculs de puissance sont effectus partir de lenqute de rfrence,
lauto-corrlation des rsultats au l du temps doit galement tre prise
en compte.
Par exemple, Spybrook et al. (2008) ont dvelopp Optimal Design, un logiciel
convivial permettant de raliser des calculs de puissance.
Il est gnralement souhaitable davoir des groupes de traitement et de
comparaison de la mme taille. En effet, pour un nombre donn dobservations dans un chantillon, la puissance est optimise en allouant la moiti des
observations au groupe de traitement et lautre moiti au groupe de comparaison. Toutefois, les groupes de traitement et de comparaison ne doivent pas
systmatiquement tre de la mme taille. Informez votre statisticien de toute
contrainte sopposant lutilisation de deux groupes de mme taille ou de
toute raison justiant lutilisation de groupes de tailles ingales.
Les questions de non-rponse et dattrition sont abordes au chapitre 12 de
manire plus dtaille.
Dans le contexte de lvaluation dun programme, lensemble de la population ltude peut tre assign au groupe de traitement ou au groupe de
comparaison. Cette section dcrit de faon gnrale la faon de prlever
un chantillon de la population ltude totale.
Si lon procde un chantillonnage par grappes et que la liste des units au
sein des grappes nest plus dactualit, il faut envisager la possibilit deffectuer
une numration exhaustive des units au sein de chaque grappe. Par exemple,
si lchantillon est prlev au sein dune communaut, lagence charge de la
collecte des donnes peut commencer par dresser la liste de tous les mnages
du village avant de raliser lenqute.
Lvaluation dimpact en pratique

14. Voir Cochran (1977); Lohr (1999); Kish (1995); Thompson (2002) ou, pour une
prsentation trs abordable, Kalton (1983) pour une description de lchantillonnage (y compris dautres mthodes comme lchantillonnage systmatique ou en plusieurs tapes) plus approfondie que les concepts de base abords
ici. Grosh et Muoz (1996); Fink (2008); Iarossi (2006); et ONU (2005)
formulent des conseils pratiques sur lchantillonnage.
15. Au sens strict, les chantillons sont prlevs partir de cadres dchantillonnage. Nous partons de lhypothse selon laquelle ce cadre concide parfaitement avec la population.

Rfrences
Cochran, William G. 1977. Sampling Techniques. 3e dition. New York: John Wiley.
Dal Poz, Mario et Neeru Gupta. 2009. Assessment of Human Resources for
Health Using Cross-National Comparison of Facility Surveys in Six Countries.
Human Resources for Health 7: 22.
Fink, Arlene G. 2008. How to Conduct Surveys: A Step by Step Guide. 4e dition.
Beverly Hills, CA: Sage Publications.
Galiani, Sebastian, Paul Gertler et Ernesto Schargrodsky. 2005. Water for Life:
The Impact of the Privatization of Water Services on Child Mortality. Journal
of Political Economy 113 (1): 83120.
Grosh, Margaret et Paul Glewwe, eds. 2000. Designing Household Survey Questionnaires for Developing Countries: Lessons from 15 Years of the Living Standards
Measurement Study. Washington DC: Banque mondiale.
Grosh, Margaret et Juan Muoz. 1996. A Manual for Planning and Implementing
the Living Standards Measurement Study Survey. Document de travail LSMS
126, Banque mondiale, Washington, DC.
Iarossi, Giuseppe. 2006. The Power of Survey Design: A Users Guide for Managing
Surveys, Interpreting Results, and Inuencing Respondents. Washington DC:
Banque mondiale.
Kalton, Graham. 1983. Introduction to Survey Sampling. Beverly Hills, CA: Sage
Publications.
Kish, Leslie. 1995. Survey Sampling. New York: John Wiley.
Lohr, Sharon. 1999. Sampling: Design and Analysis. Pacic Grove, CA: Brooks Cole.
Pradhan, Menno et Laura B. Rawlings. 2002. The Impact and Targeting of Social
Infrastructure Investments: Lessons from the Nicaraguan Social Fund. tude
conomique de la Banque mondiale 16 (2): 27595.
Rosenbaum, Paul. 2009. Design of Observational Studies. New York: Springer Series
in Statistics.
Spybrook, Jessaca, Stephen Raudenbush, Xiaofeng Liu, Richard Congdon et Andrs
Martinez. 2008. Optimal Design for Longitudinal and Multilevel Research: Documentation for the Optimal Design Software. New York: William T. Grant Foundation.
Thompson, Steven K. 2002. Sampling. 2e dition. New York: John Wiley.
ONU (Organisation des Nations Unies). 2005. Household Sample Surveys in Developing
and Transition Countries. New York: Organisation des Nations Unies.
Choix de lchantillon

197

CHAPITRE12

Collecter des donnes


Au chapitre11, nous avons dcrit le type de donnes ncessaires pour mener une
valuation et suggr que la plupart des valuations ncessitaient la collecte de
nouvelles donnes. Nous avons galement vu comment dterminer la taille de
lchantillon ncessaire et la faon de procder lchantillonnage. Dans le prsent
chapitre, nous allons passer en revue les tapes de la collecte de donnes.
Ces tapes doivent tre bien comprises pour que lvaluation dimpact soit fonde
sur des donnes de qualit qui ne la compromettent pas. Dans un premier temps,
vous devrez faire appel une socit ou un organisme gouvernemental spcialis
dans la collecte de donnes. Vous devrez en parallle commanditer l'laboration
dun questionnaire appropri. Lagence qui collecte les donnes devra recruter et
former du personnel de terrain et procder un pilotage du questionnaire. Aprs
avoir effectu les modications ncessaires, la socit ou l'organisme pourra entamer le travail sur le terrain. Enn, les donnes collectes devront tre saisies et
valides avant dtre exploites.

Choisir une entit comptente pour collecter


les donnes
Vous devrez choisir assez tt dans lorganisme qui sera responsable de la collecte
des donnes, et ce en considrant nombre de facteurs importants. Ce travail peut
potentiellement tre ralis par:
linstitution responsable de la mise en uvre du programme ;

199

une autre institution gouvernementale qui possde de lexprience dans la


collecte de donnes (comme lagence nationale de statistique); ou
une socit ou un groupe indpendant spcialis dans la collecte de donnes.
Lentit collectant les donnes doit dans tous les cas travailler en troite collaboration avec lorganisme responsable de lexcution du programme. tant donn que les
donnes de rfrence doivent tre collectes avant que le programme ne soit lanc,
cette collaboration est ncessaire pour sassurer quaucun aspect du programme
nest mis en uvre avant que les donnes n'aient t collectes. Lorsque des donnes
de rfrence sont ncessaires au fonctionnement du programme (par exemple, pour
produire un indice de ciblage dans le contexte d'une valuation fonde sur un modle
de discontinuit de la rgression), l'organisme de collecte des donnes doit tre en
mesure de les traiter rapidement et de les transfrer l'institution responsable du
programme. Une collaboration troite est galement ncessaire pour dterminer le
moment le plus propice la collecte des donnes de lenqute de suivi. Par exemple,
si vous avez choisi une assignation alatoire par phase, lenqute de suivi devra tre
ralise avant que le programme ne soit dploy au sein du groupe de comparaison
an dviter toute contamination.
Au moment de choisir l'entit qui collectera les donnes, il est essentiel de garder
lesprit quil faut employer des procdures de collecte identiques pour les groupes
de comparaison et de traitement. Souvent, lorganisme charg de lexcution du programme na de contact quavec le groupe de traitement et nest donc pas le mieux
plac pour collecter des donnes pour le groupe de comparaison. Il serait risqu
dutiliser deux agences de collecte de donnes diffrentes pour les groupes de traitement et de comparaison, car cela peut entraner des divergences dans les rsultats
mesurs pour les deux groupes du simple fait de lutilisation de procdures diffrentes. Si lorganisme dexcution ne peut pas collecter des donnes de manire efficiente pour le groupe de traitement et le groupe de comparaison, mieux vaut
envisager le recrutement dun autre partenaire.
Dans certains contextes, il est galement recommand de coner la collecte de
donnes une agence indpendante pour assurer lobjectivit du travail. Les craintes
dune ventuelle partialit de lorganisme responsable de lexcution du programme
peuvent tre infondes, mais la contribution dun organisme nayant aucun intrt
dans les rsultats de lvaluation peut renforcer la crdibilit de lvaluation.
tant donn que la collecte de donnes comprend une srie doprations complexes, il est recommand de faire appel un organisme expriment. Rares sont les
organismes responsables de lexcution des programmes qui possdent lexprience
suffisante pour collecter des donnes pour de grands chantillons avec une qualit
suffisante pour une valuation dimpact. Dans la plupart des cas, vous devrez envisager de mandater une institution locale, comme le bureau national de statistique, ou
une socit ou un groupe indpendant spcialis.
Mandater une institution locale comme le bureau national de statistique peut tre
loccasion, pour lorganisme, de se familiariser avec les tudes dvaluation dimpact
et dtendre ses expertises. Toutefois, les bureaux nationaux de statistique ne

200

Lvaluation dimpact en pratique

possdent pas toujours les capacits suffisantes pour entreprendre des missions
supplmentaires en dehors de leurs activits rgulires. Ils peuvent galement ne
pas avoir lexprience ncessaire pour raliser des enqutes dans le cadre dvaluation dimpact, par exemple la mise en place de procdures de suivi des individus
dans le temps. Dans ce cas, il peut tre plus pratique de faire appel une socit
ou un groupe spcialis dans la collecte de donnes.
Il nest pas impratif que la mme entit collecte les donnes de rfrence et de
suivi. Par exemple, pour lvaluation dimpact d'un programme de formation dont la
population cible est compose des personnes stant inscrites, linstitution charge
de la formation peut tre responsable de la collecte des donnes de rfrence au
moment de linscription des participants. Il est toutefois peu probable que cette
mme institution soit la mieux place pour collecter les donnes de suivi pour les
groupes de traitement et de comparaison. Dans ce contexte, il peut tre avantageux
de contracter sparment la collection des diverses rondes de collectes de donnes,
tout en sassurant quaucune information utile au suivi des mnages ou des individus
ne soit perdue entre les rondes et que les mmes procdures soient utilises pour les
enqutes de rfrence et de suivi.
Pour dterminer lorganisme le mieux mme de collecter les donnes pour
lvaluation dimpact, il faut tenir compte de toute une srie de facteurs, y compris
lexprience en collecte de donnes, la capacit collaborer avec lorganisme responsable de lexcution du programme, limpartialit, les opportunits de renforcer les
capacits locales, la facult dadaptation au contexte de lvaluation dimpact, ainsi
que la qualit probable des donnes collectes. Rdiger un cahier des charges et solliciter des propositions techniques et nancires est un moyen efficace de dterminer lorganisme le mieux plac pour collecter des donnes de qualit.
tant donn que les dlais de ralisation du travail et la qualit des donnes sont
des facteurs dterminants pour la abilit de lvaluation dimpact, le contrat avec
lagence de collecte des donnes doit tre rdig avec prudence. La porte des travaux et des rsultats attendus doit tre dcrite de manire trs prcise. Il est galement recommand dintroduire au sein des contrats des mesures incitatives associes
de clairs indicateurs de qualit. Par exemple, comme nous le verrons ci-aprs, le
taux de non-rponse est un indicateur cl de la qualit des donnes. An dencourager les agences de collecte de donnes limiter le taux de non-rponse, le contrat
peut par exemple stipuler le paiement dun cot unitaire pour 90% de lchantillon,
dun cot unitaire suprieur pour les units comprises entre 90% et 95% et dun
cot unitaire encore plus lev pour les units comprises entre 95% et 100%. Un
contrat spar peut aussi tre conclu pour la phase de suivi des non-rpondants.

laboration du questionnaire
Au moment de commanditer une collecte de donnes, vous devez dnir des objectifs prcis et donner des directives spciques sur le contenu de linstrument ou du

Collecter des donnes

201

questionnaire utiliser. Les instruments de collecte de donnes doivent permettre


dobtenir toutes les informations ncessaires pour rpondre la question de politique sur laquelle porte lvaluation dimpact.
Choix des indicateurs
Comme nous lavons vu, des indicateurs doivent tre mesurs tout au long de la
chane de rsultats, y compris des indicateurs de rsultat nal, des indicateurs de
rsultats intermdiaires, et des indicateurs de la mise en uvre de lintervention, des
facteurs exognes et des caractristiques de contrle.
Il est important de choisir avec prudence les indicateurs mesurer an de limiter
les cots de la collecte des donnes, de simplier la tche de lagence de collecte et
damliorer la qualit des donnes collectes en rduisant le temps requis des rpondants. Collecter des informations non pertinentes ou peu susceptibles dtre utilises est trs coteux. La rdaction lavance dun plan danalyse des donnes vous
permettra dtablir des priorits et de dnir les informations ncessaires.
Les donnes sur les indicateurs de rsultats et sur les caractristiques de contrle
doivent tre collectes de la mme manire pour lenqute de rfrence que pour
lenqute de suivi. Il est trs souhaitable de collecter des donnes de rfrence. Mme
si vous utilisez les mthodes de lassignation alatoire ou de discontinuit de la
rgression, pour lesquelles de simples diffrences pour les indicateurs mesures
aprs lintervention fournissent en principe limpact dun programme, les donnes
de rfrence sont indispensables pour vrier si la mthode dvaluation dimpact
est approprie (voir la liste de lencadr8.1 au chapitre8). Disposer de donnes de
rfrence est galement une assurance si la slection alatoire ne fonctionne pas
parfaitement et que la mthode de la double diffrence doit tre utilise la place.
Les donnes de rfrence sont galement utiles pendant la phase danalyse puisque
les variables de contrle contenues dans les donnes de rfrence peuvent contribuer augmenter la puissance statistique ou vous permettre danalyser si les impacts
varient pour diffrents sous-groupes. Enn, les donnes de rfrence peuvent servir
amliorer la conception du programme. Ainsi, elles permettent parfois danalyser
lefficacit du ciblage ou fournissent des informations supplmentaires sur les bnciaires lorganisme responsable de lexcution du programme.
Mesure des indicateurs
Une fois que les donnes essentielles collecter sont dnies, ltape suivante
consiste dterminer la faon dont vous allez mesurer ces indicateurs. La mesure est
un art en soi, et mieux vaut la coner lagence mandate pour collecter les donnes,
des spcialistes ou aux valuateurs. Des ouvrages entiers sont consacrs la
meilleure faon de mesurer des indicateurs particuliers, comme notamment la
meilleure manire de formuler les questions qui gurent dans les enqutes menes

202

Lvaluation dimpact en pratique

auprs des mnages (voir Grosh et Glewwe[2000] et ONU[2005])1 ou les procdures dtailles suivre pour collecter des rsultats dexamen ou des indicateurs de
sant. Si ces considrations peuvent sembler laborieuses, elles nen sont pas moins
essentielles. Nous nonons ici quelques principes gnraux qui vous guideront
dans la supervision de la collecte de donnes.
Les indicateurs de rsultat doivent, dans la mesure du possible, tre conformes
aux meilleures pratiques locales et internationales. Il est toujours utile de se pencher
sur la faon dont les indicateurs ltude ont t mesurs dans des enqutes antrieures, la fois sur le plan local et international. Lutilisation des mmes indicateurs
(et des mmes modules ou questions pour lenqute) permet de garantir la comparabilit entre les donnes existantes et les donnes collectes pour lvaluation dimpact. Si vous dcidez de choisir un indicateur qui nest pas parfaitement comparable
ou qui nest pas bien mesur, vous limitez lutilit des rsultats de lvaluation.
Tous les indicateurs doivent tre mesurs exactement de la mme faon pour
toutes les units du groupe de traitement et du groupe de comparaison. Lutilisation
de mthodes de collecte diffrentes (par exemple une enqute tlphonique dans un
cas et des entretiens en face face dans lautre) risque de gnrer un biais. Ce risque
est galement prsent si vous collectez des donnes des moments diffrents pour
les deux groupes (par exemple si vous collectez les donnes du groupe de traitement
pendant la saison des pluies et celles du groupe de comparaison pendant la saison
sche). Cest pourquoi les procdures utilises pour mesurer un indicateur de rsultat doivent tre formules de manire trs prcise. Le processus de collecte des donnes doit tre exactement le mme pour toutes les units. Dans le questionnaire,
chaque module associ au programme doit tre introduit sans affecter lordre ou le
contexte des rponses dans dautres sections du questionnaire.
Formatage des questionnaires
Des rponses diffrentes peuvent tre obtenues en posant une mme question de
manire lgrement diffrente. Par consquent, le contexte et la formulation des
questions doivent tre les mmes pour toutes les units an dviter tout biais dans
les rponses. Glewwe (ONU2005) formule six recommandations spciques sur le
contenu des questionnaires denqutes auprs des mnages. Ces recommandations
sappliquent aussi la plupart des autres instruments de collecte de donnes:
1. Chaque question doit tre rdige dans son intgralit dans le questionnaire
an que lenquteur puisse raliser son entretien en lisant chaque question mot
pour mot.
2. Le questionnaire doit inclure des dnitions prcises de tous les concepts cls
mentionns dans lenqute an que lenquteur puisse y faire rfrence pendant
lentretien si ncessaire.

Collecter des donnes

203

3. Chaque question doit tre aussi courte et simple que possible et tre rdige dans
des termes simples du quotidien.
4. Les questionnaires doivent tre conus de faon ce que les rponses presque
toutes les questions soient prcodes.
5. Le systme de codage doit tre le mme pour toutes les questions.
6. Lenqute doit clairement indiquer les questions sauter en fonction des rponses aux questions prcdentes.
Une fois le questionnaire rdig par la personne mandate, il doit tre prsent une
quipe de spcialistes. Toutes les personnes participant lvaluation (dcideurs,
chercheurs, analystes et collecteurs de donnes) doivent tre consultes pour savoir
si le questionnaire permettra dobtenir toutes les informations ncessaires.

Pilotage du questionnaire
Il est important que le questionnaire fasse lobjet dun pilotage sur le terrain avant
dtre nalis. La ralisation dun pilote permet de tester son contenu, son formatage et la formulation des questions. Il est essentiel de procder un pilotage complet du questionnaire sur le terrain dans des conditions relles an de vrier la
dure dadministration et de sassurer que son contenu est suffisamment cohrent
et complet pour mesurer toutes les informations pertinentes. Le pilotage sur le
terrain fait partie intgrante du travail de conception du questionnaire.

Travail de terrain
Mme si vous engagez un partenaire externe pour la collecte des donnes, il est
essentiel que vous compreniez toutes les tapes de ce processus pour pouvoir
garantir que les mcanismes de contrle de qualit et les mcanismes incitatifs
appropris sont en place. Lorganisme de collecte des donnes doit coordonner les
travaux d'un grand nombre d'intervenants, parmi lesquels les enquteurs, les
superviseurs, les coordonnateurs de terrain ainsi que le personnel d'appui logistique en plus d'une quipe de programmateurs, de superviseurs et d'oprateurs de
saisie. Un plan de travail prcis doit tre mis en place pour coordonner le travail de
toutes ces quipes; le plan de travail constitue donc un produit important.
Ds le dbut, le plan de travail doit prvoir une sance de formation de lquipe
de collecte avant que la collecte ne commence. ce titre, un manuel de rfrence
doit tre rdig et utilis tout au long du travail sur le terrain. La formation est

204

Lvaluation dimpact en pratique

essentielle pour s'assurer que les donnes sont collectes de la mme manire par
tous les intervenants. Le processus de formation est galement une bonne occasion pour reprer les meilleurs enquteurs et effectuer un dernier test des instruments et des procdures dans des conditions relles. Une fois lchantillon prlev,
les instruments conus et tests, et les quipes formes, la collecte des donnes
peut commencer. Il est utile de veiller ce que le plan du travail de terrain prvoie
que chaque quipe collecte des donnes pour le mme nombre dunits de traitement et de comparaison.
Comme nous lavons vu au chapitre 11, la qualit de lchantillonnage dpend
essentiellement de la qualit des donnes recueillies. Toutefois, de nombreuses
erreurs non lies lchantillonnage peuvent survenir pendant la collecte de donnes.
Dans le contexte dune valuation dimpact, cela est dautant plus problmatique si
ces erreurs diffrent entre les groupes de traitement et de comparaison.
Une non-rponse apparait sil est impossible de collecter des donnes exhaustives
pour certaines units de lchantillon. Les chantillons effectifs se limitent aux units pour lesquelles des donnes peuvent tre collectes, les units qui choisissent de
ne pas participer une enqute peuvent rendre l'chantillon moins reprsentatif et
crer un biais dans les rsultats de l'valuation. Lattrition est une forme courante de
non-rponse. Elle se produit lorsque des units quittent lchantillon entre deux
rondes de collecte de donnes, par exemple par manque de suivi des migrants.
La non-rponse et lattrition sont particulirement problmatiques dans le
contexte des valuations dimpact, car elles peuvent crer des diffrences entre le
groupe de traitement et le groupe de comparaison. Par exemple, lattrition peut
varier dans les deux groupes : lors de la collecte de donnes de suivi, le taux de
rponse parmi les units traites pourra tre suprieur celui des units de comparaison. Par exemple, ceci peut tre d au fait que les units de comparaison sont
dues de ne pas avoir t slectionnes pour le programme ou sont plus susceptibles de migrer. Un problme de non-rponse peut galement survenir si un questionnaire nest pas complet pour certaines units.
Lerreur de mesure est un autre type de problme pouvant gnrer un biais si elle
est systmatique. Une erreur de mesure survient lorsquil existe une diffrence entre
la valeur dune caractristique fournie par le sond et sa vritable valeur (inconnue)
(Kasprzyk2005). Cette diffrence peut tre due la faon dont le questionnaire est
formul ou la mthode de collecte des donnes choisie. Elle peut galement survenir par la faute des enquteurs ou des sonds.
La qualit dune valuation dimpact dpend directement de la qualit des donnes collectes. Toutes les parties prenantes doivent connatre les normes de qualit
qui rgissent la collecte de donnes; il faut notamment insister sur limportance de
ces normes durant la formation des enquteurs et dans les manuels de rfrence.
Il est galement essentiel de dnir des procdures dtailles pour rduire le taux de
non-rponse ou (si cela est jug acceptable) remplacer les units introuvables de
lchantillon prvu. Lagence de collecte de donnes doit parfaitement comprendre

Collecter des donnes

Concept cl :
La non-rponse
caractrise le manque
des donnes pour
certaines units de
lchantillon prvu.
La non-rponse peut
entraner un biais
dans les rsultats
de lvaluation.

Concept cl :
Les meilleures
pratiques en matire
dvaluation dimpact
visent limiter le taux
de non-rponse et
dattrition 5 %.

205

quels sont les taux de non-rponse et dattrition acceptables. Les meilleures pratiques en matire dvaluation dimpact visent limiter le taux de non-rponse et
dattrition 5%. Cet objectif nest pas toujours ralisable au sein de populations trs
mobiles, mais il fournit toutefois une rfrence utile. Il arrive que, pour limiter le
taux de non-rponse, les sonds se voient offrir une compensation. Dans tous les cas,
le contrat avec lagence de collecte des donnes doit prvoir des mesures incitatives
claires, par exemple une rmunration suprieure si le taux de non-rponse est infrieur 5% ou tout autre taux jug acceptable.
En parallle, des procdures dassurance de la qualit bien dnies doivent tre
tablies toutes les tapes du processus de collecte de donnes: conception des procdures dchantillonnage, formulation du questionnaire, tapes de prparation, collecte, saisie, nettoyage et stockage des donnes.
Les contrles de qualit doivent tre considrs comme une priorit pendant les
travaux sur le terrain an de limiter les erreurs de non-rponse pour chaque unit.
Des procdures prcises doivent tre mises en place pour revisiter les units qui
nont fourni aucune information ou pour lesquelles les informations sont incompltes. Le processus de contrle de la qualit doit comporter plusieurs ltres en prvoyant par exemple que les enquteurs, les superviseurs et, si ncessaire, les
coordonnateurs de terrain vrient les cas de non-rponse. Les questionnaires correspondant aux cas de non-rponses doivent tre clairement cods et consigns. Une
fois les donnes saisies, le taux nal de non-rponse peut tre tabli en rvisant le
statut de toutes les units de lchantillon prvu.
Des contrles de qualit doivent galement tre effectus si les donnes dun
questionnaire sont incompltes. L encore, le processus de contrle de la qualit doit
comporter plusieurs ltres. Lenquteur est charg de vrier les donnes immdiatement aprs leur collecte. Le superviseur et le coordonnateur de terrain doivent
effectuer ultrieurement des vrications alatoires.
Les contrles visant dtecter les erreurs de mesure sont plus compliqus, mais
eux aussi essentiels pour dterminer si les informations ont t collectes correctement. Des contrles de cohrence peuvent tre intgrs au questionnaire.
Par ailleurs, les superviseurs doivent effectuer des vrications ponctuelles et des
contre-vrications pour s'assurer que les enquteurs collectent les donnes conformment aux normes tablies. Les coordonnateurs de terrain doivent galement participer ces contrles pour rduire le risque de conits dintrts au sein de la socit
de sondage.
Il est essentiel que toutes les tapes du contrle de la qualit soient rendues explicites pour lorganisme charg de la collecte des donnes. Vous pouvez galement
envisager de faire appel un organisme indpendant pour superviser la qualit des
activits de collecte de donnes. Ceci permet de limiter de faon signicative les
problmes pouvant survenir en raison d'une supervision insuffisante de lquipe de
collecte de donnes.

206

Lvaluation dimpact en pratique

Saisie et validation des donnes


Les enqutes auprs des mnages sont gnralement ralises laide dun questionnaire papier bien que des instruments de collecte de donnes lectroniques comme
les ordinateurs portables et autres dispositifs portatifs deviennent plus courants.
Dans tous les cas, les donnes doivent tre numrises et traites. Un logiciel de saisie
de donnes doit tre cr et un systme doit tre mis en place pour grer le ux des
questionnaires numriser. Il faut tablir des normes et des procdures, et former
les oprateurs de saisie, qui doivent tous suivre le mme processus de saisie. Dans la
mesure du possible, la saisie des donnes doit tre intgre aux oprations de collecte de donnes (y compris pendant la phase de pilotage) pour que tout problme
concernant les donnes collectes puisse tre rapidement identi et immdiatement vri sur le terrain.
Si les enqutes sont ralises sur papier, il est impratif que les donnes brutes
collectes soient saisies telles quelles, sans aucune modication. An de rduire les
erreurs de saisie, il est recommand dexiger une procdure de saisie de donnes en
double aveugle an de reprer et de corriger toute erreur ventuelle.
Outre les contrles de qualit effectus au cours du processus de saisie des donnes, le logiciel peut tre programm pour effectuer des vrications automatiques
derreurs non lies lchantillonnage (par exemple de non-rponse partielle et
incohrences) susceptibles davoir t commises sur le terrain. Si le processus de
saisie des donnes est intgr aux procdures de travail sur le terrain, les donnes
incompltes ou incohrentes peuvent tre transmises aux enquteurs pour leur vrication sur le terrain (Muoz 2005, chapitre15). Ce type dintgration nest pas sans
poser de ds au niveau du ux organisationnel des oprations sur le terrain, mais il
peut gnrer dimportants gains de qualit en rduisant les erreurs de mesure et en
accroissant la puissance de lvaluation dimpact. Le recours une approche intgre de ce type doit tre envisag au moment de la planication de la collecte de
donnes. Les nouvelles technologies peuvent faciliter cette intgration.
Comme nous lavons vu, la collecte de donnes implique une srie d'oprations
dont la complexit ne doit pas tre sous-estime. Lencadr12.1 illustre le processus de
collecte des donnes en vue de lvaluation des programmes pilotes Atencin a Crisis
au Nicaragua, qui a gnr des donnes de qualit avec un trs faible taux dattrition et
de non-rponse tout en minimisant les erreurs de mesure et de saisie. Seule la mise en
place de procdures et de mesures incitatives appropries ds lengagement dun organisme de la collecte des donnes permet dobtenir des donnes de qualit.
lissue du processus de collecte des donnes, les donnes doivent tre transmises, accompagnes dune documentation dtaille, comprenant un manuel et un
dictionnaire complets, et stockes de faon scurise. Si les donnes sont collectes
dans le cadre dune valuation dimpact, elles doivent galement tre accompagnes
dinformations supplmentaires sur le traitement et la participation au programme
de chaque unit. Lanalyse dvaluation dimpact sera dautant plus rapide quelle
pourra se reposer sur des donnes et une documentation complte, permettant ainsi
son utilisation plus rapidement dans le cycle dlaboration de politiques. Cela facilitera galement le partage des informations.

Collecter des donnes

207

Encadr 12.1 : Collecte de donnes pour lvaluation des programmes pilotes Atencin a Crisis au Nicaragua
En 2005, le Gouvernement du Nicaragua lance
le programme pilote Atencin a Crisis. Lobjectif
est d'valuer limpact de la combinaison d'un
programme de transferts montaires conditionnels (TMC) et de transferts productifs, tels que
des transferts pour des investissements dans
des activits non agricoles ou la participation
des formations professionnelles. Le projet pilote
est mis en uvre par le ministre de la Famille
avec le soutien de la Banque mondiale.
Une assignation alatoire en deux tapes est
utilise pour l'valuation. Dans un premier temps,
106 communauts cibles sont rparties de manire
alatoire entre le groupe de comparaison et le
groupe de traitement. Dans un second temps, au
sein des communauts traites, les mnages ligibles sont slectionns de manire alatoire pour
recevoir trois types de prestations : 1) un transfert
montaire conditionnel ; 2) un TMC plus une
bourse permettant lun des membres du mnage
de choisir une formation professionnelle ; et 3) un
TMC plus un transfert pour permettre un investissement productif dans une activit non agricole,
dans le but de crer des actifs et de diversifier les
revenus (Macours et Vakis 2009).
Une enqute de rfrence est ralise en
2005, avec une premire enqute de suivi en
2006 et une deuxime enqute de suivi en 2008,
deux ans aprs la fin de lintervention. Des
contrles de qualit rigoureux sont mis en place
toutes les tapes du processus de collecte des
donnes. Premirement, les questionnaires sont
tests sur le terrain et les enquteurs sont forms la fois dans des conditions thoriques et
pratiques. Deuximement, un systme de supervision sur le terrain est mis en place afin que tous
les questionnaires soient rviss plusieurs fois
par les enquteurs, les superviseurs, les coordonnateurs de terrain et dautres examinateurs.
Troisimement, un systme de saisie des donnes en double aveugle est utilis avec un programme complet de contrle de la qualit capable
de reprer les questionnaires incomplets ou
incohrents. Les questionnaires prsentant des
non-rponses ou des incohrences sont syst-

matiquement renvoys sur le terrain pour vrification. Ces procdures et exigences sont
dcrites avec prcision dans les termes de rfrence de lagence de collecte des donnes.
Par ailleurs, des procdures de suivi dtailles
sont mises en place pour limiter lattrition. Au
dbut, un recensement complet des mnages
rsidant dans les communauts de traitement et
de comparaison en 2008 est entrepris en collaboration troite avec les dirigeants communautaires.
Au vu de limportante mobilit gographique de la
population, des mesures incitatives sont mises en
place pour encourager la socit de collecte de
donnes suivre les migrants dans tout le pays.
Grce cette initiative, seulement 2 % des
4 359 mnages dorigine ne sont pas interrogs
en 2009. La socit de collecte de donnes est
galement mandate pour suivre tous les individus des mnages interrogs en 2005. L encore,
seuls 2 % des individus auxquels les transferts du
programme sadressaient ne sont pas suivis (2 %
tant par ailleurs dcds). Le taux dattrition
stablit 3 % pour tous les enfants des mnages
interrogs en 2005 et 5 % pour tous les individus des mnages interrogs en 2005.
Les taux dattrition et de non-rponse donnent une bonne indication de la qualit de lenqute. La socit de collecte des donnes a
dploy dimportants efforts et mis en place des
mesures incitatives pour obtenir ces rsultats
remarquables. Il convient galement de mentionner que le cot unitaire par mnage ou individu
suivi est galement beaucoup plus lev. De
plus, les contrles de qualit rigoureux entranent
une augmentation des cots et un allongement
des dlais de collecte des donnes. Toutefois,
dans le contexte du projet pilote Atencin a Crisis, lchantillon reste reprsentatif la fois au
niveau des mnages et des individus plus de
quatre ans aprs l'enqute de rfrence, l'erreur
de mesure est minimise et la fiabilit de l'valuation est renforce. Tous ces lments font du
programme Atencin a Crisis lun des projets de
protection sociale dont la fiabilit peut tre tudie avec le plus de confiance.

Source : Macours et Vakis 2009 ; auteurs.

208

Lvaluation dimpact en pratique

Note
1. Voir galement Fink et Kosecoff (2008) ; Iarossi (2006) ; et Leeuw, Hox et
Dillman (2008), qui fournissent de nombreux conseils pratiques sur la collecte
de donnes.

Rfrences
Fink, Arlene G. et Jacqueline Kosecoff. 2008. How to Conduct Surveys: A Step
by Step Guide. 4e dition. Londres: Sage Publications.
Glewwe, Paul. 2005. An Overview of Questionnaire Design for Household
Surveys in Developing Countries. In Household Sample Surveys in
Developing and Transition Countries, chapitre 3. New York: Organisation
des Nations Unies.
Grosh, Margaret et Paul Glewwe, eds. 2000. Designing Household Survey
Questionnaires for Developing Countries: Lessons from 15 Years of the Living
Standards Measurement Study. Washington DC: Banque mondiale.
Iarossi, Giuseppe. 2006. The Power of Survey Design: A Users Guide for Managing
Surveys, Interpreting Results, and Inuencing Respondents. Washington DC:
Banque mondiale.
Kasprzyk, Daniel. 2005. Measurement Error in Household Surveys: Sources and
Measurement. In Household Sample Surveys in Developing and Transition
Countries, chapitre 9. New York: Organisation des Nations Unies.
Leeuw, Edith, Joop Hox et Don Dillman. 2008. International Handbook of Survey
Methodology. New York: Taylor & Francis Group.
Macours, Karen et Renos Vakis. 2009. Changing Household Investments and
Aspirations through Social Interactions: Evidence from a Randomized
Experiment. Document de travail consacr la recherche sur les politiques5137, Banque mondiale, Washington, DC.
Muoz, Juan. 2005. A Guide for Data Management of Household Surveys. In
Household Sample Surveys in Developing and Transition Countries, chapitre 15.
New York: Organisation des Nations Unies.
ONU (Organisation des Nations Unies). 2005. Household Sample Surveys in
Developing and Transition Countries. New York: Organisation des Nations Unies.

Collecter des donnes

209

CHAPITRE13

Production et diffusion
des rsultats
Dans ce chapitre, nous abordons le contenu et la diffusion des divers rapports produits au cours dune valuation dimpact. Pendant la phase de prparation, le gestionnaire de lvaluation commence par laborer un plan de ralisation de lvaluation
dimpact qui dtaille les objectifs, la mthode, les stratgies dchantillonnage et de
collecte de donnes pour lvaluation (lencadr13.1 propose une bauche du plan
dvaluation). Les diffrents lments du plan dvaluation sont prsents dans les
chapitres1 12 ci-dessus.
Une fois lvaluation en cours, les valuateurs produisent plusieurs rapports, dont
un rapport de rfrence, au moins un rapport dvaluation dimpact et des notes de
synthse politique. Les valuateurs fournissent galement des bases de donnes
documentes. Lorsque le rapport dvaluation dimpact est termin et que les rsultats sont connus, il faut dterminer la meilleure faon de diffuser les conclusions
auprs des dcideurs et autres parties prenantes concernes. Le prsent chapitre est
consacr la production et la diffusion des rsultats de lvaluation dimpact.

Les produits de lvaluation


Les principaux produits dune valuation sont le rapport dvaluation dimpact et
des notes de synthse politique rsumant les principales conclusions. La ralisa-

211

Encadr 13.1 : Exemple de structure dun plan


dvaluation dimpact
1. Introduction
2. Description de lintervention
3. Objectifs de lvaluation
3.1 Hypothses, thorie du changement, chane de rsultats
3.2 Questions de politique
3.3 Indicateurs de rsultat cls
4. Mthode dvaluation
5. chantillonnage et donnes
5.1 Stratgie dchantillonnage
5.2 Calculs de puissance
6. Plan de collecte des donnes
6.1 Enqute de rfrence
6.2 Enqute(s) de suivi
7. Produits
7.1 Rapport de rfrence
7.2 Rapport dvaluation dimpact
7.3 Note de synthse politique
7.4 Bases de donnes documentes
8. Plan de diffusion
9. Questions thiques
10. Calendrier
11. Budget et financement
12. Composition de lquipe dvaluation

tion dun rapport nal dvaluation peut prendre plusieurs annes puisque les
conclusions ne peuvent tre obtenues que lorsque toutes les donnes de suivi ont
t collectes. En raison de ce dlai, les dcideurs demandent souvent recevoir
des rapports dvaluation intermdiaires, comme un rapport de rfrence, an de
disposer dinformations prliminaires pour alimenter le dialogue et les dcisions
de politique publique1.
Comme nous lavons vu au chapitre10, le gestionnaire de lvaluation travaille en
collaboration avec des analystes pour produire le rapport de rfrence et le rapport
nal. Les analystes sont des experts en statistique ou en conomtrie qui peuvent

212

Lvaluation dimpact en pratique

raliser lanalyse de lvaluation dimpact au moyen dun logiciel statistique comme


Stata, SPSS ou R. Ils sont chargs de garantir la qualit, la rigueur scientique et la
crdibilit des rsultats. Nous nabordons pas dans ce chapitre la faon danalyser les
donnes2, mais plutt le contenu des rapports produits partir des donnes.
Produit intermdiaire : le rapport de rfrence
Le principal objectif du rapport de rfrence est de dterminer si la mthode dvaluation dimpact choisie est valide dans la pratique et de dcrire les caractristiques de la population ligible et les indicateurs de rsultats de rfrence (avant le
programme). Le rapport de rfrence contient galement des informations sur le
programme et ses bnciaires qui peuvent tre utiles pour amliorer la fois la
mise en uvre du programme et son valuation. Lencadr 13.2 prsente un
exemple du contenu dun rapport de rfrence3.
Le rapport de rfrence est produit partir de lanalyse de donnes de base et de
donnes administratives dcrivant les units qui font partie du groupe de traitement
ou de comparaison. Lassignation de mnages, dindividus ou dtablissements au

Encadr 13.2 : Exemple de structure dun rapport


de rfrence
1. Introduction
2. Description de lintervention (bnfices, rgles dligibilit, etc.)
3. Objectifs de lvaluation
3.1 Hypothses, thorie du changement, chane de rsultats
3.2 Questions de politique
3.3 Indicateurs de rsultat cls
4. Mthode dvaluation
4.1 Mthode prvue initialement
4.2 Participants et non participants effectifs au programme
5. chantillonnage et donnes
5.1 Stratgie dchantillonnage
5.2 Calculs de puissance
5.3 Donnes collectes
6. Validation de la mthode dvaluation
7. Statistiques descriptives compltes
8. Conclusion et recommandations pour la mise en uvre du programme

Production et diffusion des rsultats

213

groupe de traitement ou au groupe de comparaison seffectue gnralement aprs la


collecte des donnes de rfrence. Par consquent, lassignation de chaque unit au
groupe de traitement ou de comparaison est souvent enregistre dans une base de
donnes administrative distincte. Par exemple, un tirage au sort peut tre organis
pour dterminer les communauts qui bncieront dun programme de transferts
montaires parmi toutes les communauts ligibles auprs desquelles lenqute de
rfrence a t ralise. Dans ce cas, les analystes doivent effectuer un croisement
des donnes administratives et des donnes de rfrence. Si lvaluation porte sur,
disons, plus de 100units ligibles, il ne sera pas pratique deffectuer un croisement
par nom des donnes de rfrence et des donnes administratives. Il faudra attribuer
chaque unit ligible un numro ou un identiant unique qui servira lidentier
dans toutes les sources de donnes, y compris dans les bases de donnes de rfrence
et administratives.
Les premires sections du rapport de rfrence approfondissent le plan dvaluation dimpact en prsentant le contexte de lvaluation, le contenu de lintervention
(bnces du programme et rgles dassignation), les objectifs de lvaluation (thorie du changement, principales questions de politique, hypothses et indicateurs) et
la mthode choisie pour lvaluation. La section consacre la conception de lvaluation doit dterminer si lassignation des bnces du programme a t conforme
la mthode prvue. tant donn que lassignation est gnralement ralise juste
aprs lenqute de rfrence, il est recommand de prsenter des informations sur
lassignation effective dans le rapport de rfrence. La section sur lchantillonnage
commence gnralement par une description de la stratgie dchantillonnage et des
calculs de puissance effectus avant de passer aux dtails sur la faon dont les donnes de rfrence ont t collectes et le type dinformations qui sont disponibles. Le
rapport doit mentionner toutes les ventuelles difficults rencontres lors de la collecte des donnes de rfrence et prsenter des indicateurs de la qualit des donnes, par exemple les taux de non-rponse. ce titre, le rapport de rfrence peut
mettre en vidence les principaux problmes rsoudre au moment de collecter les
donnes du suivi. Par exemple, si le taux de non-rponse est lev lors de lenqute
de rfrence, les valuateurs devront penser laborer de nouvelles procdures
pour sassurer que cela ne se reproduise pas pour lenqute de suivi.
Comme nous lavons mentionn, le principal objectif du rapport de rfrence est
de juger si la mthode dvaluation choisie et prsente dans le plan dvaluation
reste valable en pratique. Nous avons vu au chapitre8 que la plupart des mthodes
dvaluation dimpact ne produisent des estimations valides du contrefactuel que
dans le cadre dhypothses spciques. Lencadr8.1 (chapitre8) prsente la liste
des tests qui peuvent servir tester la pertinence dune mthode en fonction du
contexte. Certains de ces tests ne ncessitent pas de donnes de suivi et peuvent tre
appliqus ds que les donnes de rfrence sont disponibles. Par exemple, si la
mthode de lassignation alatoire ou de loffre alatoire est utilise, le rapport de
rfrence doit prciser si les groupes de traitement et de comparaison prsentent les
mmes caractristiques. Si lvaluation est fonde sur la mthode de la discontinuit

214

Lvaluation dimpact en pratique

de la rgression, le rapport de rfrence doit considrer si lindice dligibilit est


continu autour du seuil dligibilit. Mme si ces tests de falsication ne garantissent
pas que le groupe de comparaison reste valide jusqu lenqute de suivi, il est impratif de les prsenter dans le rapport de rfrence.
En plus dprouver la validit de la mthode dvaluation, le rapport de rfrence
doit comporter des tableaux dcrivant les caractristiques de lchantillon dvaluation. Ces tableaux peuvent faciliter la mise en uvre du programme en permettant
aux gestionnaires de mieux cerner le prol des bnciaires et dadapter lintervention leurs besoins. Par exemple, les gestionnaires peuvent adapter le contenu des
formations proposes par un programme de formation des jeunes en ayant une
meilleure ide du niveau dducation ou de lexprience professionnelle moyenne
des participants.
Du point de vue de lvaluation, lenqute de rfrence gnre souvent des informations qui ntaient pas disponibles au moment de la formulation du plan dvaluation. Supposons que vous cherchiez valuer limpact dun programme de sant
dans les villages sur lincidence de la diarrhe chez les enfants. Au moment de la
rdaction du plan dvaluation, il se peut que vous ne connaissiez pas le taux dincidence exact de la diarrhe. Votre plan dvaluation contient seulement une estimation sur laquelle sont fonds les calculs de puissance. Cependant, une fois que vous
disposez des donnes de rfrence, vous pouvez vrier le taux dincidence de la
diarrhe et vrier si la taille initiale de votre chantillon est adquate. Si vous
constatez que les valeurs de rfrence des indicateurs de rsultat sont diffrentes de
celles utilises pour les calculs de puissance initiaux, le rapport de rfrence pourra
actualiser les calculs de puissance.
An de garantir la crdibilit des rsultats naux de lvaluation, il est judicieux
de demander des spcialistes externes deffectuer une revue critique du rapport de
rfrence. La diffusion du rapport de rfrence peut galement renforcer le dialogue
politique entre les parties prenantes au cours du cycle dvaluation.
Produits finaux : rapport dvaluation dimpact, note de synthse politique
et bases de donnes
Le rapport nal dvaluation dimpact est le principal produit de lvaluation. Il est
rdig partir des donnes de suivi4. Le principal objectif du rapport dvaluation est
de prsenter les rsultats de lvaluation et de rpondre toutes les questions de
politique poses initialement. Par ailleurs, le rapport doit montrer que lvaluation
est fonde sur des estimations valides du contrefactuel et que les impacts identis
sont entirement attribuables au programme.
Le rapport dvaluation dimpact nal est un rapport exhaustif qui rsume lensemble des travaux accomplis dans le cadre de lvaluation et qui inclut une description dtaille de lanalyse des donnes et des spcications conomtriques ainsi
quune analyse des rsultats, des tableaux et des annexes. Lencadr13.3 prsente un
exemple de contenu dun rapport dvaluation dimpact. Il existe de nombreux bons

Production et diffusion des rsultats

215

exemples de rapports dvaluation dimpact, comme Maluccio et Flores (2005),


Levy et Ohls (2007) ou Skouas (2005) pour les programmes de transferts montaires conditionnels; Card et al. (2007) pour un programme de formation des jeunes;
Cattaneo et al. (2009) pour un programme de logement ; et Basinga et al. (2010) pour
un programme de paiement la performance dans le secteur de la sant.
Comme pour le rapport de rfrence, les valuateurs et analystes collaborent
pour produire le rapport nal dvaluation dimpact. Ils commencent par produire
une base de donnes contenant les donnes de rfrence, les donnes de suivi et les
donnes administratives sur la mise en uvre du programme, ainsi que les donnes
sur lassignation initiale aux groupes de traitement et de comparaison. Toutes ces
sources de donnes doivent tre croises et consolides en utilisant lidentiant
unique de chaque unit.
tant donn que le rapport nal dvaluation dimpact est le principal produit de
lvaluation, il doit passer en revue les informations cls du plan dvaluation et du
rapport de rfrence avant de passer lanalyse des rsultats. La section dintroduction du rapport nal doit prsenter la motivation pour lintervention et lvaluation

Encadr 13.3 : Exemple de structure dun rapport


dvaluation
1. Introduction
2. Description de lintervention (bnfices, rgles dligibilit, etc.)
2.1. Conception
2.2 Mise en uvre
3. Objectifs de lvaluation
3.1 Hypothses, thorie du changement, chane de rsultats
3.2 Questions de politique
3.3 Indicateurs de rsultat cls
4. Mthode dvaluation
4.1 Thorie
4.2 Pratique
5. chantillonnage et donnes
5.1 Stratgie dchantillonnage
5.2 Calculs de puissance
5.3 Donnes collectes
6. Validation de la mthode dvaluation
7. Rsultats
8. Tests de sensibilit
9. Conclusion et recommandations de politique

216

Lvaluation dimpact en pratique

puis dcrire lintervention (bnces et rgles dassignation), les objectifs de lvaluation (thorie du changement, principales questions de politique, hypothses et
indicateurs), la mthode dvaluation et la faon dont elle a t mise en uvre.
En gnral, linterprtation des rsultats dpend de la faon dont lintervention a
t mise en uvre. Le rapport dvaluation nal doit donc aborder en dtail la faon
dont lintervention a t mise en uvre. Ces informations peuvent tre prsentes
avant les rsultats, par exemple en dcrivant les donnes sur la mise en uvre du
programme obtenues partir des enqutes de suivi ou de sources administratives
complmentaires.
La section sur lchantillonnage et les donnes doit contenir une description de la
stratgie dchantillonnage et des calculs de puissance avant lanalyse dtaille des
donnes de rfrence et de suivi. Les indicateurs cls de qualit des donnes, comme
les taux de non-rponse et dattrition, doivent tre prsents pour chaque ronde de
donnes. Si ces taux sont levs, lanalyste doit expliquer dans quelle mesure ils peuvent affecter linterprtation des rsultats. Par exemple, il est essentiel de vrier si
les niveaux dattrition ou de non-rponse sont similaires dans les groupes de comparaison et de traitement.
Une fois les donnes dcrites, le rapport peut prsenter les rsultats pour chaque
question de politique ainsi que pour tous les indicateurs de rsultat identis dans
les objectifs de lvaluation. La structure de la prsentation des rsultats dpend du
type de questions de politique ltude. Par exemple, lvaluation vise-t-elle prouver la validit de diffrentes alternatives de conception de programme ou seulement
lefficacit dune intervention ? Cela intresse-t-il les dcideurs de savoir si les
impacts du programme varient entre diffrents sous-groupes? Pour les valuations
bien conues et bien mises en uvre, des rsultats rigoureux peuvent tre prsents
de manire intuitive.
Comme nous lavons mentionn, le rapport dvaluation dimpact doit tablir que
les impacts estims sont entirement attribuables au programme. Il doit donc comporter une tude approfondie de la validit de la mthode dvaluation, en commenant par prsenter les rsultats des tests de falsication effectus avec les donnes de
rfrence (encadr8.1, chapitre8), puis des tests ventuellement effectus partir
des donnes de suivi. Par exemple, si la mthode de la double diffrence est choisie,
certains des tests de falsication dcrits dans lencadr8.1 ne peuvent tre effectus
que si les donnes de suivi sont disponibles.
Lintroduction du rapport dvaluation doit numrer toute difficult rencontre
par la mthode dvaluation entre lenqute de rfrence et lenqute de suivi. Par
exemple, le manque dadhrence des participants au groupe de traitement ou au
groupe de comparaison a des implications importantes au niveau de lanalyse et de
linterprtation des rsultats et doit donc tre mentionn ds le dbut du rapport.

Production et diffusion des rsultats

217

Le rapport doit galement contenir des renseignements sur le nombre dunits assignes au groupe de traitement nayant pas bnci du programme et sur le nombre
dunits assignes au groupe de comparaison en ayant bnci. Lanalyse doit tre
ajuste pour prendre en compte toute diffrence observe par rapport lassignation
initiale (ces techniques sont dcrites dans la partie2).
En parallle aux tests sur la validit de la mthode dvaluation, le rapport nal
doit fournir une analyse approfondie de la nature, de la abilit et de la sensibilit
des rsultats. Il doit contenir une srie de tests de sensibilit portant sur la mthodologie dvaluation employe. Par exemple, si une mthode dappariement est utilise,
le rapport doit prsenter les rsultats de plusieurs techniques dappariement alternatives. Les analystes ont la responsabilit de dterminer et de prsenter les tests de
robustesse ncessaires lvaluation. La dernire partie du rapport doit fournir une
rponse claire toutes les questions de politique motivant lvaluation et prsenter
des recommandations de politique dtailles fondes sur les rsultats.
Il est particulirement important de comprendre comment lintervention a t
mise en uvre si les rsultats de lvaluation font tat dun impact limit ou ngatif.
Labsence de rsultats ou des rsultats ngatifs ne justient pas des sanctions lencontre du programme ou des valuateurs. Au contraire, ils constituent une occasion
dexpliquer clairement ce qui na pas fonctionn comme prvu, un lment essentiel
pour amliorer les programmes et politiques. Lorsque des signes indiquent que
lvaluation va produire des rsultats nuls ou ngatifs, il est particulirement important que lquipe dvaluation communique continuellement avec les dcideurs et
responsables du programme. Des valuations de processus ou des travaux qualitatifs
complmentaires peuvent contribuer expliquer la raison pour laquelle un programme na pas produit les rsultats escompts. Une absence de rsultats cause par
la mise en uvre imparfaite du programme doit tre diffrencie dune absence de
rsultats cause par un programme bien mis en uvre, mais mal conu5. En gnral,
les valuations dalternatives de conception dun mme programme sont les plus
utiles pour distinguer formellement les caractristiques qui fonctionnent ou pas.
Globalement, lanalyse nale des donnes doit gnrer des preuves convaincantes que les impacts dtects sont effectivement attribuables au programme. Pour
garantir lobjectivit et la lgitimit des rsultats, tous les rapports doivent faire lobjet dune revue critique externe et de consultations techniques rigoureuses avant
dtre naliss. Le contenu du rapport nal dvaluation dimpact peut par la suite
tre retravaill et publi dans un journal acadmique plus technique, renforant
ainsi la crdibilit des rsultats de lvaluation.

218

Lvaluation dimpact en pratique

Outre le rapport dvaluation complet, les valuateurs doivent produire une ou


plusieurs notes de synthse politique pour communiquer les rsultats aux dcideurs
et aux autres parties prenantes. La note de synthse politique prsente les principales conclusions de lvaluation sous forme de graphiques, de diagrammes ou
dautres formats lisibles, et rsume les recommandations de politique de lanalyse.
Elle contient galement un rsum des caractristiques techniques de lvaluation.
Elle peut tre rendue publique en format papier ou mise en ligne et diffuse aux
politiciens, la socit civile et aux mdias. De bons exemples de notes de synthse
politique se trouvent sur les sites Internet de Poverty Action Lab (JPAL) ou du
Rseau de dveloppement humain de la Banque mondiale (par exemple, Poverty
Action Lab2008; Rseau de dveloppement humain de la Banque mondiale2010).
Une base de donnes documente constitue le dernier produit majeur gnr par
une valuation dimpact. La documentation peut tre effectue laide doutils
comme le Microdata Management Toolkit de lInternational Household Survey
Network (http://www.ihsn.org). Les dcideurs et les valuateurs conviennent gnralement dun calendrier pour la ralisation de lanalyse et le partage des donnes
dvaluation. Il est important de mettre les donnes la disposition du public pour
assurer la transparence delvaluation. Ainsi, les rsultats peuvent aussi tre vris
et valids par des chercheurs indpendants. La diffusion publique des donnes
encourage dautres chercheurs effectuer des analyses supplmentaires, ce qui peut
gnrer de nouvelles informations et de nouveaux rsultats pertinents pour le programme. Lorsque les donnes sont rendues publiques, il est important de garantir
lanonymat de tous les sujets tudis. Toute information permettant didentier les
sonds (nom, adresse ou informations sur le lieu) doit tre supprime des bases de
donnes publies. Les renseignements personnels doivent tre traits de manire
condentielle et ne doivent servir que dans le cadre de nouvelles activits de collecte
de donnes dument autorises.

Diffusion des rsultats


Au-del de la simple production des rsultats, lobjectif des valuations dimpact est
de renforcer lefficacit des politiques publiques et de contribuer amliorer le bientre des populations. An de garantir que lvaluation dimpact est prise en compte
dans les dcisions de politique, il est essentiel dtablir une communication claire
entre toutes les parties prenantes (dcideurs, socit civile et mdias). Les valuations inuentes comprennent souvent un plan de diffusion dtaill qui dcrit la faon
dont les parties prenantes doivent tre informes et mobilises tout au long du cycle
dvaluation. Ce plan de diffusion peut faciliter la prise en compte des conclusions par
les dcideurs et garantir que lvaluation dimpact produise de vritables rsultats.
Ds les premires phases de la conception de lvaluation, les valuateurs peuvent tablir de solides canaux de communication avec les dcideurs. Comme nous

Production et diffusion des rsultats

219

lavons soulign dans notre prsentation des mthodes dvaluation, la conception


de lvaluation dpend directement de la conception et du mode de mise en uvre
du programme. Il est donc essentiel que les valuateurs externes et les dcideurs qui
commandent lvaluation collaborent troitement pendant la phase de conception
du programme. Si lquipe dvaluation est bien organise, il sera plus facile de faire
en sorte que lvaluation rponde aux besoins des dcideurs et les progrs et les
rsultats seront rgulirement communiqus ces derniers.
Le plan de diffusion doit noncer comment lquipe dvaluation contribuera
soutenir la demande pour les rsultats de lvaluation et assurer leur utilisation dans
les prises de dcisions. Les valuateurs doivent sensibiliser toutes les parties prenantes internes et externes en leur communiquant efficacement les rsultats tout au
long du cycle dvaluation. Au moment de lancer lvaluation, lorganisation dun atelier pralable avec les responsables du programme et les principales parties prenantes peut permettre dtablir un consensus sur les objectifs principaux, les
questions de politique cls et la mthode de lvaluation. Cest galement loccasion
de mener des consultations et dassurer que lvaluation rpond parfaitement aux
besoins des parties prenantes, en plus de les sensibiliser lvaluation et de renforcer
leur intrt pour les rsultats.
Pendant lvaluation, des runions rgulires dun comit interinstitutionnel ou
une table ronde permanente peuvent garantir que les travaux de lquipe dvaluation restent pertinents. Ces fora peuvent permettre dobtenir des commentaires et
des ractions sur des produits tels que les termes de rfrences, les instruments denqute, les modes de diffusion des rsultats ou la meilleure manire datteindre les
hauts responsables.
Il est important dorganiser des vnements de diffusion pour les produits intermdiaires, comme le rapport de rfrence, an dentretenir un dialogue actif avec les
utilisateurs de lvaluation. Prvoir des consultations sur le rapport de rfrence permet la fois de diffuser les rsultats intermdiaires pertinents et de continuer sensibiliser les parties prenantes sur les rsultats venir.
Avant de naliser le rapport dvaluation, certains valuateurs dcident dorganiser une dernire consultation pour donner aux parties prenantes la possibilit de
commenter les rsultats. Ces consultations peuvent contribuer amliorer la qualit
des rsultats et leur acceptation. Une fois que le rapport nal dvaluation dimpact
et les notes de synthse politique sont prts, des vnements de diffusion peuvent
tre organiss pour communiquer les rsultats toutes les parties prenantes. Un
atelier national de consultation et de diffusion runissant un grand nombre de parties prenantes est un bon moyen de discuter des rsultats, de recevoir des commentaires et de dnir les changements de politique qui pourraient tre entrepris sur
la base des rsultats. Cet atelier peut tre suivi dun atelier de diffusion destin aux
hauts responsables (voir encadr 13.4). En dehors du pays concern, les rsultats
peuvent tre diffuss loccasion de confrences, de sminaires ou dautres rencontres sils sont jugs utiles pour les politiques dautres pays. Dautres circuits de
diffusion innovants, comme les interfaces en ligne, peuvent permettre de renforcer
la visibilit des conclusions.

220

Lvaluation dimpact en pratique

Encadr 13.4 : Diffuser les rsultats dune valuation


pour amliorer les politiques
Lvaluation dune initiative de paiement la performance des prestataires de sant au
Rwanda donne un bon exemple de stratgie de diffusion efficace. Sous la direction du
ministre de la Sant, une quipe compose duniversitaires locaux et de spcialistes
de la Banque mondiale est charge de mener lvaluation. Diverses parties prenantes
participent lvaluation ds son lancement, ce qui se rvle essentiel pour garantir
son succs et un fort support politique tout au long de sa mise en uvre. Les rsultats
finaux de lvaluation (Basinga et al. 2010) sont prsents loccasion dun atelier public dune journe runissant de hauts responsables et plusieurs parties prenantes.
Grce ces canaux de communication, les conclusions influencent fortement la formulation de la politique de sant au Rwanda. Les rsultats sont galement diffuss
dans des confrences internationales sur la sant et par le biais dun site Internet.
Source : Morgan 2010.

Au nal, la diffusion des rsultats dune valuation dimpact conformment un


plan bien conu couvrant tout le cycle dvaluation est essentielle pour que les rsultats inuencent le dialogue politique. Les valuations dimpact ne peuvent remplir
leur objectif premier, savoir lamlioration de lefficacit des programmes de dveloppement, que si les rsultats sont partags avec les dcideurs et utiliss dans le
processus de prise de dcision.

Notes
1. Une valuation peut gnrer dautres produits intermdiaires. Par exemple,
des valuations qualitatives ou de processus fournissent de prcieuses informations complmentaires avant la rdaction du rapport dvaluation dimpact nal.
Nous nous concentrons ici sur le rapport de rfrence, car il constitue le
principal produit intermdiaire des valuations dimpact quantitatives qui
font lobjet de cet ouvrage.
2. Khandker et al. (2009) prsentent une introduction lvaluation qui comprend
une revue de lanalyse des donnes, y compris les commandes Stata correspondantes chaque mthode dvaluation dimpact.
3. Cette structure est indicative et peut tre adapte en fonction de la nature de
chaque valuation, par exemple en modiant lordre ou le contenu des diffrentes sections.

Production et diffusion des rsultats

221

4. Lorsque diffrentes rondes de donnes de suivi sont collectes, un rapport


dvaluation dimpact peut tre rdig pour chaque ronde, et les rsultats
peuvent tre compars pour dterminer comment les impacts du programme
varient au l du temps.
5. Comme nous lavons vu au chapitre1, cest la raison pour laquelle les essais
defficacit pilotes visant limiter les problmes de mise en uvre sont utiles
pour dterminer si un programme donn est efficace quand il se droule dans
des circonstances idales. Une fois la validation de principe documente, ltude
pilote peut tre tendue pour tre teste dans des conditions relles.

Rfrences
Basinga, Paulin, Paul J. Gertler, Agnes Binagwaho, Agnes L. B. Soucat, Jennifer R.
Sturdy et Christel M. J. Vermeersch. 2010. Paying Primary Health Care
Centers for Performance in Rwanda. Document de travail consacr la
recherchesur les politiques 5190, Banque mondiale, Washington, DC.
Card, David, Pablo Ibarraran, Ferdinando Regalia, David Rosas et Yuri Soares. 2007.
The Labor Market Impacts of Youth Training in the Dominican Republic:
Evidence from a Randomized Evaluation: Evidence from a Randomized
Evaluation. NBER Working Paper 12883, National Bureau of Economic
Research, Washington, DC.
Cattaneo, Matias, Sebastian Galiani, Paul Gertler, Sebastian Martinez et Rocio
Titiunik. 2009. Housing, Health and Happiness. American Economic Journal :
Economic Policy 1 (1): 75105.
Khandker, Shahidur R., Gayatri B. Koolwal et Hussain A. Samad. 2009. Handbook
on Impact Evaluation: Quantitative Methods and Practices. Washington DC:
Banque mondiale.
Levy, Dan et Jim Ohls. 2007. Evaluation of Jamaicas PATH Program: Final
Report. Ref. No. 8966-090, Mathematica Policy Research, Inc., Washington, DC.
Maluccio, John et Rafael Flores. 2005. Impact Evaluation of a Conditional Cash
Transfer Program: The Nicaraguan Red de Proteccion Social. Rapport de
recherche 141, Institut international de recherche sur les politiques alimentaires, Washington, DC.
Morgan, Lindsay. 2010. Signed, Sealed, Delivered? Evidence from Rwanda on the
Impact of Results-Based Financing for Health. Note de synthse politique
HRBF, Banque mondiale, Washington, DC.
Poverty Action Lab. 2008. Solving Absenteeism, Raising Test Scores. Policy
Briefcase 6. http://www.povertyactionlab.org.
Skouas, Emmanuel. 2005. PROGRESA and Its Impacts on the Welfare of Rural
Households in Mexico. Rapport de recherche 139, Institut international de
recherche sur les politiques alimentaires, Washington, DC.
Rseau de dveloppement humain de la Banque mondiale. 2010. Does Linking
Teacher Pay to Student Performance Improve Results? Notes de synthse
politique, srie1, Banque mondiale, Washington DC.
http://www.worldbank.org/hdchiefeconomist.
222

Lvaluation dimpact en pratique

CHAPITRE 14

Conclusion
Le prsent ouvrage est un guide pratique sur la conception et la mise en uvre
des valuations dimpact. Son contenu sadresse trois groupes de lecteurs :
1) les dcideurs qui exploitent les informations gnres par les valuations
dimpact, 2)les gestionnaires de projet et les professionnels du dveloppement qui
commanditent des valuations, et 3)les techniciens qui conoivent et mettent en
uvre des valuations dimpact. Lvaluation dimpact vise essentiellement
gnrer des preuves quant lefficacit ou linefficacit des politiques sociales. Une
valuation dimpact classique compare les rsultats en la prsence et en labsence
dun programme ltude. Les valuations dimpact peuvent galement permettre
dtudier diffrentes options de mise en uvre dun mme programme ou de comparer les performances de diffrents programmes.
Les valuations dimpact constituent, selon nous, un investissement justi
pour de nombreux programmes. Compltes par des mthodes de suivi et dautres
formes dvaluation, elles permettent de mieux comprendre lefficacit des politiques sociales. Nous avons prsent diffrentes mthodes dvaluation dimpact
ainsi que leurs avantages et leurs inconvnients en termes de mise en uvre,
dconomie politique, de contraintes nancires et dinterprtation des rsultats.
Nous avons montr quune bonne mthode est une mthode qui sadapte au
contexte oprationnel et non le contraire. Enn, nous avons formul des conseils
pratiques et pass en revue des outils qui visent faciliter la conduite dune valuation et lexploitation de ses rsultats.

223

Les valuations dimpact sont des entreprises complexes ncessitant la coordination de nombreux partenaires et activits. La liste suivante contient un rsum des
principaux lments qui caractrisent une bonne valuation dimpact :
Une question de politique concrte (fonde sur une thorie du changement)
laquelle lvaluation dimpact peut fournir une rponse
Une stratgie didentication (ou mthodologie dvaluation) valide, compatible
avec les rgles oprationnelles du programme, qui illustre la relation causale
entre le programme et les rsultats ltude
Un chantillon avec une puissance suffisante pour dtecter des impacts signicatifs du point de vue politique et un chantillon reprsentatif qui permet de gnraliser les rsultats une population plus tendue
Une base de donnes de qualit fournissant les variables requises pour lanalyse,
incluant la fois des donnes de rfrence et des donnes de suivi, tant pour le
groupe de traitement que pour le groupe de comparaison
Une quipe dvaluation bien organise qui travaille en troite collaboration avec
les dcideurs et gestionnaires du programme
Un rapport dimpact et des notes de synthse politique diffuss rapidement au
public cible, qui fournissent des informations pertinentes pour la conception du
programme et qui alimentent les dialogues de politique.
Nous soulignons ci-aprs quelques conseils formuls dans cet ouvrage pour limiter
les risques auxquels les valuations dimpact font souvent face :
Il est largement prfrable de concevoir lvaluation dimpact au dbut du cycle
de projet dans le cadre de la conception du programme. Une planication mene
suffisamment tt permet de concevoir une valuation prospective fonde sur la
meilleure mthodologie et laisse le temps ncessaire pour collecter des donnes
de rfrence avant le lancement du programme dans les zones values.
Les rsultats doivent tre tays par des donnes complmentaires provenant
dvaluations de processus et de donnes de suivi qui fournissent une image
claire de la mise en uvre du programme. Si un programme est efficace, il est
important de comprendre pourquoi. Si un programme choue, il est important de
pouvoir distinguer entre un programme mal mis en uvre et un programme
mal conu.
Collectez des donnes de rfrence et intgrez une mthode de rechange
votre plan dvaluation. Si la mthode dvaluation initialement prvue nest
pas valide (par exemple si le groupe de comparaison initial bncie du programme), un plan de rechange peut viter de devoir renoncer entirement
lvaluation.

224

Lvaluation dimpact en pratique

Conservez un identiant unique pour chaque unit dans toutes les bases de donnes an de pouvoir exploiter facilement toutes les ressources disponibles au
moment de lanalyse. Par exemple, un mnage donn doit avoir le mme identiant tant dans les systmes de suivi que dans les enqutes de rfrence et de suivi.
Les valuations dimpact sont utiles aussi bien pour comprendre comment un
programme fonctionne et prouver diffrentes alternatives de conception de
programmes que pour valuer limpact global dun programme au bnce
unique. La dsagrgation des divers lments dun programme, mme universel
et trs tendu, peut tre un excellent moyen dapprendre et de tester des innovations dans le cadre dvaluations dimpact bien conues. Le dveloppement dune
innovation en tant que projet pilote petite chelle dans le contexte dune valuation plus tendue peut fournir de prcieuses informations pour les prises de
dcision futures.
Les valuations dimpact doivent tre pleinement considres comme lune des
composantes du programme ; il faut y consacrer le personnel et le budget adquats ainsi que des ressources techniques et nancires suffisantes. Soyez raliste quant aux cots et la complexit que reprsente une valuation dimpact.
La conception de lvaluation et la collecte des donnes de rfrence peuvent
durer environ un an. Une fois le programme lanc, il faut une priode dexposition suffisante avant que lintervention naffecte les rsultats. Selon le programme, cette priode peut stendre entre un cinq ans, voire plus. La collecte
dune ou de plusieurs enqutes de suivi, la ralisation des analyses et la diffusion des rsultats ncessitent galement des efforts importants sur plusieurs
mois. Un cycle dvaluation dimpact complet ncessite gnralement au moins
trois ou quatre ans defforts soutenus. Des ressources nancires et techniques
adquates sont ncessaires chaque tape du processus.
Au nal, les valuations dimpact fournissent des rponses concrtes des questions
de politique spciques. Mme si les rponses sont tailles en fonction des besoins
de lentit qui commandite et nance lvaluation, dautres organismes travers le
monde peuvent en tirer des enseignements et les utiliser dans leurs propres prises de
dcisions. Par exemple, plusieurs rcents programmes de transferts montaires
conditionnels en Afrique, en Asie et en Europe ont tir des enseignements des valuations novatrices des programmes Familias en Accin (Colombie), Progresa
(Mexique) et dautres programmes de transferts montaires mis en uvre en Amrique latine. Dans ce sens, les valuations dimpact peuvent tre considres comme
un bien public global. Les conclusions dune valuation alimentent les connaissances
globales sur le sujet en question. Cet ensemble de preuves peut par la suite tre utilis par dautres pays et dans dautres contextes pour formuler des dcisions de politique claires. Dans ce sens, la communaut internationale renforce de plus en plus
son support aux initiatives dvaluations rigoureuses.

Conclusion

225

lchelle nationale, les gouvernements les plus avertis et exigeants cherchent


dmontrer leurs citoyens les rsultats obtenus et rendre des comptes des performances de leurs politiques. Il est de plus en plus frquent que des valuations soient
ralises par des ministres nationaux ou des entits locales spcialement crs
pour coordonner un programme dvaluation national, limage du Conseil national
dvaluation de la politique de dveloppement social (CONEVAL) au Mexique et du
Dpartement de suivi et dvaluation de la performance en Afrique du Sud. De plus
en plus, les conclusions et les preuves gnres par les valuations dimpact sont
prises en compte pour informer les dcisions budgtaires des congrs nationaux.
Dans les systmes o les programmes sont valus sur la base de preuves tangibles
en fonction de leurs impacts sur des rsultats naux, les programmes qui gnrent
des donnes positives pourront tre soutenus tandis que ceux qui produisent peu
dinformations sur leur efficacit auront du mal trouver des nancements.
Les institutions multilatrales comme la Banque mondiale et les banques de
dveloppement rgionales ainsi que les agences de dveloppement nationales, les
tats donateurs et les organismes philanthropiques exigent eux aussi des preuves
plus nombreuses et plus concrtes sur lefficacit des ressources de dveloppement.
Ces preuves sont un moyen de rendre compte aux organismes prteurs ou donateurs
de la performance des politiques mises en uvre et dorienter les prises de dcisions
concernant lallocation des ressources de dveloppement. Le nombre dvaluations
dimpact ralises par les institutions de dveloppement a fortement augment au
cours des dernires annes. La gure 14.1 indique le nombre dvaluations dimpact
en cours ou effectues par la Banque mondiale entre 2004 et 2010, par rgion. Cette
tendance positive devrait se maintenir.
Un nombre croissant dinstitutions spcialises dans la ralisation dvaluations
dimpact de qualit prosprent, notamment dans la sphre universitaire, limage de
Poverty Action Lab, dInnovations for Poverty Action, du Center of Evaluation for
Global Action ou des organismes indpendants qui soutiennent les valuations dimpact comme lInternational Initiative for Impact Evaluation. Plusieurs associations
dvaluation dimpact regroupent des spcialistes, des chercheurs et des dcideurs
intresss par ce thme, parmi lesquelles le Network of Networks on Impact Evaluation et des associations rgionales comme lAfrican Evaluation Association et le
Rseau dvaluation dimpact de la Latin American and Caribbean Economics Association. Tous ces efforts illustrent limportance croissante de lvaluation dimpact
dans la politique de dveloppement international1.
Par consquent, que vous soyez un professionnel de lvaluation dimpact, que
vous commanditiez des valuations dimpact ou que vous exploitiez leurs rsultats
pour vos prises de dcision, il est aujourdhui indispensable pour tout spcialiste du
dveloppement de comprendre le langage qui y est associ. Les preuves rigoureuses
gnres par les valuations dimpact constituent un catalyseur du dialogue sur les
politiques de dveloppement et contribuent justier le bien-fond des dcisions
dinvestissement dans des programmes et des politiques de dveloppement.

226

Lvaluation dimpact en pratique

Figure 14.1 Nombre dvaluations dimpact effectues


par la Banque mondiale par rgion, 2004 2010

Nombre dvaluations
dimpact en cours

350
300
250
200
150
100
50
0
2004

2005

2006

2007

2008

2009

2010

Asie du Sud
Moyen-Orient et Afrique du Nord
Amrique latine et Carabes
Europe et Asie centrale
Asie de lEst et Pacifique
Afrique
Source : Banque mondiale.

Les conclusions des valuations dimpact permettent aux gestionnaires de projet de


prendre des dcisions claires sur la faon datteindre les rsultats viss de la
manire la plus rentable. Forts de ces conclusions, les dcideurs peuvent boucler la
boucle en intgrant les rsultats des valuations au processus de prise de dcision.
Ce type de preuves peut mieux informer les dbats, les opinions et, au nal, les dcisions dallocation de ressources humaines et montaires prises par les gouvernements, les institutions multilatrales et les donateurs.
Llaboration de politiques fondes sur des preuves consiste essentiellement
reprogrammer les budgets pour tendre les programmes rentables, rduire les programmes inefficaces et amliorer la conception des programmes en se fondant sur
les meilleures donnes disponibles. En ce sens, lvaluation dimpact nest pas un
exercice purement thorique. Elle rpond au besoin de trouver des rponses des
questions de politique affectant la vie quotidienne des populations. Les dcisions sur
la manire optimale dallouer des ressources limites des programmes de lutte
contre la pauvret, de sant, dducation, de scurit sociale, de microcrdit, de
dveloppement agricole, etc. ont le potentiel damliorer le bien-tre des populations travers le monde. Il est essentiel que ces dcisions soient fondes sur les
informations et les preuves les plus rigoureuses possible.

Conclusion

227

Note
1. Pour en savoir plus, voir Savedoff, Levine et Birdsall (2006).

Rfrences
Legovini, Arianna. 2010. Development Impact Evaluation Initiative: A World
BankWide Strategic Approach to Enhance Development Effectiveness.
Rapport prliminaire aux Vice-prsidents, Oprations, Banque mondiale,
Washington, DC.
Savedoff, William, Ruth Levine et Nancy Birdsall. 2006. When Will We Ever
Learn? Improving Lives through Impact Evaluation. CGD Evaluation Gap
Working Group Paper, Center for Global Development, Washington, DC.
http://www.cgdev.org/content/publications/detail/7973.

228

Lvaluation dimpact en pratique

GLOSSAIRE

Les termes en italique sont dnis dans le prsent glossaire.


Activit. Actions prises ou travaux raliss travers lesquels des intrants, comme des fonds,
de lassistance technique ou dautres types de ressources, sont mobiliss pour produire des
extrants.
Analyse cot bnfice (ou analyse cot avantage). Calcul ex ante des cots et des bnces esprs, servant valuer des propositions de projets. Dans le cadre dune valuation
dimpact, on peut calculer les cots et bnces ex post si les bnces sont quantiables en
termes montaires et que des donnes sur les cots sont disponibles.
Appariement ( matching ). Lappariement est une mthode dvaluation non exprimentale o lon constitue le meilleur groupe de comparaison possible pour un groupe de traitement donn laide de grandes bases de donnes et de techniques statistiques complexes.
Attrition. Une attrition se produit lorsquil y a une dperdition de certaines units de
lchantillon dune ronde lautre de la collecte des donnes; par exemple si les migrants ne
sont pas suivis. Lattrition est un cas de non-rponse totale ou unitaire. Lattrition peut causer
un biais dans les valuations dimpact lorsquelle est corrle avec le traitement.
Biais. Le biais dun estimateur est la diffrence entre la valeur espre du paramtre estim
et la valeur relle de ce dernier. Dans le cadre dune valuation dimpact, il sagit de la diffrence entre limpact calcul et limpact rel du programme.
Biais de slection. Le biais de slection se produit lorsque les raisons pour lesquelles un
individu participe au programme sont corrles aux rsultats. Ce biais se produit souvent
lorsque le groupe de comparaison est constitu dindividus qui ne sont pas ligibles pour participer au programme ou qui choisissent volontairement de ne pas y participer.
Cadre dchantillonnage (ou base dchantillonnage). La liste la plus exhaustive quon
puisse obtenir des units constituant une population ltude. Toute diffrence entre le cadre
dchantillonnage et la population ltude donne lieu un biais dchantillonnage (biais de
couverture). Si un biais de couverture existe, les rsultats obtenus partir de lchantillon
nont pas de validit externe pour lensemble de la population ltude.

229

Calculs de puissance. Les calculs de puissance indiquent la taille que doit avoir lchantillon
pour dtecter leffet minimal dsir dans une valuation. Les calculs de puissance dpendent
de paramtres comme la puissance (ou la probabilit dune erreur de type II), le seuil de signication, la variance et la corrlation intra-grappe du rsultat ltude.
Chane de rsultats. Une chane de rsultats dcrit la logique de ralisation des objectifs de
dveloppement dun programme. Elle montre les liens entre les intrants et les rsultats en
passant par les activits et les extrants.
Comparaison avant-aprs. galement appele comparaison pr-post et comparaison
rexive, la comparaison avant-aprs vise valuer limpact dun programme en procdant
un suivi de lvolution des rsultats obtenus par les participants au programme au l du
temps, en particulier en comparant les rsultats avant et aprs sa mise en uvre.
Contrefactuel. Le contrefactuel est une estimation de ce quaurait t le rsultat (Y) pour un
participant au programme en labsence du programme (P). Par dnition, le contrefactuel
nest pas observable. Il faut donc lestimer en recourant des groupes de comparaison.
Corrlation intra-grappe. La corrlation intra-grappe est la corrlation (ou lassociation)
des rsultats ou des caractristiques entre les units dune mme grappe. Par exemple, les
enfants qui frquentent la mme cole proviennent dordinaire de la mme zone dhabitation
ou du mme milieu socioconomique, ce qui implique une source de corrlation.
Donnes denqute. Donnes qui correspondent un chantillon de la population ltude.
Se diffrencie des donnes de recensement.
Donnes de recensement. Donnes qui recouvrent toutes les units de la population
ltude. Se diffrencie des donnes denqute.
Double Diffrence. galement appele diffrence des diffrences ou DD. La double
diffrence estime le contrefactuel pour le changement du rsultat dans le groupe de traitement
par le changement du rsultat dans le groupe de comparaison. Cette mthode permet de
prendre en compte toute diffrence entre le groupe de traitement et le groupe de comparaison qui est invariable dans le temps. Les deux diffrences sont donc celle de lavant et de
laprs, et celle entre le groupe de traitement et le groupe de comparaison.
chantillon. En statistique, un chantillon est un sous-ensemble dune population. En rgle
gnrale, la taille de la population est trs grande, ce qui rend son recensement, cest--dire
une numration exhaustive de toutes ses units, impraticable ou impossible. Les chercheurs
prlvent la place laide dun cadre dchantillonnage un sous-ensemble reprsentatif de
la population, et recueillent des statistiques pour cet chantillon. Ces statistiques permettent
alors dinfrer ou dextrapoler les paramtres pour lensemble de la population. Le processus
par lequel lchantillon est obtenu de la population ltude sappelle lchantillonnage.
chantillon alatoire. La meilleure faon dviter quun chantillon soit biais ou non
reprsentatif est de le prlever de faon alatoire. Un chantillon alatoire est un chantillon
probabiliste pour lequel toutes les units de la population ltude ont la mme probabilit
dtre slectionnes.
chantillon par grappes. chantillon obtenu par le prlvement dun chantillon alatoire
de grappes, aprs quoi soit lensemble des units des grappes slectionnes constitue
lchantillon, soit un certain nombre dunits est slectionn de manire alatoire dans
chaque grappe prleve. Chaque grappe a une probabilit bien dnie dtre slectionne,
et les units slectionnes de chaque grappe ont elles aussi une probabilit bien dnie
dtre prleves.
230

Lvaluation dimpact en pratique

chantillon stratifi. chantillon obtenu en rpartissant la population ltude (cadre


dchantillonnage) en strates ou groupes (p. ex. groupe dhommes et groupe de femmes), et en
prlevant ensuite un chantillon alatoire pour chaque groupe. Un chantillon strati est un
chantillon probabiliste, cest--dire que toutes les units dun mme groupe (ou strate) ont
la mme probabilit dtre prleves.
chantillonnage. Processus par lequel des units sont prleves du cadre dchantillonnage
obtenu pour la population ltude (univers). Il existe plusieurs procdures dchantillonnage. Les mthodes dchantillonnage probabilistes sont les plus rigoureuses, car elles attribuent chaque unit une probabilit bien dnie dtre prleve. Lchantillonnage alatoire,
lchantillonnage alatoire strati et lchantillonnage par grappes sont toutes des mthodes
dchantillonnage probabiliste. Les chantillonnages non probabilistes, comme lchantillonnage par jugement et lchantillonnage de convenance, peuvent mener des erreurs dchantillonnage.
Effet. Changement intentionnel ou non d directement ou indirectement une intervention.
Effet Hawthorne. Leffet Hawthorne se produit lorsque les units changent de comportement du fait mme dtre observes.
Effet John Henry. Leffet John Henry se produit lorsque les units de comparaison font des
efforts supplmentaires pour compenser labsence du traitement. Lorsque lon compare les
units de traitement aux units de comparaison qui font des efforts supplmentaires, limpact
estim du programme est biais ; cest--dire que limpact estim est moindre que celui quon
observerait si les units de comparaison navaient pas fait deffort supplmentaire.
Effet minimal dsir. Le changement minimal des rsultats qui justierait linvestissement
consenti dans une intervention, prenant en compte non seulement le cot du programme et
ses bnces, mais aussi son cot dopportunit (les fonds nayant pas t investis ailleurs).
Leffet minimal dsir est un paramtre qui entre dans les calculs de puissance: les chantillons dvaluation doivent tre de taille suffisante pour permettre de dtecter leffet minimal
dsir une certaine puissance.
Effets de diffusion (ou effets de dbordements ou spillover ). galement appel
contamination sils affectent le groupe de comparaison. Leffet de diffusion se produit lorsque
le groupe de comparaison est affect par le traitement administr au groupe de traitement,
mme si le traitement nest pas directement administr au groupe de comparaison. Si leffet
de diffusion sur le groupe de comparaison est ngatif, cest--dire si le programme nuit ce
groupe, la diffrence directe entre les rsultats du groupe de traitement et ceux du groupe de
comparaison produit une surestimation de limpact du programme. Par contre, si leffet de
diffusion sur le groupe de comparaison est positif, cest--dire si le programme est bnque
pour ce groupe, le rsultat est alors une sous-estimation de limpact du programme.
Enqute de suivi. galement appele enqute post-intervention ou enqute ex post.
Enqute qui est ralise aprs le dmarrage du programme, aprs que les participants ont
bnci du programme. Une valuation dimpact peut comprendre plusieurs enqutes
de suivi.
Erreur de type I. Erreur commise en rejetant lhypothse nulle alors quelle est valable. Dans
le contexte dune valuation dimpact, une erreur de type I est commise lorsquune valuation
conclut quun programme a un impact, cest--dire que lhypothse nulle selon laquelle il ny
a aucun impact est rejete, alors que le programme na, en ralit, aucun impact, et que
lhypothse nulle est donc valable. Le seuil de signication dtermine la probabilit de commettre une erreur de type I.
Glossaire

231

Erreur de type II. Erreur commise en acceptant (en ne rejetant pas) lhypothse nulle alors
que celle-ci nest pas valable. Dans le contexte dune valuation dimpact, une erreur de
type II est commise lorsquune valuation conclut quun programme na aucun impact,
cest--dire que lhypothse nulle selon laquelle il ny a aucun impact nest pas rejete, alors
que le programme a, en ralit, un impact, et que lhypothse nulle nest donc pas valable.
La probabilit de commettre une erreur de type II est gale 1 moins la puissance.
Estimateur. Un estimateur est une statistique (une fonction des donnes observe dun
chantillon observables) qui sert estimer un paramtre inconnu de la population. Lestimation est le rsultat de lapplication de la fonction un chantillon de donnes.
Estimateur de lintention de traiter ou de lIDT. Lestimateur de lIDT est la simple diffrence entre lindicateur de rsultat Y pour le groupe auquel on a offert le traitement et le
mme indicateur pour le groupe auquel on na pas offert le traitement. Se diffrencie de leffet
du traitement sur les traits.
valuation. Les valuations sont des apprciations priodiques et objectives de projets ou
de programmes ou de politiques prvus, en cours de ralisation ou raliss. Les valuations
fournissent des informations sur des questions prcises, souvent lies la conception, la
mise en uvre et aux rsultats.
valuation dimpact. Une valuation dimpact est une valuation qui tente dtablir un lien
causal entre un programme et des indicateurs de rsultats. Une valuation dimpact tente de
savoir si le programme est directement responsable de changements dans les indicateurs de
rsultats ltude. Se diffrencie de lvaluation de processus.
valuation de processus. Une valuation de processus tente de dterminer la qualit ou le
degr de performance des processus dun programme, comme ladquation des procdures
administratives, lacceptabilit des bnces dun programme, la clart dune campagne dinformation, les mcanismes internes des organismes de mise en uvre, leurs moyens daction,
leurs dispositifs de prestation de service, leurs pratiques de gestion. Se diffrencie de
lvaluation dimpact.
Extrant. Les biens ou services qui sont produits ou offerts directement par une intervention.
Les extrants comprennent parfois des changements dcoulant de lintervention et qui contribuent lobtention des rsultats.
Grappe. Une grappe est un groupe dunits qui se ressemblent dune faon ou dune autre.
Dans un chantillonnage dcoliers, par exemple, les enfants qui se rendent la mme cole
appartiennent une mme grappe car ils frquentent les mmes installations scolaires, ils
disposent des mmes enseignements et ils habitent le mme quartier.
Groupe de comparaison. galement appel groupe de contrle ou groupe tmoin
dans le cadre dun essai contrl randomis. Un groupe de comparaison valable a les mmes
caractristiques que le groupe de participants au programme (groupe de traitement), la
seule exception que les units du groupe de comparaison ne participent pas au programme.
Les groupes de comparaison servent estimer le contrefactuel.
Groupe de traitement. galement appel groupe dintervention. Le groupe de traitement
est le groupe des units qui bncient dune intervention, tandis que le groupe de comparaison nen bncie pas.
Hypothse. Une hypothse est une explication avance dun phnomne observable. Voir
galement hypothse nulle et hypothse alternative.

232

Lvaluation dimpact en pratique

Hypothse alternative. Dans une valuation dimpact, lhypothse alternative suppose


gnralement que lhypothse nulle est fausse, cest--dire que lintervention a un impact sur
les rsultats.
Hypothse nulle. Une hypothse nulle est une hypothse falsiable en utilisant des donnes
observables. Lhypothse nulle postule gnralement une position par dfaut. Dans le cadre
dune valuation dimpact, la position par dfaut est gnralement quil ny a aucune diffrence entre le groupe de traitement et le groupe de comparaison ou, en dautres termes, que
lintervention na aucun impact sur les rsultats.
Indicateur. Un indicateur est une variable qui mesure un phnomne ltude. Le phnomne peut tre un intrant, un extrant, un rsultat, une caractristique ou un attribut.
Intrants. Les ressources nancires, humaines et matrielles utilises par une intervention
ou un programme.
Ligne de base (ou enqute de rfrence). Pr-intervention, ex ante. La situation qui
prvaut avant lintervention, par rapport laquelle lvolution est mesure et les comparaisons sont faites. La ligne de base (ou enqute de rfrence) est collecte avant la mise en
uvre du programme ou de la politique valuer an dobtenir une mesure des rsultats en
amont.
Mthodes de slection alatoire. Les mthodes de slection alatoire dsignent un
ensemble de mthodes o la slection alatoire est employe pour estimer le contrefactuel.
On compte notamment parmi ces mthodes lassignation alatoire du traitement, loffre alatoire du traitement et la promotion alatoire.
Modle de discontinuit de la rgression. Le modle de discontinuit de la rgression est
une mthode dvaluation non exprimentale. Elle convient aux programmes qui utilisent un
indice continu pour classier les participants potentiels et un seuil bien dni pour identier
les bnciaires. Le seuil dligibilit au programme est un seuil qui spare le groupe de traitement et le groupe de comparaison.
Non-rponse. Labsence ou le manque de donnes pour certaines units dun chantillon
constituent une non-rponse. La non-rponse unitaire se produit lorsquon ne possde
aucune information pour certaines units de lchantillon ; cest--dire quand lchantillon
prlev est diffrent de lchantillon prvu. Lattrition est une forme de non-rponse unitaire
ou totale (unit non-response). La non-rponse partielle (item non-response) se produit lorsque les donnes sont incompltes pour certaines units prleves. La non-rponse
peut crer un biais dans les rsultats de lvaluation si elle est corrle avec le traitement.
Offre alatoire. Loffre alatoire est une mthode qui permet de dterminer limpact dune
intervention. Lintervention est offerte aux personnes ligibles de manire alatoire de faon
ce quelles aient toutes la mme chance de participer au programme. Mme si ladministrateur du programme peut slectionner au hasard, parmi toutes les units ligibles, celles qui
offrir le traitement, il ne peut parfois pas obtenir une conformit absolue. Il ne peut pas forcer une unit participer ou accepter, ni refuser la participation une unit qui insiste pour
participer. Dans ce contexte, loffre alatoire du programme sert de variable instrumentale
pour la participation relle au programme.
Population ltude. Le groupe dunits qui est ligible pour recevoir lintervention ou du
traitement. La population ltude est parfois appele univers.

Glossaire

233

Promotion alatoire. La promotion alatoire est une mthode proche de celle de loffre alatoire. Au lieu de slectionner au hasard les units auxquelles on offre le traitement, les units
sont slectionnes au hasard pour recevoir une promotion et ainsi augmenter la probabilit
quelles participent au traitement. De cette faon, le programme demeure ouvert tous.
Puissance. La puissance est la probabilit dobserver un impact sil existe. La puissance dun
test est gale un moins la probabilit dune erreur de type II, allant de zro un. La puissance
varie le plus souvent entre 0,8 et 0,9. Les valeurs leves de la puissance sont plus conservatrices. Elles rduisent le risque des erreurs de typeII. La puissance dune valuation dimpact
est leve si le risque de ne pas observer dimpacts, cest--dire de commettre une erreur de
typeII, est faible.
Puissance statistique. La puissance dun test statistique est la probabilit que le test aboutisse au rejet de lhypothse nulle lorsque lhypothse alternative est valable (cest--dire quaucune erreur de typeII nest commise). Le risque de commettre une erreur de typeII dcroit au
fur et mesure que la puissance augmente. La probabilit de commettre une erreur de typeII
est dsigne par le taux de faux-ngatif (). La puissance est donc gale 1 .
Rapport cot-efficacit. Pour dterminer le rapport cot-efficacit, il faut comparer des
interventions similaires sur les plans du cot et de lefficacit. Ainsi, les valuations dimpact
de divers programmes ducatifs permettent aux dcideurs de prendre des dcisions claires
sur lintervention qui permet de produire les rsultats souhaits au moindre cot et en fonction des contraintes qui sont les leurs.
Rgression. En statistique, lanalyse de rgression comprend lensemble des techniques
pour modliser et analyser plusieurs variables en considrant le lien entre une variable
dpendante et une ou plusieurs variables indpendantes. Dans lvaluation dimpact, lanalyse de rgression permet de comprendre comment lindicateur de rsultat Y (variable dpendante) volue en fonction de laffectation au traitement, ou groupe de comparaison P, (variable
indpendante) alors que les caractristiques des participants (variables indpendantes) ne
changent pas.
Rsultat. Intermdiaire ou nal. Un rsultat est le produit de linteraction entre des facteurs
doffre et de demande. Par exemple, si une intervention renforce loffre des services de vaccination, le nombre de vaccinations constitue alors un rsultat, celui-ci ne dpendant pas seulement de loffre en vaccins, mais aussi du comportement des personnes cibles: se rendent-elles
au centre de vaccination pour se faire vacciner ? Les rsultats naux et les rsultats long
terme sont plus distants, soit dans la dimension temporelle (une longue priode est ncessaire
pour arriver au rsultat), soit dans la dimension causale (un grand nombre de liens de cause
effet sont ncessaires pour atteindre le rsultat).
Slection alatoire (ou essai contrl randomis). La slection alatoire est considre
comme la mthode la plus rigoureuse pour estimer le contrefactuel. Elle est souvent dcrite
comme ltalon-or de lvaluation dimpact. Les bnciaires de lintervention sont slectionns au hasard parmi la population ligible. Tous les individus ligibles ont donc la mme
chance de participer au programme. Avec des chantillons de taille suffisante, la slection
alatoire garantit que les caractristiques, observes et non observes des groupes de traitement et de contrle soient semblables, liminant ainsi le biais de slection.

234

Lvaluation dimpact en pratique

Seuil de signification. Le seuil de signication est gnralement dsign par la lettre


grecque (alpha). Les seuils de signication les plus courants sont 5% (0,05), 1% (0,01) et
0,1% (0,001). Si un test de signication produit une valeur p infrieure au seuil , lhypothse
nulle est rejete. Un tel rsultat est quali de manire informelle comme tant statistiquement signicatif. Plus le seuil de signication est petit, plus la preuve requise doit tre forte.
Le choix du seuil de signication est arbitraire. Mais le seuil de 5% est conventionnel.
Suivi. Le suivi est un processus continu de collecte et danalyse dinformations dans le but de
dterminer la performance du projet, du programme ou de la politique mis en uvre. Ce processus sappuie essentiellement sur les donnes administratives pour comparer la performance effective aux rsultats esprs, les programmes entre eux et pour analyser leurs
tendances dans le temps. Le suivi se concentre gnralement sur les intrants, les activits et
les extrants, ainsi quoccasionnellement les rsultats. Le suivi est utile pour la gestion quotidienne du programme.
Traitement sur les traits (effet du). galement appel estimateur TT. Leffet du traitement
sur les traits dsigne limpact du traitement sur les units qui ont effectivement reu le traitement. Se diffrencie de lintention de traiter.
Validit externe. Lestimation de limpact causal du programme a une validit externe si
elle est gnralisable lunivers de toutes les units ligibles. Pour quune valuation ait une
validit externe, lchantillon de lvaluation doit tre reprsentatif de lunivers des units
ligibles.
Validit interne. Une valuation dimpact a une validit interne si elle se fonde sur un groupe
de comparaison valide, cest--dire un groupe de contrle qui fournit une estimation valide du
contrefactuel.
Variable. Dans la terminologie statistique, une variable est un symbole qui reprsente une
valeur changeante.
Variable instrumentale. Une variable instrumentale est une variable qui permet destimer
limpact causal dun programme lorsque la participation au programme est dtermine en
partie par les participants potentiels. Pour tre considre comme une variable instrumentale
valable, une variable doit possder deux caractristiques : 1) elle doit tre corrle avec la
participation au programme, et 2) elle ne doit pas tre corrle avec les rsultats Y (sauf
travers la participation au programme), ni avec les variables non observes.

Glossaire

235

ECO-CONTRLE
Dclaration davantages environnementaux
La Banque Mondiale a pris lengagement de
prserver les forts et les ressources naturelles. La maison ddition a dcid dimprimer
Levaluation dimpact en practique sur du papier
recycl comprenant 50 pourcent de papier dj
utilis, selon les standards recommands par
Green Press Initiative, un programme but non
lucratif incitant les maisons ddition utiliser
du bois qui ne provienne pas de forts en danger.
Pour plus dinformations, vous pouvez visiter
www.greenpressinitiative.org.

Sauvs:
8 arbres
2 millions BTU
327 kg deffet de serre net
13.128 litres deau use
96 kg de dchets solides

Cet ouvrage constitue un guide pratique, complet et clair sur lvaluation dimpact. Son contenu,
quitraitedes raisons de procder des valuations dimpact, des avantages des diffrentes mthodologies,
en passant par les calculs de puissance et les cots, est prsent de manire trs claire et couvre un grand
nombre de domaines. Ce manuel deviendra un guide de rfrence incontournable et inuencera
llaboration des politiques pour les annes venir.
Orazio Attanasio, Professor of Economics, University College London; Director, Centre for the Evaluation
of Development Policies, Institute for Fiscal Studies, Royaume-Uni.
Ce prcieux ouvrage sadresse celles et ceux qui visent mener des valuations dimpact dans les pays
en dveloppement. Il dcrit les enjeux conceptuels et pratiques des valuations en sappuyant sur
des exemples tirs dexpriences rcentes.
Michael Kremer, Gates Professor of Developing Societies, Department of Economics, Harvard University,
tats-Unis.
Les ingrdients de base indispensables la russite des valuations de politiques publiques sont
a)des mthodologies appropries, b)la capacit rsoudre des problmes pratiques tels que la collecte
dedonnes, les limites budgtaires ou la rdaction du rapport nal et c)la responsabilisation des
gouvernements. Cet ouvrage prsente des outils mthodologiques solides pour valuer limpact des
programmes publics. Il expose aussi de nombreux exemples et nous emmne au cur de la mise en uvre
des valuations dimpact, de ltape qui consiste convaincre les dcideurs celle de la diffusion des
rsultats. Si davantage de praticiens et de dcideurs lisent ce manuel, nous aurons de meilleures politiques
et de meilleurs rsultats dans de nombreux pays. Si les gouvernements se responsabilisent aussi davantage,
limpact de ce manuel nen sera que plus important.
Gonzalo Hernndez Licona, Executive Secretary, National Council for the Evaluation of Social
Development Policy (CONEVAL), Mexique.
Je recommande cet ouvrage comme un guide clair et accessible pour faire face aux ds pratiques
ettechniques inhrents la conception des valuations dimpact. Le manuel est fond sur des ressources
prouves lors dateliers conduits travers le monde et constitue une rfrence utile tant pour les
praticiens, que pour les dcideurs ou les valuateurs.
Nick York, Head of the Evaluation Department, Department for International Development,
Royaume-Uni.
La connaissance est un atout essentiel pour comprendre la nature complexe du processus de
dveloppement. Les valuations dimpact contribuent combler le foss entre lintuition et les preuves
et ainsi amliorer llaboration de politiques publiques. Cet ouvrage est lun des produits concrets
duFonds espagnol pour lvaluation dimpact. Il munit les praticiens en matire de dveloppement humain
doutils de pointe qui leur permettront de gnrer des preuves au sujet de quelles politiques sont efficaces
et pourquoi. Parce quil amliore notre capacit atteindre des rsultats, cet ouvrage devrait transformer
en profondeur les pratiques de dveloppement.
Soraya Rodrguez Ramos, Secretary of State for International Cooperation, Espagne.

ISBN 978-0-8213-8752-8

BANQUE MONDIALE
SKU 18752

Vous aimerez peut-être aussi