Vous êtes sur la page 1sur 21

Traduit par le Réseau nigérien de Suivi Evaluation (ReNSE), http://www.pnud.

ne/rense, Mai 2003

International Program Development Evaluation Training

Module 5 : Plans d’évaluation

Introduction

Après avoir déterminé les questions d’évaluation, il faut choisir les aspects ou
les approches d’évaluation qui sont les plus adaptés à chaque question et
situation. Dans ce module, quelques principes directeurs seront présentés,
ainsi que les forces et les faiblesses des différentes approches, mais il est
important de savoir que chaque situation est unique. Il n’y a pas de méthode
« seule et unique » pour toutes les situations posées par des évaluations.

Comment relier les plans d’évaluation aux questions et quel est leur
importance ?

Dans le Module 4, les questions ont été réparties en trois catégories :


descriptives, normatives et d’impact. Rappelons que les questions
descriptives décrivent la situation actuelle (« ce qui existe »), les questions
normatives comparent « ce qui existe » avec « ce qui devrait exister » et les
questions sur l’impact déterminent « quelle différence l’action peut
apporter ».

Pour toute question, il faut planifier et exécuter chaque étape du processus


afin d’obtenir des réponses valables. Chaque évaluation présente ses propres
défis en ce qui concerne la collecte et l’analyse des données. Lorsqu’on
répond aux questions descriptives, on doit déterminer si les renseignements
dont on a besoin seront mieux collectés par des entretiens structurés ou non
structurés, par des groupes ciblés, par l’analyse des documents, par
l’observation, par les enquêtes, par l’examen des données existantes ou par
une conjugaison de ces stratégies et d’autres. Ensuite, il faut un plan pour la
collecte et l’analyse des données, pour la présentation du rapport et pour
l’utilisation des résultats. En gros, c’est ce qu’on appelle le plan d’évaluation.

En général, les approches ouvertes de l’évaluation (c'est-à-dire, celles qui


utilisent des entretiens non structurés, des groupes ciblés ou l’observation)
marchent mieux lorsqu’on évalue une action relativement inconnue ou
lorsque le contexte est très différent des autres localités où l’action a été
mise en œuvre. Un plan d’évaluation ouvert permettra de collecter des
renseignements non anticipés (tel que l’effet de vague).

Lorsqu’il s’agit d’une action relativement bien comprise qui a été mise en
œuvre dans un contexte similaire, il est plus probable qu’on aura une idée
approximative sur les données descriptives nécessaires. Dans ce cas, il serait
logique d’élaborer une approche plus structurée de l’évaluation (c'est-à-dire,

1
Traduit par le Réseau nigérien de Suivi Evaluation (ReNSE), http://www.pnud.ne/rense, Mai 2003

des entretiens ou des enquêtes structurés) qui focalise sur la collecte des
renseignements très spécifiques.

En réalité, la majorité des questions descriptives d’évaluation se situe


quelque part entre ces deux extrêmes – même si on a quelques notions sur
ce qu’on cherche à savoir, on doit quand même apprendre à prévoir
l’imprévisible. Dans des cas pareils, un ensemble d’approches d’évaluation
(certaines focalisées, certaines ouvertes) est mieux indiqué. Plus de détails
sur les méthodes de collecte de données disponibles et des astuces
concernant leur utilisation seront détaillés en Module 6.

Des options sur l’approche de l’évaluation pour répondre aux questions


normatives, qui comparent « ce qui existe » avec « ce qui devrait exister »,
suivent une logique similaire à celle pour des questions descriptives. La
couche supplémentaire de complexité est dans la détermination de « ce qui
devrait exister ». Dans les cas les plus simples, il y aura peut-être un but ou
une cible clairement précisé, ou des normes adaptées à la mise en œuvre.
Dans d’autres cas, une appréciation des besoins sera nécessaire afin de
découvrir « ce qui devrait exister ».

Une appréciation des besoins examine le disfonctionnement (ou


fonctionnement non satisfaisant) chez la population cible ou dans la zone
cible, relatif à l’action. Pour une action élaborée autour des conseils
techniques agricoles, il serait utile de découvrir dans quelles zones et les
raisons pour lesquelles certains cultivateurs ont une production ou un marché
agricole à un niveau inférieur au niveau optimal, et de découvrir les
compétences, les connaissances et les ressources dont ils ont besoin pour
leur permettre d’obtenir de meilleurs résultats. Dans ce cas, « ce qui devrait
exister » pourrait se traduire par un niveau de production et de revenu
agricole potentiel, s’ils disposaient des conseils et du savoir-faire nécessaires
pour accéder aux ressources dont ils ont besoin.

Les questions d’impact posent les plus grands défis ; c’est ici qu’il faut un
plan bien réfléchi (par rapport à l’approche particulière nécessaire pour
répondre aux questions descriptives). Pour toute évaluation comportant des
questions sur l’impact, le plan d’évaluation doit permettre l’élimination
d’autres explications plausibles pour les résultats observés afin de conclure
que les résultats sont vraiment dus à l’action. C'est-à-dire, on doit être sûr
que tout changement observé a été causé par l’action et non par d’autres
facteurs.

Afin de réduire la possibilité de se tromper sur les véritables causes, on peut


emprunter quelques méthodes élaborées par les sciences sociales. A l’aide de
l’expérience, il est possible de contrôler la mise en œuvre d’un programme,
d’une politique ou d’un projet, le choix de bénéficiaires et l’environnement de
la mise en œuvre. Lorsqu’on contrôle tout sauf l’action, on peut attribuer les
changements observés à l’action avec certitude.

2
Traduit par le Réseau nigérien de Suivi Evaluation (ReNSE), http://www.pnud.ne/rense, Mai 2003

Disons qu’on dispose de l’engrais destiné à augmenter la production de maïs.


Disons aussi qu’on a une serre dont la température, l’arrosage et les
conditions du sol sont contrôlés. L’espace de la serre est répartie entre deux
zones : une zone d’expérience et une zone de contrôle. Les deux zones
bénéficient de la même température, des mêmes rayons du soleil, du même
arrosage et des mêmes conditions de sol ; il n’y a qu’une seule différence : la
zone d’expérience bénéficie de l’engrais et la zone de contrôle n’en bénéficie
pas. Au moment de la récolte, le niveau de production de chacune des deux
zones sera mesuré. Si le niveau de production de la zone d’expérience est
plus élevé que le niveau de la zone de contrôle, on peut conclure que c’est
l’engrais qui a fait la différence.

Pensons maintenant à ce qui se passe lorsqu’on travaille dans un champ au


lieu de l’environnement contrôlé d’une serre. Il se peut que les deux zones
soient proches et que l’engrais coule de la zone d’expérience vers la zone de
contrôle ; ainsi les résultats de l’impact de l’engrais seront imparfaits. On
peut déplacer la zone de contrôle ailleurs dans le même champ, mais les
conditions du sol, la quantité de lumière, la température ou la pluie peuvent
être un peu différents. Il se peut aussi que les deux champs bénéficient d’un
entretien différent. On peut toujours mesurer l’impact, mais on peut conclure
avec moins de certitude que les résultats sont dus uniquement à l’engrais.

Dans le monde complexe des actions de développement, il est difficile de


distinguer l’impact des autres facteurs. Dans le cas agricole, disons qu’on
démarre une action d’irrigation pendant la saison de cultures lors d’une
demande forte pour la production agricole au marché. Les revenus dans la
région ayant bénéficié de l’action d’irrigation ont augmenté par rapport aux
années précédentes. Mais les revenus plus élevés sont-ils le résultat de
l’action d’irrigation ou sont-ils dus aux autres facteurs, tels qu’une période de
croissance économique ou une période de stabilité politique exceptionnelle.

Des évaluations multi sites et groupées présentent des défis particuliers ainsi
que des opportunités uniques pour l’étude des questions d’impact. Le
contexte de chaque site et la nature de chaque action éprouvent souvent des
variations considérables à travers des localités différentes. Ceci peut aider à
identifier certains des facteurs relatifs à la situation ou à la mise en oeuvre
qui amplifient ou qui limitent l’impact – mais l’analyse doit être beaucoup
plus complexe et cette complexité peut entraver le niveau de participation
des bénéficiaires aux phases de collecte et d’analyse de données et elle peut
également limiter la viabilité des appréciations rapides comme option.

Les plans d’évaluation peuvent aider à déterminer l’impact d’un programme


dans la mesure où ils nous permettent de contrôler la mise en œuvre et les
mesures sur les réalisations du programme. L’intention est d’éliminer
d’autres explications plausibles de nos observations.

Ce module se focalise d’abord sur les plans d’évaluation qui s’adressent aux
questions d’impact suivi par une discussion sur des plans qui permettent

3
Traduit par le Réseau nigérien de Suivi Evaluation (ReNSE), http://www.pnud.ne/rense, Mai 2003

d’adresser des questions descriptives et normatives. Les méthodes de


collecte et d’analyse de données, la présentation du rapport, l’utilisation des
résultats, tous des éléments d’un plan complet d’évaluation ne figurent pas
dans ce module puisque ils seront abordés individuellement dans les Modules
6 à 10.

Eléments du plan d’évaluation d’impact et des stratégies de collecte


de données

Les évaluateurs partisans des évaluations traditionnelles d’expérience se


focalisent sur ces éléments principaux du plan :

v Des mesures d’avant et d’après


v Des groupes de comparaison
v L’attribution au hasard des participants aux groupes de comparaison

Pour certaines des approches plus nouvelles (telles que des évaluations
groupées et multi sites ainsi que des appréciations rapides), il faut se servir
d’autres outils, y compris :

v Des variables de contrôle


v Des variables naturelles
v Des stratégies de détection des causes

Lorsqu’on parle des autres explications plausibles, on parle de ce qu’on


appelle la validité interne. La validité interne se réfère à la capacité d’un
plan d’éliminer d’autres explications pour les résultats observés. Un plan
d’évaluation doté d’une forte validité interne permet de conclure avec
beaucoup plus de confiance que les résultats observés sont dus à l’action. Par
contre, avec un plan de faible validité interne il est plus difficile de convaincre
que les résultats observés sont dus à l’action. Cependant, ces autres
explications possibles ne sont que des explications rivales : il se peut qu’elles
n’existent pas en réalité. Cela dépend beaucoup du contexte. Les facteurs
suivants peuvent apporter une influence négative sur la validité interne :

Ø L’histoire (des événements conjoncturels)


Ø La maturité progressive des participants (l’effet sur les résultats dû à
la maturité des participants)
Ø Les tests (une habilité progressive des participants aux tests)
Ø Les outils (les outils ou des procédures de collecte de données)
Ø La régression à la moyenne (avec le temps, les résultats des tests vont
converger sur la moyenne)
Ø La subjectivité de sélection (les participants sont différents dés le
début)
Ø La diminution du niveau de participation (des participants particuliers
décident de ne plus participer)

4
Traduit par le Réseau nigérien de Suivi Evaluation (ReNSE), http://www.pnud.ne/rense, Mai 2003

Eléments d’un plan d’évaluation d’impact

Mesures d’avant et d’après 1

Afin de confirmer que l’impact est du à l’action, l’évaluation doit démontrer


que le changement dans les mesures clés sont effectivement le résultat de
l’action. Un des moyens employés pour mesurer des changements sont des
mesures d’avant et d’après. Les changements intervenus sont mesurés par la
comparaison des mesures clés prises après le commencement de l’action
contre des mesures clés prises avant le commencement de l’action. La
mesure « d’avant » est connue comme une référence. Cependant, un plan
qui ne comporte que des mesures d’avant et d’après est insuffisant pour
prouver que le changement a été causé uniquement par l’action. Peut-être
les participants ont changé leur comportement parce qu’ils étaient sous
observation ou peut-être quelque chose s’est passé en même temps que
l’action et avait les changements observés pour résultat.

Il est également important de rappeler que dans une situation où les


mesures ont changé très peu ou pas du tout, il faut hésiter de conclure que
l’action n’a pas marché. Une action de réduction de la pauvreté mise en
œuvre dans un pays donné est destinée à tout le monde. Il n’y avait donc
pas de groupe de contrôle contre lequel on pourra comparer les résultats. A
la fin de dix ans, la proportion des participants qui sont toujours pauvres n’a
pas changé. Faut-il conclure que l’action n’a pas marché ? Sans un groupe de
comparaison, il est impossible de conclure si la pauvreté allait s’aggraver
sans la mise en place de l’action. Il se peut que l’action ait été efficace dans
la mitigation des conditions des victimes de la pauvreté malgré un
environnement économique défavorable.

Afin de renforcer ce plan, il faut comparer le groupe ayant bénéficié de


l’action contre un groupe qui n’a pas bénéficié de l’action.

Groupes de comparaison 2

Si une action entraîne un changement, ceux qui ont participé à l’action


auront changé plus que ceux qui n’ont pas participé. Pour retourner au cas
de l’irrigation agricole présenté ci-dessus, il faudra comparer une zone
agricole similaire qui n’a pas bénéficié d’un programme d’irrigation avec la
zone qui en a bénéficié. Si les revenus ont augmenté dans la zone qui a
bénéficié du programme d’irrigation tandis que les revenus du groupe de
comparaison n’ont pas augmenté, ce sont des preuves plus fortes que le
programme d’irrigation a eu des résultats positifs.

Cependant, on n’a pas encore éliminé tous les autres facteurs. Comment
faire si la communauté qui a bénéficié du programme d’irrigation éprouve
1
Des mesures d’avant et d’après s’appellent également des pré-tests et des post-tests
2
Le groupe ayant bénéficié du programme peut être appelé le groupe de traitement. Le groupe n’ayant pas bénéficié
peut être appelé le groupe de contrôle.

5
Traduit par le Réseau nigérien de Suivi Evaluation (ReNSE), http://www.pnud.ne/rense, Mai 2003

des différences considérables par rapport à la communauté qui n’en a pas


bénéficié ? Peut-être d’autres industries se sont installées dans la zone
d’action et ainsi les revenus ont augmenté. Ou peut-être la communauté de
comparaison a cultivé des cultures différentes et leurs cultures ne se vendent
pas à la même valeur sur le marché que les cultures cultivées par la
communauté ayant bénéficié du programme d’irrigation.

Au cours de certaines actions, il y aura ceux qui en bénéficient et ceux qui


n’en bénéficient pas. Ce plan peut être employé dans l’évaluation, comme
par exemple, dans le cas d’un programme de formation en faveur des
travailleurs licenciés (voir étude de cas 5-1).

Etude de cas 5-1 : L’impact des programmes de formation en faveur


des travailleurs licenciés.

Beaucoup de pays en voie de développement font face au problème de


recyclage des travailleurs lorsque l’Etat diminue l’échelle de ses entreprises.
Un programme de formation de ce genre a été mis en place et évalué par la
suite. L’évaluation des programmes de formation est un défi considérable
parce que souvent plusieurs programmes différents sont mis en place afin de
servir aux besoins de groupes différents et il y a plusieurs façons de mesurer
les réalisations : des postes accédés, des entreprises créées, des revenus
mensuels, le niveau de salaire horaire, etc.

Questions : Les participants ont-ils réussi à accéder de nouveau au marché


du travail plus que les non participants ? Quel est le rapport coût/efficacité
des différents programmes de formation ?

Plan : Des participants à la formation ont été comparés à un groupe similaire


de non participants. Des données provenant des enquêtes et de
l’administration ont été utilisées. Une variété de techniques statistiques a été
utilisée afin de mesurer l’impact du programme de formation.

Attribution au hasard

Dans le monde idéal des sciences, il est possible d’attribuer aux participants
(ou choses, fermes, routes, cas, etc.) le bénéfice de l’action ou non.
L’attribution au hasard rend les groupes comparables. Par exemple, en
attribuant aux différentes communautés au hasard le bénéfice d’une action
d’irrigation, on les rend relativement égalitaires en termes d’une variété de
facteurs dont on n’a aucun contrôle. Etant donné l’égalité des communautés
en termes de ces facteurs, on pourra conclure avec plus de confiance que
l’action avait un impact si la communauté ayant bénéficié de l’action avait
des revenus plus élevés que les communautés de contrôle.

Cependant, l’attribution au hasard n’est pas toujours une option. Parfois tous
ceux qui sont éligibles doivent nécessairement bénéficier de l’action et/ou on
ne peut pas les empêcher de participer. Parfois aussi les bénéficiaires

6
Traduit par le Réseau nigérien de Suivi Evaluation (ReNSE), http://www.pnud.ne/rense, Mai 2003

éligibles ne veulent pas participer à une action et on ne peut pas les obliger.
Dans ces cas, il est plus pratique de mettre une seule action en œuvre dans
quelques sites sélectionnés que de mettre des actions en œuvre dans une
multiplicité de sites et ensuite attribuer des participants au hasard.

Il est possible, cependant, d’être dans une situation où l’action n’est pas
suffisamment large pour pouvoir admettre tous ceux qui cherchent à en
bénéficier. Un gestionnaire pourra décider d’attribuer à l’action ceux qui ont
le plus de chances d’en bénéficier. Ceci est également un moyen pour le
gestionnaire de profiter au maximum de fonds limités. Par exemple, un
programme de formation aura de meilleurs résultats si les participants
sélectionnés sont des candidats très motivés. Cependant, du point de vue de
l’évaluation, s’il n’y a que les meilleurs candidats attribués à ce programme,
les résultats seront donc subjectifs. En fait, dans ce type d’action,
l’attribution au hasard permet non seulement l’utilisation d’un plan très solide
pour mesurer l’impact, il se peut qu’il soit plus équitable : aucun risque de
subjectivité ou de favoritisme lorsque l’attribution se fait réellement au
hasard.

Variables de contrôle

Comme noté ci-dessus, parfois il n’est pas possible d’attribuer au hasard des
participants aux différents groupes pour des fins de comparaison. Cependant,
il est possible de trouver un groupe de gens (ou un village, etc.) qui ne
bénéficie pas encore de l’action et qui pourra servir de contrôle pour la
comparaison. Sans l’attribution au hasard, il y a toujours des chances que le
groupe de comparaison dispose de caractéristiques très différentes que le
groupe ayant participé à l’action. Si c’est vrai, l’action peut donner
l’impression d’être efficace (ou inefficace) pour la simple raison qu’il existe
des différences au préalables entre les participants et les non participants.

Dans des cas pareils, une option est de collecter des données sur des
facteurs qui peuvent être différents entre les deux groupes et qui semblent
probablement avoir un impact sur les réalisations. Ces variables sont ensuite
intégrés dans l’analyse des données pour servir de « variables de contrôle ».
Ceci permet d’exclure quelques explications alternatives même si l’attribution
au hasard n’est pas possible.

Variation naturelle

Parfois il n’est pas du tout possible de trouver un groupe de comparaison


significatif, surtout si l’action a été mise en œuvre dans une zone de grande
envergure, comme dans le cas des évaluations multi sites et groupées. Est-
ce que cela veut dire qu’il n’y a aucune possibilité de déterminer si les
changements observés sont dus à l’action ou non ? Pas du tout ; la réponse
se trouve dans la variation naturelle de l’action.

7
Traduit par le Réseau nigérien de Suivi Evaluation (ReNSE), http://www.pnud.ne/rense, Mai 2003

Disons qu’un programme de soins de santé pré natal a été mis en œuvre
dans une zone donnée et qu’on a demandé de faire une évaluation multi site.
Comme dans toutes les grandes actions, le plus souvent il y a des variations
dans le niveau auquel l’action touche à la population cible et aussi dans la
qualité des services fournis. Supposons qu’on trouve que les nourrissons sont
en meilleure santé et que le taux de mortalité infantile et maternel est plus
faible dans les villages où les mères ont bénéficié plus fréquemment des
services de santé pré natal de meilleure qualité. De telles preuves détaillées
aident à convaincre que l’action avait été la cause des réalisations, surtout
par rapport à l’option de l’impact global des réalisations sur tous les
participants. (Voir également les plans quasi-expérimentaux et de co-
relation, ci-dessous).

Stratégies de détection de causes

Beaucoup de stratégies décrites ci-dessus pour déterminer si les


changements observés sont dus à l’action (par rapport à une autre cause)
demandent une stratégie de collecte de données qui est structurée et
lourdement quantitative, ainsi qu’une analyse statistique qui est relativement
complexe. Pour l’évaluateur qui effectue une appréciation rapide, ou une
évaluation d’une action très réduite ou nouvelle et sans essai, de telles
stratégies ne sont ni pratiques ni conseillées.

Quelles sont les options disponibles lorsque la taille de l’échantillon est


réduite, les stratégies de collecte de données sont ouvertes pour la plupart
et/ou lorsque l’analyse statistique sophistiquée n’est pas faisable ?
Heureusement, des ressources utiles sont disponibles sur comment utiliser
les stratégies de « détection des causes », qui sont particulièrement
adaptées aux études effectuées à l’aide des méthodes qualitatives et
conjuguées (qualitative et quantitative) et surtout lorsque la population cible
est très réduite.

En général, le principe est le même – systématiquement exclure des


explications alternatives jusqu’à ce que le niveau de confiance nécessaire soit
atteint pour conclure sans aucun doute que les changements observés soient
effectivement (ou non) causés principalement (ou au moins en grande partie)
par l’action. Voici une liste de neuf sources potentielles de preuves qu’on
pourra collecter lorsqu’on mesure des changements à l’aide de la méthode de
détection des causes (adaptées de Davidson, 2001).

1. Inférence à partir d’une liste de causes (on sait que cette réalisation en
particulier est presque toujours causée par un des facteurs suivants : A, B, C,
ou D ; cette fois-ci on pourra conclure avec certitude que la cause peut être
attribuée au facteur A parce que les autres facteurs n’étaient pas présents).

2. Inférence à partir du modus operandi (MO) – Pour des cas où il y a plus


d’une cause possible (on sait que cette réalisation est presque toujours
causée par un des facteurs suivants : A, B, C, ou D : cette fois-ci, ni C ni D

8
Traduit par le Réseau nigérien de Suivi Evaluation (ReNSE), http://www.pnud.ne/rense, Mai 2003

étaient présents, ce qui limite les causes aux facteurs A ou B ; en plus, seule
la chaîne des causes/MO tendance était présent, ce qui indique les
événements caractéristiques du facteur A; cette inférence est renforcée si le
MO du facteur A est très différente de celle du facteur B.

3. Précédence temporelle (l’effet observé s’est passé seulement après le


commencement de l’action et non avant).

4. Conjonction constante (l’effet a été observé partout dans la zone de mise


en œuvre)

5. Contiguïté d’influence (un mécanisme plausible relie l’action à l’effet


observé ; l’inférence est renforcée si on peut trouver les preuves du
mécanisme en action)

6. Force d’association (le changement observé est beaucoup plus fort là où le


programme a été mis en œuvre qu’ailleurs où d’autres causes possibles sont
présentes).

7. Gradient biologique (plus l’action est présente, plus grand est le


changement observé)

8. Cohérence (la relation constatée entre l’action et le changement observé


cadre logiquement avec d’autres faits connus sur l’action et sur cette
réalisation en particulier).

9. Analogie (les tendances observées entre l’action et le changement


ressemblent à la tendance bien établie et reconnue sur la relation entre
l’action et ses effets).

Lorsqu’on élabore la stratégie de collecte de données, il faut réfléchir sur


laquelle des preuves énumérées ci-dessus est faisable et nécessaire à obtenir
et il faut élaborer un plan en avance pour l’obtenir. On n’a pas besoin de
chercher toutes ces preuves pour pouvoir attribuer des causes ; il suffit de
rassembler les pièces qui sont les plus logiques et qui ensemble donneront
des explications suffisamment certaines, compte tenu des décisions qui
seront prises sur la base de cette évaluation.

Types de plans d’évaluation

Plan expérimental

Le plan expérimental classique, parfois appelé l’expérience véritable, est


considéré comme le plan le plus solide pour répondre aux questions sur
l’impact parce que ce plan permet d’exclure la plupart des autres explications
plausibles. Son composant essentiel, l’attribution au hasard, assure la
comparabilité des groupes. Ce plan comporte également des mesures d’avant
et d’après pour les groupes de comparaison. Cependant, il est souvent

9
Traduit par le Réseau nigérien de Suivi Evaluation (ReNSE), http://www.pnud.ne/rense, Mai 2003

difficile de projeter des généralisations à une plus grande population, puisque


des études expérimentales sont normalement effectuées sur une échelle très
réduite.

Bien que ce plan soit rarement utilisé à cause de son manque de faisabilité, il
est possible de l’appliquer. L’évaluation de l’impact de la distribution des
manuels scolaires dans un pays en voie de développement est un exemple
d’un plan expérimental, ici accompagné de la méthode d’attribution au
hasard. (Voir l’étude de cas 5-2).

Etude de cas 5-2 : Des manuels scolaires et les résultats des tests

Des études antérieures ont indiqué que la distribution des manuels scolaires
est un moyen coût/efficace d’augmenter des résultats scolaires. La question
principale est : quel est l’effet des manuels scolaires sur la performance des
élèves à l’école ?

Plan : Des manuels scolaires ont été distribués à tous les niveaux scolaires
dans 25 sur 100 écoles primaires en milieu rural. Les élèves ont été testés
avant la distribution des manuels scolaires et encore une fois 10 mois plus
tard. Les élèves des écoles de contrôle ont été testés également. L’analyse
compare les différences dans les résultats des tests avant et après la
distribution des manuels scolaires entre les écoles de contrôle et les écoles
de traitement.

Commentaires : Il est évident qu’il y a des questions éthiques ici au regard


des 75 écoles qui n’ont pas reçu des manuels scolaires. Cependant, comme
mentionné ci-dessus, le financement très souvent n’est pas disponible au
début pour fournir un produit, un service ou une action à tous les
bénéficiaires éligibles. Ici, si on peut prouver que les manuels scolaires ont
un effet sur les résultats scolaires, cela peut aider à justifier l’expansion du
programme et la distribution des manuels scolaires ensuite aux autres
écoles.

Plan quasi-expérimental

« Quasi » veut dire qu’il existe des similitudes avec le plan expérimental sauf
que les groupes de comparaison n’ont pas été crée par un processus
d’attribution au hasard. Parfois il est possible de créer un groupe de
comparaison par un processus de correspondance des caractéristiques clés.
Parfois aussi, il est possible de localiser un groupe qui n’est pas exactement
le même que le groupe qui a bénéficié de l’action mais qui a suffisamment de
caractéristiques similaires pour pouvoir servir de groupe de comparaison. Par
exemple, il est possible de comparer un village qui a bénéficié d’une action
de développement économique avec un autre village de la même région qui
n’en a pas bénéficié. Dans des plans de ce genre, il est nécessaire de
collecter plus de renseignements afin de défendre le propos que les
réalisations de l’action ne peuvent pas expliquer par d’autres facteurs que

10
Traduit par le Réseau nigérien de Suivi Evaluation (ReNSE), http://www.pnud.ne/rense, Mai 2003

l’action. Quelques exemples très connus des plans quasi-expérimentaux


sont : le plan de non équivalence, le plan de séquence temporelle
interrompue et le plan de co-relation à l’aide des contrôles statistiques. Un
exemple d’un plan quasi-expérimental est l’évaluation du Programme EDUCO
à El Salvador 3 (Voir le résumé de l’étude de cas ci-dessous)

Etude de cas 5-3 : Les écoles communautaires est-ce qu’elles


marchent ? Une évaluation du programme EDUCO à El Salvador

L’intention de cette évaluation était de mesurer les effets sur la performance


des élèves de la décentralisation vers les communautés de la direction des
écoles et de la formation scolaire. Le programme des écoles communautaires
à El Salvador (EDUCO) a été planifié afin d’élargir la formation scolaire en
milieu rural rapidement après le guerre civile. Les résultats des tests donnés
aux élèves des écoles communautaires ainsi que le niveau de fréquentation
de ces écoles par les enfants en milieu rural ont été comparés aux mêmes
critères des écoles du gouvernement. A l’aide des contrôles statistiques,
l’évaluation a réalisé des contrôles sur les caractéristiques des élèves et sur
la subjectivité de sélection.

En 1991, Le Ministère de l’Education a élargi la formation scolaire en milieu


rural à travers le programme EDUCO. Ce programme est un programme
novateur pour la formation scolaire primaire et maternelle qui vise la
décentralisation de la fonction de l’éducation par le renforcement de
l’implication et de la participation directe des parents et des groupes
communautaires. Une association des parents d’élèves gère les écoles du
programme EDUCO.

Des questions ont été posées sur la qualité de la formation scolaire dispensée
dans ces écoles communautaires à savoir si l’expansion rapide a eu un effet
négatif sur la qualité d’enseignement. Cette étude est une comparaison des
résultats des élèves au niveau de CE dans des écoles communautaires aux
résultats des élèves du même niveau dans des écoles du gouvernement. Les
résultats ont été mesurés sur la base des tests normalisés en mathématiques
et en langues. Cependant, les résultats des tests ne révèlent pas des
tendances dans le court terme et les évaluateurs ont donc étudié le nombre
de jours ouvrables ratés par les élèves à cause de l’absence du maître.

Des différences dans les résultats scolaires, cependant, peuvent être


influencées par des facteurs autres que les écoles, comme, par exemple, le
milieu social des ménages, les intrants de l’école et les facteurs
d’organisation.

Les évaluateurs devraient déterminer si les différences dans les résultats des
tests (comme mesure de réalisation des élèves) ont été dues aux différences

3
The World Bank, Development Research Group. “Do Community-managed Schools Work? An Evaluation of El
Salvador’s EDUCO Program.” Impact Evaluation of Education Reforms, Paper No. 8. February 1998.

11
Traduit par le Réseau nigérien de Suivi Evaluation (ReNSE), http://www.pnud.ne/rense, Mai 2003

dans le type d’école, ou à d’autres facteurs. Des facteurs à part le type


d’école (EDUCO ou gouvernement) qui pourront expliquer les résultats des
élèves sont :

Caractéristiques des ménages (l’éducation, la taille de la famille, le


revenu)
Caractéristiques des écoles (le genre, l’âge, le nombre de sœurs et
frères)
Données scolaires (l’effectif de l’école, la qualité d’enseignement, les
immeubles/équipements scolaires et le financement)
Caractéristiques des maîtres (le niveau de préparation, les années
d’expérience)

Les évaluateurs se sont servis des données collectées lors des enquêtes du
Ministère de l’Education pour construire un modèle qui permet de mesurer
l’impact indépendamment du type d’école tout en contrôlant pour les autres
facteurs. A l’aide des modèles statistiques complexes qui contrôlaient pour
tous les facteurs sauf les facteurs cités ci-dessus (voir la discussion sur les
variables de contrôle), les évaluateurs ont conclu que les résultats des élèves
des deux types d’écoles sont approximativement les mêmes. L’expansion
rapide, donc, n’a pas eu d’impact adverse sur la performance des enfants,
même si on a contrôlé pour une gamme d’autres variables. En d’autres mots,
les écoles communautaires sont aussi efficaces que les écoles du
gouvernement.

Plan de co-relation

Le plan de co-relation est souvent utilisé lorsqu’on cherche à répondre aux


questions sur les relations. Le plan de co-relation peut être appliqué aux
données disponibles et aux nouvelles données. Par exemple, disons qu’on
veut découvrir si la nomination des femmes aux portefeuilles politiques pour
résultat un gouvernement plus honnête; on pourra appliquer un plan de co-
relation. Des données sur la proportion de femmes qui occupent des
portefeuilles politiques dans des régions différentes du pays pourront être co-
reliées aux niveaux de corruption indiqués dans les rapports.

Les preuves de co-relation ne peuvent pas à elles seules établir des liens de
causalité – même si les gouvernements ayant plus de femmes aux
portefeuilles politiques sont moins corrompus, il est toujours nécessaire
d’exclure d’autres explications plausibles pour cette relation avant de tirer la
conclusion définitive que les femmes sont la cause de ce niveau élevé
d’honnêteté !

Plan non expérimental (ou pré expérimental) (pour les questions


descriptives et narratives)

Ces plans sont plus faibles pour la détermination de l’impact parce qu’il y
manque plusieurs éléments. Parfois ils comportent des mesures d’avant et

12
Traduit par le Réseau nigérien de Suivi Evaluation (ReNSE), http://www.pnud.ne/rense, Mai 2003

d’après mais aucun groupe de comparaison. Parfois ils comportent un groupe


de comparaison mais aucune mesure prise avant l’action. Parfois ils ne
comportent pas de groupe de comparaison ni de mesures d’avant et
d’après : ce genre de plan s’appelle la « prise unique » parce qu’il ressemble
à une photo prise d’une situation à un point donné après la mise en œuvre
d’une action. Les plans non expérimentaux marchent très bien pour les
questions descriptives et normatives mais ils ne sont pas aussi adaptés pour
les questions d’impact sauf s’ils sont complétés par l’analyse qualitative
sérieuse des causes (voir la partie ci-dessus sur les stratégies de détection
de causes, p. 5-9).

Parfois, la question d’évaluation se focalise sur le niveau de satisfaction des


citoyens ou des bénéficiaires de l’action des services mis à leur disposition ou
sur les raisons qu’ils ne se servent pas de ces services. Parfois la question est
de découvrir le statut actuel des participants ayant bénéficié d’une action qui
a eu lieu quelques années auparavant. Pour répondre à ce genre de question,
une enquête à l’aide d’un plan transversal peut être effectuée. Une enquête
transversale nécessite la sélection d’un échantillon représentatif des
bénéficiaires d’une action en cours ou déjà terminée. Ensuite les données
sont collectées chez eux et un rapport est élaboré.

Par exemple, dans une évaluation d’un programme qui vise l’amélioration des
conditions économiques des femmes par le moyen des petites entreprises,
les évaluateurs pourront faire ressortir le point de vue des femmes qui ont
déjà participé au programme. Leur avis peut aider à savoir si ce qu’elles ont
appris lors du programme les a aidé à établir des entreprises viables, la
nature de l’entreprise, et l’utilité du programme pour la gestion d’une
entreprise. Avec des ressources limitées, les évaluateurs peuvent opter pour
une brève enquête sur des participants au programme (« prise unique »). Ou
bien ils pourront faire une enquête sur des femmes qui ont participé
récemment au programme avec des femmes qui ont participé aux autres
programmes visant les petites entreprises ou des femmes qui ont bénéficié
des fonds de démarrage sans formation ni d’appui visant le renforcement
économique (une comparaison au groupe statique). Ce sont des plans non
expérimentaux.

Une étude longitudinale est une étude dans laquelle des mesures répétées
d’une même variable sont prises sur les mêmes participants (ou sur des
groupes d’échantillon de la même population). Un plan de groupes restreints
utilise presque toujours des données qualitatives (c'est-à-dire, des questions
ouvertes, des entretiens approfondis et des observations) ainsi que des
données quantitatives. Des plans de groupes restreints peuvent fournir une
perspective plus en profondeur sur des changements que les participants
subissent comme résultat de l’action. Par exemple, une étude sur les
allocations familiales en Pologne s’est servi des données collectées sur les
mêmes personnes entre 1993-1996 afin de découvrir les effets des
allocations sociales sur les revenus familiaux en dessous et au dessus du
seuil de la pauvreté.

13
Traduit par le Réseau nigérien de Suivi Evaluation (ReNSE), http://www.pnud.ne/rense, Mai 2003

Un plan de séquence temporelle pourra être utilisé pour suivre des


indicateurs clés de la performance sur une période de temps avant et après
une action. Suivre le niveau de la production agricole sur une période de
temps pourra donner de bonnes indications sur les tendances globales. Une
action qui vise la formation de plus d’enseignants au niveau primaire
demande une étude de séquence temporelle qui suit le nombre et le
pourcentage d’enseignants ayant une formation scolaire de niveau supérieur.

Un audit de performance qui cherche à comparer la performance de l’action


contre les normes (une question normative) utilisera probablement un plan
non expérimental. Par exemple, si les donateurs s’attendent à voir des
résultats prévus sur des tests normalisés, les évaluateurs doivent collecter
ces données et les comparer contre les normes.

Une évaluation qui cherche à répondre aux questions descriptives ou


normatives peut être aussi valable qu’une évaluation qui cherche à répondre
aux questions sur l’impact mais cela dépend de ce qu’on cherche à savoir.
Des plans descriptifs peuvent fournir des aperçus très valables. On peut
apprendre beaucoup, par exemple, en répondant aux questions descriptives
sur les sentiments des parents vers la décentralisation de la gestion des
écoles.

Etude de cas

Une étude de cas est fréquemment utilisée lorsqu’un chercheur veut gagner
une compréhension approfondie d’un processus, d’un événement ou d’une
situation. Il est utile lorsque la question concerne les modalités de
fonctionnement ou les cause de certains résultats et est spécialement utile
lorsque l’action est novatrice ou expérimentale ou elle n’est pas bien
comprise. Des études de cas sont fréquemment utilisées dans l’évaluation
des actions de développement.

Ces études peuvent utiliser des méthodes qualitatives et/ou quantitatives


pour collecter les données. On peut se focaliser sur un seul cas (des plans de
prise unique, d’avant et d’après ou de séquences temporelles) ou on peut se
focaliser sur plusieurs cas (des plans comparatifs). On peut chercher une
compréhension approfondie des individus, des organisations, des
communautés, des programmes, des villes et/ou des états.

Si on s’intéresse au transport public dans un pays donné, on pourra


simplement suivre des indicateurs clés par rapport aux références et aux
cibles pré-établies. On pourra faire une étude nationale si les indicateurs
comportent le nombre de kilomètres parcourus par les véhicules, la capacité
de ces véhicules, la fréquentation par le public et les revenus perçus par
l’Etat. Cependant, si on doit répondre aux autres types de question qui
nécessitent la collecte des données en profondeur, on peut opter pour une

14
Traduit par le Réseau nigérien de Suivi Evaluation (ReNSE), http://www.pnud.ne/rense, Mai 2003

étude de cas. On pourra choisir un seul cas pour l’étude ou on pourra choisir
les cas dans plusieurs localités afin d’obtenir une variété d’expériences.

Par exemple, si on voulait apprendre les motivations des décisions des


utilisateurs des transports publics, il faut collecter des données chez eux.
Ceci demandera plus de ressources pour collecter ces données sur une
échelle nationale. Il est plus facile à collecter les données dans une localité
géographique précise – un seul cas. Alternativement, les chercheurs pourront
opter pour une étude de cas multiple, où plusieurs villes seront
sélectionnées. Les cas peuvent être sélectionnés selon plusieurs méthodes :

v Au hasard
v Commodité
v Selon des jugements ou des buts spécifiques sur la base des critères :
o Meilleur cas, cas typique, cas pire ou un de chaque
o Seule les grandes villes ou les villes différentes

Les mêmes stratégies de collecte de données utilisées lors de l’étude d’un cas
unique peuvent être utilisées lors des études de cas multiples.

Logiquement, des études de cas sont utilisées dans l’évaluation des actions
de développement où l’intention est de comprendre une situation spécifique
afin d’élaborer ou d’ajuster des politiques ou des pratiques. Mais des études
de cas sont non seulement plus pratiques que des études à échelle nationale,
elles fournissent également des renseignements détaillés qui sont souvent
adaptés au point focal du décideur. Une étude de cas comparative sur la
fréquentation des cliniques d’immunisation gratuite permettra de gagner une
meilleure compréhension sur les raisons pour lesquelles une de ces cliniques
a réussi plus que les autres.

Points clés sur les plans

v Il n’y a pas de plan parfait


v Chaque plan a ses forces et ses faiblesses
v Il y a toujours des éléments tronqués en termes de temps, de coût et
de détails pratiques
v Il faut reconnaître des échanges et des faiblesses potentiels
v Il faut fournir une appréciation de leur impact probable sur les
résultats et les conclusions

15
Traduit par le Réseau nigérien de Suivi Evaluation (ReNSE), http://www.pnud.ne/rense, Mai 2003

Exercice d’application 5-1

Sélection d’un plan d’évaluation

Scène :

On vous a demandé de mesurer l’impact de la construction d’un dispensaire


communautaire qui vise la formation des parents sur les traitements des
maladies non mortelles souvent trouvées chez les membres de la famille et
sur l’identification des symptômes des autres maladies plus graves. Les
finalités sont d’augmenter le nombre de parents ayant une compréhension de
base sur les soins de santé préventifs, sur les premiers soins et sur les
stratégies de traitement précoce et également de réduire le nombre d’enfants
et de personnes âgées dont les maladies s’aggravent.

1. Quel est le programme ?

2. Quelles sont les réalisations voulues ?

3. Comment élaborer une question sur l’impact pour cette évaluation ?

4. Quel type de plan faut-il ?

5. Pourquoi ? Quelles sont les forces et les faiblesses de ce plan ?


Pourquoi choisir ce plan au lieu d’un autre ?

16
Traduit par le Réseau nigérien de Suivi Evaluation (ReNSE), http://www.pnud.ne/rense, Mai 2003

Exercice d’application 5-2


Sélection d’un plan d’évaluation et la stratégie de collecte de
données

Scène :

On vous a demandé d’élaborer un plan d’évaluation pour une étude de six


mois afin d’apprécier l’efficacité d’une campagne de santé préventive dans
votre pays. Le budget dont vous disposez est modéré et permettra
l’appréciation de quelques réalisations et une équipe de six assistants est
disponible pour vous aider avec les détails. La campagne consiste à tenir des
séminaires de deux jours par des professionnels de la santé dans les
communautés à travers le pays. Le but de l’évaluation demandée est de
déterminer si la campagne a amélioré les pratiques de la santé par les
citoyens.

La question principale d’évaluation est-elle une question descriptive, une


question normative ou une question d’impact ? Expliquez.

La stratégie de collecte de données sera-t-elle plus structurée, plus ouverte


ou une conjugaison des deux ? Pourquoi ?

Comment identifier les réalisations les plus importantes à mesurer et


comment faire pour les mesurer ?

Quelle sorte de plan d’évaluation faut-il (c'est-à-dire, un groupe de


comparaison, des contrôles pour d’autres variables, des stratégies de
détection des causes, etc.) Quelles sont les forces et les faiblesses de votre
plan ?

17
Traduit par le Réseau nigérien de Suivi Evaluation (ReNSE), http://www.pnud.ne/rense, Mai 2003

Lectures et ressources supplémentaires :

Campbell, D.T. and Stanley, J.C. (1963). Experimental and quasi-


experimental designs for research. In N.L. Cage (Ed.) Handbook of research
on teaching. Chicago: Rand McNally.

Cook, T.D. and Campbell, D.T. (1979). Quasi-experimentation: Design and


analysis issues for field settings. Chicago: Rand McNally.

Davidson, E.J. (2000). Ascertaining causality in theory-based evaluation.


New Directions for Evaluation, No. 87, 17-26.

Miles, M.B. & Huberman, A.M. (1994). Qualitative data analysis: An


expanded sourcebook (2nd ed.). Thousand Oaks, CA: Sage.

Stake, R.E. (1995). The art of case study research. Thousand Oaks, CA:
Sage.

Stufflebeam, D.L.Mdaus, G.F. and Kellaghan, T. (Eds.) (2000). Evaluation


Models: Viewpoints on educational and human services evaluation. Boston:
Kluwer.

Wadsworth, Y. (1997). Everyday evaluation on the run. St. Leonards, NSW.


Australia: Allen and Unwin.

Yin, R.K. (1984). Case study research. Thousand Oaks, CA: Sage.

Sites web:

Kisker, E.E., & Brown, R.S. (1997). Nonexperimental designs and program
Evaluation. Children and Youth Services Review 19, No. 7 (1997): 541 -66.
Online: http://www.aei.org/sw/swkiskerbrown.htm

NIOSH/A model for research on training effectiveness (TIER).


Online: http://www.cdc.gov/niosh/99-142.html

Trochim, W. Designing designs for research.


Online: http://trochim.human.cornell.edu/kb/desdes.htm

18
Traduit par le Réseau nigérien de Suivi Evaluation (ReNSE), http://www.pnud.ne/rense, Mai 2003

Des plans souvent utilisés pour la collecte de données

Des plans expérimentaux : Il faut toujours utiliser l’attribution au hasard


pour des groupes de traitement et de contrôle. L’expérience réelle nécessite
la collecte de données avant et après l’action. Variations : parfois la collecte
de données est limitée à la période après l’action.

Des plans quasi-expérimentaux : Pour comparer des groupes ayant


bénéficié de l’action avec des groupes n’ayant pas bénéficié ; pas
d’attribution au hasard

Correspondance Recherche la correspondance des


caractéristiques clés entre les deux groupes

Groupes de non Comparaison du groupe ayant bénéficié


équivalence au groupe n’ayant pas bénéficié

Plan de co-relation Collecte des données d’un échantillon ou de


toutes les unités et détermine s’il y a des
relations à l’aide des techniques statistiques

Plan transversal Collecte de variables d’un échantillon de cas


ou de personnes à un certain point dans le
temps. Séparer des cas à l’aide des contrôles
statistiques en deux groupes : ceux qui ont
bénéficié et ceux qui n’ont pas bénéficié

Séquence interrompue Collecte les mêmes données à des points


multiples dans le temps avant et après
l’action à partir des mêmes personnes ou
des personnes différentes

Plan longitudinal Collecte les mêmes données à quelques


points dans le temps à partir des mêmes
personnes ou à partir des échantillons
différents de personnes de la même
population.

Groupe restreint Collecte des données approfondies


quantitatives et qualitatives à partir des
mêmes personnes à des points différents
dans le temps.

19
Traduit par le Réseau nigérien de Suivi Evaluation (ReNSE), http://www.pnud.ne/rense, Mai 2003

Des plans non expérimentaux : Des plans pour faire des descriptions

Plan transversal Collecte des variables à partir d’un


échantillon de cas ou de personnes à un seul
point dans le temps

Séquence temporelle Collecte des mêmes données sur une période


de temps, avant et après une action afin
d’observer des tendances

Etudes de cas descriptives Des renseignements en profondeur sur


quelques sites

Plan d’avant et d’après Collecte des données sur des mesures clé
avant et après une action

Prise unique Une photo – pas de mesures d’avant et pas


de comparaison

Aucun plan n’est parfait

Plans expérimentaux

v Contrôle les facteurs qui diminuent la validité interne


v Difficile à réaliser dans le secteur public
v En général, faible du point de vue de la validité externe

Plans d’avant et d’après

v Utile pour la description du contexte dans lequel on mesure les


changements
v Dépendent de la situation, peut éprouver quelques faiblesses :
l’habitude du test, les outils, la régression à la moyenne, la diminution
du niveau de participation, l’histoire et la maturité des participants
sont des facteurs qui peuvent mitiger la validité

Plans de comparaison

v Utile dans la considération des différences entre les groupes


v Contrôle pour l’histoire et la maturité si les groupes de comparaison
correspondent de façon très proche
v Sélection et attrition sont de menaces

Plans de « prise unique »

v Utile pour des questions descriptives et normatives


v Très faible pour des questions sur la cause/effet : beaucoup de
menaces

20
Traduit par le Réseau nigérien de Suivi Evaluation (ReNSE), http://www.pnud.ne/rense, Mai 2003

v Des prises uniques multiples commencent à créer un cas défendable

Des liens entre les questions et le plan

Questions descriptives Approches non expérimentales, quasi-


expérimentales ou qualitatives

Questions normatives Approches non expérimentales, quasi-


expérimentales ou qualitatives plus des
réalisations/normes/appréciations des
besoins

Questions sur l’impact Approches expérimentales, quasi-


expérimentales ou non expérimentales
accompagnées de détection approfondie des
causes

21

Centres d'intérêt liés