Académique Documents
Professionnel Documents
Culture Documents
Les méthodes d’expérimentation
en question
Denis Fougère
CNRS, Centre de recherche en économie et statistique (CREST, Paris),
Laboratoire interdisciplinaire d’évaluation des politiques publiques (LIEPP, Sciences po, Paris),
IZA (Bonn) et CEPR (Londres)
P
Les expérimentations
randomisées, également armi les méthodes utilisées Il s’agit ici de dresser la liste des
appelées expériences pour évaluer des politiques principales difficultés auxquelles les
controlées, sont des méthodes sociales ou éducatives, les praticiens de ces méthodes doivent
d’évaluation rigoureuses, mais expérimentations randomi- faire face. Pour la plupart, ces diffi-
leur mise en œuvre soulève des
sées font aujourd’hui l’objet cultés ne sont pas insurmontables,
problèmes qui peuvent biaiser
les estimations que l’on en d’un intérêt tout particulier. Dans le pour autant qu’elles soient bien iden-
déduit. Ces biais sont le plus champ de l’éducation, elles peuvent tifiées. Certaines sont toutefois très
souvent inhérents à la démarche être utilisées pour évaluer les effets sérieuses et entraînent des biais sta-
expérimentale. Leur nature, et les d’une innovation pédagogique, d’une tistiques significatifs dont l’ampleur
éventuelles corrections qu’il est modification des rythmes scolaires, ne peut être facilement évaluée.
possible de leur apporter
apporter, sont ici
de l’introduction de cours de soutien,
passées en revue. L’accent est
également mis sur la question etc., et cela, avant même que de telles
des plans et protocoles interventions soient ou non généra- réticences
d’expérience, trop souvent lisées. Les plaidoyers en faveur des et oppositions
ignorée par les praticiens de ces expérimentations mettent souvent
méthodes statistiques appliquées l’accent sur les biais statistiques Les réticences et oppositions à la
aux sciences sociales1. inhérents aux évaluations conduites mise en œuvre d’expérimentations
à l’aide de données d’observation randomisées reposent en général
non expérimentales. L’évaluation sur plusieurs types d’arguments. Le
par expérimentation randomisée premier type a trait aux coûts éle-
essaie de s’affranchir de ces biais de vés des expérimentations. Ces coûts
sélection en proposant d’affecter de sont de natures diverses. Les expéri-
manière aléatoire (par tirage au sort) mentations sont certes coûteuses en
les établissements scolaires, classes termes de budget et de temps, mais
ou élèves échantillonnés à un groupe l’on doit reconnaître que, dans la col-
de traitement qui bénéficiera du dis- lecte des données non expérimentales
positif ou programme éducatif devant d’observation qui se présentent sous
être évalué, ou bien à un groupe de la forme de fichiers longitudinaux,
contrôle qui n’en bénéficiera pas. ces deux types de coûts sont souvent
Cet article ne se propose pas de à peine moins importants. Les coûts
synthétiser les résultats des expéri-
NOTE
mentations randomisées conduites
en milieu scolaire, à l’étranger ou en 1. Je remercie Cédric AFSA pour sa lecture
attentive et ses remarques constructives.
France. Son objectif est plus modeste.
spécifiques aux expérimentations nombre limité d’individus dont cer- leur réussite, c’est-à-dire l’assurance
sont des coûts de nature politique : tains acceptent de se voir refuser, à de la fiabilité de leurs conclusions,
persuader les chefs d’établissement, l’issue d’un tirage au sort et à l’ex- dépend de la participation étroite des
les enseignants, les parents d’élèves, clusion de toute autre considération personnels chargés de leur mise en
des avantages et nécessités d’une (de revenu, de sexe, d’origine sociale œuvre, à la définition de leurs objec-
expérimentation entraîne certes des ou nationale), le droit d’accès au pro- tifs et de leurs modalités pratiques.
dépenses, mais fait également cou- gramme durant la période limitée de Obtenir cet agrément est, pour l’admi-
rir un risque de perte de réputation l’expérience ? Cette dernière solution nistration centrale ou locale qui sou-
ou de crédibilité aux concepteurs de ne peut être envisagée que sous haite mettre en place une expérience,
l’expérience et aux groupes de pres- certaines conditions très précises, chose d’autant plus facile que le plan
sion qui les soutiennent. On le sait, admises par les acteurs concernés (le design) de l’expérience a été pré-
les opposants au principe des expé- à l’issue d’un débat préalable. Ces alablement élaboré avec les acteurs
rimentations sociales invoquent plus conditions, qui tout à la fois permet- chargés de la réalisation de l’opéra-
souvent des arguments éthiques que tent de recourir à l’expérimentation tion et que ce plan est perçu comme
budgétaires pour faire obstacle à leur et déterminent son protocole, sont au respectant les objectifs et contraintes
mise en œuvre. Ils condamnent le déni minimum au nombre de trois : de l’expérience.
de traitement imposé aux personnes 1. les participants à l’expérience doi- Mais, dans ce cas favorable, les résul-
(ici, aux élèves) du groupe de contrôle vent être pleinement informés des tats d’une expérimentation randomi-
et le tort substantiel que ce déni peut avantages comme des risques que sée sont susceptibles d’être soumis à
leur faire subir. Si le programme leur participation peut leur procurer ou un certain nombre de biais inhérents,
s’avère être significativement béné- leur faire courir (principe de consente- que nous allons maintenant énumérer,
fique, refuser ce traitement à certains ment éclairé) ; et dont il faut avoir conscience.
à l’issue d’un tirage aléatoire et de ce 2. dans les cas où l’on anticipe que
fait rationner une ressource publique le programme peut provoquer des
est contraire à l’éthique. Mais, comme risques ou des torts, il faut prévoir de Le principe des
le fait remarquer Burtless [1], l’argu- compenser les élèves qui seront affec- expérimentations
ment est le même dans les expéri- tés au groupe de traitement; dans le randomisées
mentations cliniques et, bien que les cas où l’on anticipe que le programme
enjeux individuels y soient souvent peut être bénéfique, il faut prévoir de Traditionnellement, les études
bien plus importants, le recours à compenser ceux qui seront affectés statistiques qui tentent d’identifier
l’expérimentation par randomisation au groupe de contrôle (principe de et d’estimer les effets de politiques
y est plus facilement admis. Devant compensation) ; éducatives (par exemple, la création
décider de la justesse du recours à 3. enfin, une expérimentation n’est des zones d’éducation prioritaire)
l’expérimentation randomisée, il nous envisageable que dans les cas où exploitent des données provenant
faut donc répondre à une et une seule l’on ignore a priori si le programme est d’enquêtes non expérimentales
question : est-il a priori plus juste, ou bénéfique ou non ; s’il s’avère préjudi- recueillies auprès d’établissements
plus bénéfique, de généraliser, éven- ciable, il est préférable d’observer ses comparables. Pour mener l’évaluation,
tuellement en le rendant obligatoire, effets sur un nombre limité d’élèves ces études utilisent généralement une
un programme qui risque d’être préju- consentants que sur un très grand comparaison des caractéristiques
diciable, de ne pas rendre accessible à nombre d’élèves contraints (principe moyennes (par exemple, le taux de
tout un chacun un programme qui peut de précaution). redoublement, les notes aux épreuves
s’avérer profitable, ou bien de mettre Un des enseignements les plus de mathématiques ou de français,
en place, préalablement à toute déci- importants des expériences rando- etc.) de deux types d’établissements,
sion de généralisation ou d’abandon misées qui ont été conduites dans le ceux ayant bénéficié de la mesure
définitif du programme, une procédure domaine social, économique ou édu- examinée (en ce cas, la labellisation
d’évaluation par expérimentation avec catif, tout d’abord aux Etats-Unis puis EP) et ceux n’en ayant pas bénéficié.
l’aide et le consentement éclairé d’un plus récemment en Europe, est que La différence des moyennes de résul-
ou au contraire d’injustice selon qu’ils Heckman [4], Heckman et Smith [6], et biologie. On a pu, par exemple, obser-
ont été ou non choisis pour participer à Manski [9] ont ainsi pu montrer que des ver un tel phénomène dans le cadre
une expérience susceptible d’amélio- expériences conduites à l’aide d’échan- du programme STAR, qui a permis de
rer leur situation matérielle. Le terme tillons trop faibles peuvent conduire à tester, aux États-Unis, les effets d’une
provient des expériences menées des résultats sensiblement différents de réduction de la taille des classes dans
dans l’établissement d’Hawthorne celles réalisées à l’aide de groupes de le cadre d’un programme expérimental
de la Western Electric Company, à beaucoup plus grande taille. Les deux conduit sur une très grande échelle [2].
Chicago entre 1924 et 1933. La pre- difficultés peuvent se cumuler dès lors Le biais d’attrition est difficilement
mière de ces expériences montra que que le consentement des participants réductible. Heckman, Smith et Taber [7]
des variations de la luminosité sur le pressentis peut dépendre de la taille ont précisé la condition sous laquelle il
lieu de travail avaient pour effet une des échantillons constitués ; pour eux, est possible d’identifier l’effet moyen du
amélioration de la productivité et de la il peut être plus facile de participer à programme sur le résultat des membres
satisfaction des salariés, indépendam- une expérience qui impliquera un grand du groupe de traitement qui participent
ment du fait que la lumière fut plus nombre d’élèves ou d’établissements, pleinement à l’expérimentation, c’est-à-
ou moins forte. En présence d’effets les écarts individuels à la moyenne dire jusqu’à son terme (cette quantité
de type « Hawthorne », l’estimation passant alors plus vraisemblablement n’est pas exactement l’effet moyen du
de l’impact du programme risque, là inaperçus et les éventuels effets de programme sur ceux qui en ont bénéfi-
encore, d’être biaisée, le sens du biais stigmatisation étant de ce fait atténués. cié, cette dernière quantité ne pouvant
(positif ou négatif) étant ici difficile à Mais cet avantage a une contrepartie : être identifiée en présence d’attrition).
prévoir. Seule une observation très une expérimentation de grande dimen- Cette condition stipule que le résultat
étroite des élèves, professeurs, chefs sion est tout à la fois plus coûteuse et moyen des membres du groupe de trai-
d’établissement, etc., permet alors de plus difficile à mettre en œuvre. tement qui abandonnent l’expérimenta-
comprendre comment, et dans quelle tion avant qu’elle ne prenne fin doit être
mesure, leur comportement peut être égal au résultat moyen des membres du
éventuellement modifié par leur parti- Le biais groupe de contrôle qui auraient aban-
cipation à l’expérimentation. d’attrition donné de la même façon l’expérimen-
tation s’ils avaient été placés dans le
Ce biais résulte du fait que certains groupe de traitement. Heckman, Smith
La faiblesse participants, membres du groupe de et Taber [7] proposent des tests statis-
des effectifs traitement ou du groupe de contrôle, tiques permettant de vérifier la validité
décident de quitter l’expérience avant de cette condition.
Le biais de randomisation peut la fin de celle-ci. Ce phénomène se
également résulter de la faiblesse des produit plus fréquemment dans les
effectifs participant à l’expérience, expériences qui se déroulent sur une Le biais
les résultats étant en ce cas très échelle de temps assez longue, par de substitution
imprécis. Par exemple, de trop petits exemple sur une ou plusieurs années.
échantillons conduisent trop souvent L’importance de ce biais, inhérent Ce biais peut apparaître dès lors
à rejeter l’hypothèse d’un effet positif aux expérimentations qui portent que certains membres du groupe de
(ou négatif) de l’intervention ou du pro- sur des sujets humains, a été recon- contrôle, n’ayant pas accès au pro-
gramme expérimental, non parce que nue très tôt. Hausman et Wise [3] gramme éducatif durant le temps de
la différence des moyennes de résultat faisaient remarquer que le problème l’expérience, cherchent à se procurer
observés dans les deux groupes est de l’attrition provient de facto de l’in- des substituts à ce programme avant
effectivement positive (ou négative) troduction du facteur temporel dans les la fin de l’expérience. Pensons à un
mais parce que son écart-type est trop expérimentations sociales ou cliniques programme éducatif qui accroît le
large pour aboutir à une conclusion et que ce problème n’apparaît pas dans nombre d’heures de mathématiques.
suffisamment fiable. Étayant leurs les expérimentations généralement Il est possible que les parents des
analyses par des exemples concrets, conduites en physique, en chimie ou en élèves des classes faisant partie du
manière égale dans les deux groupes ; que la proposition effectivement choi- et de mieux en mieux maîtrisé. Les
2. lorsque les variances ne sont pas sie émane d’un groupe d’experts de gains que l’on peut en attendre dans
identiques, le rapport des effectifs des qualité suffisante. Somme toute, le un domaine aussi important que celui
deux groupes devrait être égal au rap- nombre de statisticiens de valeur des politiques éducatives sont subs-
port des écarts-types de la moyenne consacrant leur temps et leur énergie tantiels. Pour autant, leur mise en
des résultats dans les deux groupes ; à la pratique des expérimentations œuvre peut encore être améliorée.
3. lorsque le coût d’échantillon- est assez limité. Il est donc possible Parmi les progrès les plus notables
nage varie d’une cellule expérimen- que les équipes répondant aux appels devant être enregistrés, figure cer-
tale à l’autre (une cellule pouvant être d’offres soient parfois de qualité tainement la meilleure connaissance
ici un établissement, une classe, un moyenne et ne contiennent que rare- des problèmes méthodologiques qui
groupe d’élèves homogène), le rapport ment des chercheurs présentant des leur sont inhérents. Cet article en a
des tailles d’échantillon devrait être garanties de qualité suffisantes. Plus dressé la liste. Il appartient mainte-
inversement proportionnel à la racine la pratique des expérimentations, et nant aux chercheurs d’œuvrer à la
carrée des coûts relatifs ; notamment des expérimentations à résolution de ces problèmes et de
4. lorsque l’unité que l’on tire grande échelle, se diffusera, et plus proposer des protocoles statistiques
aléatoirement (par exemple, un éta- le problème de qualité des évalua- qui permettent d’obtenir des résul-
blissement) est différente de l’unité teurs se posera. Certains répondront tats fiables, et surtout des interpré-
d’analyse (par exemple, une classe), il qu’il suffit de former de plus en plus tations analytiques allant au-delà
faudrait tenir compte du coefficient de de jeunes chercheurs de valeur à du simple constat « cela fonctionne/
corrélation entre classes d’un même cette méthode d’évaluation. Mais cela ne fonctionne pas ». Pour le dire
établissement. l’expérimentation n’est pas la seule autrement, pour ceux qui veulent per-
technique statistique nécessaire à suader du bien-fondé de la démarche
notre compréhension des phéno- expérimentale en sciences sociales,
La qualité mènes économiques, politiques et et tout particulièrement dans le
des évaluateurs sociaux. Elle n’est pas non plus la domaine de l’éducation, l’impératif
plus exigeante, bien que les difficul- est aujourd’hui, selon moi, d’aban-
Cet aspect, souvent ignoré, n’est pas tés statistiques qu’elle soulève soient donner l’effervescence praticienne
le moindre risque encouru par une réelles, et trop souvent ignorées par pour atteindre la maturité scienti-
expérimentation randomisée. La qua- les économistes et sociologues qui y fique. À défaut de cette transition,
lité des agences ou opérateurs en consacrent tout ou partie de leur beaucoup d’expérimentations rando-
charge de la mise en œuvre de l’ex- carrière. misées risquent de livrer des résul-
périmentation est par essence tats peu convaincants et insuffisam-
variable. Ces opérateurs sont en Conclusion ment articulés. n
général choisis à l’issue d’une procé-
dure d’appel d’offres, pilotée par un Les expérimentations randomi-
comité d’usagers, de praticiens et de sées sont aujourd’hui un dispositif
personnes qualifiées. Rien ne garantit d’évaluation de plus en plus utilisé
[1] Burtless G., 1995, The Case for Randomized Field Trials in Economic and Policy Research, Journal of Economic
Perspectives, vol. 9, n° 2, p. 63-84.
[2] Ding W., and Lehrer S. F., 2010, Estimating Treatment Effects from Contaminated Multiperiod Education
Experiments: The Dynamic Impacts of Class Size Reductions. The Review of Economics and Statistics, vol. 92, n° 1,
p. 31-42.
[3] Hausman J., and Wise D., 1979, Attrition Bias in Experimental and Panel Data: The Gary Income Maintenance
Experiment. Econometrica, Vol. 47, n° 2, p. 455-473.
[4] Heckman J., 1992, Randomization and Social Policy Evaluation, dans Evaluating Welfare and Training Programs,
édité par C. Manski et I. Garkinkel. Cambridge, Massachusetts, Harvard University Press, p. 201-230.
[5] Heckman J., 1997, Instrumental Variables: A Study of Implicit Behavioral Assumptions in One Widely Used
Estimator. The Journal of Human Resources, vol. 32, n° 3, p.441-461.
[6] Heckman J. and Smith J., 1995, Assessing the Case for Social Experiments, Journal of Economic Perspectives.
vol. 9, n° 2, p. 85-110.
[7] Heckman J., Smith J., and C. Taber, 1998, Accounting for Dropouts in Evaluation of Social Programs.
The Review of Economics and Statistics, vol. 80, n° 1, p. 1-14.
[8] List J., Sadoff S. and Wagner M., 2010, So You Want to Run an Experiment, Now What? Some Simple Rules of
Thumb for Optimal Experimental Design, National Bureau of Economic Research, Working Paper 15701, Cambridge,
Massachusetts.
[9] Manski C., 1995. Identification Problems in the Social Sciences. Harvard University Press, 172 pages.
[10] Manski C., 1997, The Mixing Problem in Programme Evaluation. The Review of Economic Studies, vol. 64,
n° 4, p. 537-554.