Vous êtes sur la page 1sur 7

Évaluations et méthodologie d’évaluation

Les méthodes d’expérimentation 
en question
Denis Fougère
CNRS, Centre de recherche en économie et statistique (CREST, Paris),
Laboratoire interdisciplinaire d’évaluation des politiques publiques (LIEPP, Sciences po, Paris),
IZA (Bonn) et CEPR (Londres)

P
Les expérimentations
randomisées, également armi les méthodes utilisées Il s’agit ici de dresser la liste des
appelées expériences pour évaluer des politiques principales difficultés auxquelles les
controlées, sont des méthodes sociales ou éducatives, les praticiens de ces méthodes doivent
d’évaluation rigoureuses, mais expérimentations randomi- faire face. Pour la plupart, ces diffi-
leur mise en œuvre soulève des
sées font aujourd’hui l’objet cultés ne sont pas insurmontables,
problèmes qui peuvent biaiser
les estimations que l’on en d’un intérêt tout particulier. Dans le pour autant qu’elles soient bien iden-
déduit. Ces biais sont le plus champ de l’éducation, elles peuvent tifiées. Certaines sont toutefois très
souvent inhérents à la démarche être utilisées pour évaluer les effets sérieuses et entraînent des biais sta-
expérimentale. Leur nature, et les d’une innovation pédagogique, d’une tistiques significatifs dont l’ampleur
éventuelles corrections qu’il est modification des rythmes scolaires, ne peut être facilement évaluée.
possible de leur apporter
apporter, sont ici
de l’introduction de cours de soutien,
passées en revue. L’accent est
également mis sur la question etc., et cela, avant même que de telles
des plans et protocoles interventions soient ou non généra- réticences
d’expérience, trop souvent lisées. Les plaidoyers en faveur des et oppositions
ignorée par les praticiens de ces expérimentations mettent souvent
méthodes statistiques appliquées l’accent sur les biais statistiques Les réticences et oppositions à la
aux sciences sociales1. inhérents aux évaluations conduites mise en œuvre d’expérimentations
à l’aide de données d’observation randomisées reposent en général
non expérimentales. L’évaluation sur plusieurs types d’arguments. Le
par expérimentation randomisée premier type a trait aux coûts éle-
essaie de s’affranchir de ces biais de vés des expérimentations. Ces coûts
sélection en proposant d’affecter de sont de natures diverses. Les expéri-
manière aléatoire (par tirage au sort) mentations sont certes coûteuses en
les établissements scolaires, classes termes de budget et de temps, mais
ou élèves échantillonnés à un groupe l’on doit reconnaître que, dans la col-
de traitement qui bénéficiera du dis- lecte des données non expérimentales
positif ou programme éducatif devant d’observation qui se présentent sous
être évalué, ou bien à un groupe de la forme de fichiers longitudinaux,
contrôle qui n’en bénéficiera pas. ces deux types de coûts sont souvent
Cet article ne se propose pas de à peine moins importants. Les coûts
synthétiser les résultats des expéri-
NOTE
mentations randomisées conduites
en milieu scolaire, à l’étranger ou en 1. Je remercie Cédric AFSA pour sa lecture
attentive et ses remarques constructives.
France. Son objectif est plus modeste.

Éducation & formations n° 81 [ mars 2012] 41


e
èm
Th

spécifiques aux expérimentations nombre limité d’individus dont cer- leur réussite, c’est-à-dire l’assurance
sont des coûts de nature politique : tains acceptent de se voir refuser, à de la fiabilité de leurs conclusions,
persuader les chefs d’établissement, l’issue d’un tirage au sort et à l’ex- dépend de la participation étroite des
les enseignants, les parents d’élèves, clusion de toute autre considération personnels chargés de leur mise en
des avantages et nécessités d’une (de revenu, de sexe, d’origine sociale œuvre, à la définition de leurs objec-
expérimentation entraîne certes des ou nationale), le droit d’accès au pro- tifs et de leurs modalités pratiques.
dépenses, mais fait également cou- gramme durant la période limitée de Obtenir cet agrément est, pour l’admi-
rir un risque de perte de réputation l’expérience ? Cette dernière solution nistration centrale ou locale qui sou-
ou de crédibilité aux concepteurs de ne peut être envisagée que sous haite mettre en place une expérience,
l’expérience et aux groupes de pres- certaines conditions très précises, chose d’autant plus facile que le plan
sion qui les soutiennent. On le sait, admises par les acteurs concernés (le design) de l’expérience a été pré-
les opposants au principe des expé- à l’issue d’un débat préalable. Ces alablement élaboré avec les acteurs
rimentations sociales invoquent plus conditions, qui tout à la fois permet- chargés de la réalisation de l’opéra-
souvent des arguments éthiques que tent de recourir à l’expérimentation tion et que ce plan est perçu comme
budgétaires pour faire obstacle à leur et déterminent son protocole, sont au respectant les objectifs et contraintes
mise en œuvre. Ils condamnent le déni minimum au nombre de trois : de l’expérience.
de traitement imposé aux personnes 1. les participants à l’expérience doi- Mais, dans ce cas favorable, les résul-
(ici, aux élèves) du groupe de contrôle vent être pleinement informés des tats d’une expérimentation randomi-
et le tort substantiel que ce déni peut avantages comme des risques que sée sont susceptibles d’être soumis à
leur faire subir. Si le programme leur participation peut leur procurer ou un certain nombre de biais inhérents,
s’avère être significativement béné- leur faire courir (principe de consente- que nous allons maintenant énumérer,
fique, refuser ce traitement à certains ment éclairé) ; et dont il faut avoir conscience.
à l’issue d’un tirage aléatoire et de ce 2. dans les cas où l’on anticipe que
fait rationner une ressource publique le programme peut provoquer des
est contraire à l’éthique. Mais, comme risques ou des torts, il faut prévoir de Le principe des
le fait remarquer Burtless [1], l’argu- compenser les élèves qui seront affec- expérimentations
ment est le même dans les expéri- tés au groupe de traitement; dans le randomisées
mentations cliniques et, bien que les cas où l’on anticipe que le programme
enjeux individuels y soient souvent peut être bénéfique, il faut prévoir de Traditionnellement, les études
bien plus importants, le recours à compenser ceux qui seront affectés statistiques qui tentent d’identifier
l’expérimentation par randomisation au groupe de contrôle (principe de et d’estimer les effets de politiques
y est plus facilement admis. Devant compensation) ; éducatives (par exemple, la création
décider de la justesse du recours à 3. enfin, une expérimentation n’est des zones d’éducation prioritaire)
l’expérimentation randomisée, il nous envisageable que dans les cas où exploitent des données provenant
faut donc répondre à une et une seule l’on ignore a priori si le programme est d’enquêtes non expérimentales
question : est-il a priori plus juste, ou bénéfique ou non ; s’il s’avère préjudi- recueillies auprès d’établissements
plus bénéfique, de généraliser, éven- ciable, il est préférable d’observer ses comparables. Pour mener l’évaluation,
tuellement en le rendant obligatoire, effets sur un nombre limité d’élèves ces études utilisent généralement une
un programme qui risque d’être préju- consentants que sur un très grand comparaison des caractéristiques
diciable, de ne pas rendre accessible à nombre d’élèves contraints (principe moyennes (par exemple, le taux de
tout un chacun un programme qui peut de précaution). redoublement, les notes aux épreuves
s’avérer profitable, ou bien de mettre Un des enseignements les plus de mathématiques ou de français,
en place, préalablement à toute déci- importants des expériences rando- etc.) de deux types d’établissements,
sion de généralisation ou d’abandon misées qui ont été conduites dans le ceux ayant bénéficié de la mesure
définitif du programme, une procédure domaine social, économique ou édu- examinée (en ce cas, la labellisation
d’évaluation par expérimentation avec catif, tout d’abord aux Etats-Unis puis EP) et ceux n’en ayant pas bénéficié­.
l’aide et le consentement éclairé d’un plus récemment en Europe, est que La différence des moyennes de résul-

42 Éducation & formations n° 81 [  mars 2012  ]


Th
èm
e
tats dans les deux groupes est en programme pour les établissements les inciter à participer à une observa-
fait la combinaison de deux effets, qui souhaitent participer au disposi- tion non expérimentale. Cette difficulté
l’effet spécifique du dispositif que tif peut être estimé par la différence peut, par exemple, apparaître lorsqu’il
l’on cherche à mesurer, mais aussi entre la moyenne des résultats dans s’agit de demander à des chefs d’éta-
celui qui provient du fait que les deux le groupe de traitement et la même blissement scolaire, des enseignants,
groupes d’établissements peuvent moyenne dans le groupe de contrôle. des élèves ou des parents d’élèves
se comporter différemment face au Lorsque le tirage au sort précède de ces établissements, préalablement
dispositif considéré. En effet, ce dis- le choix des établissements de parti- choisis de manière aléatoire, de parti-
positif peut ne pas intéresser de la ciper ou non au programme proposé, ciper à une expérimentation randomi-
même façon tous les établissements. l’effet moyen de ce programme est sée, et qu’un certain nombre d’entre
Certains peuvent demander avec force plus difficilement identifiable. Le fait eux refusent, ou bien, pire encore,
à bénéficier du label et des avantages que certains établissements refusent acceptent, puis cessent de partici-
qu’il procure, d’autres au contraire de participer au programme dans le per à l’expérience avant que celle-ci
peuvent être réticents, estimant que cadre de l’expérimentation ne permet parvienne à son terme.
la stigmatisation créée par un label de pas d’estimer la valeur moyenne de Par exemple, il est à craindre que
ce type est supérieure aux avantages l’effet du programme, une fois celui-ci les établissements qui refusent de
afférents. En ce cas, la différence de généralisé. Manski [10] a néanmoins participer à l’évaluation expérimen-
résultats entre les deux groupes d’éta- démontré qu’il est possible de borner tale d’une nouvelle politique éducative
blissements reflète en partie ces com- la valeur de cet effet moyen, et qu’il soient précisément ceux qui pensent en
portements d’autosélection. est également possible de borner tirer le moins d’avantages. En ce cas,
Pour qu’une expérimentation ran- l’effet moyen d’une mesure géné- la différence des moyennes de résultat
domisée élimine le biais de sélection ralisée mais facultative à partir des entre les deux groupes de traitement
(ou d’autosélection), deux conditions résultats d’une expérimentation et de contrôle ne mesure pas vraiment
doivent être vérifiées : randomisée. ce que l’on souhaite mesurer, à savoir,
1. la probabilité de candidature l’effet moyen de la politique éducative,
au programme considéré ne doit pas mais l’effet moyen de cette politique au
être affectée par le fait que l’accès à Le biais de sein des établissements, des classes,
ce programme est conditionné par le randomisation etc., qui ont accepté de participer à
tirage au sort ; l’expérience. L’écart entre ces deux
2. les comportements ne doivent Les expérimentations avec assigna- quantités peut être assez substantiel,
pas être modifiés par la participation tion aléatoire sont susceptibles d’être comme l’ont montré des expériences
à l’expérimentation. soumises à ce que les spécialistes de conduites dans différents domaines.
Dans une expérimentation rando- ces techniques appellent le biais de
misée, le plan d’expérience le plus fré- «  randomisation  ». Ce biais apparaît
quent est celui où les établissements lorsque le groupe de traitement, consti- Les effets de type
éligibles au dispositif sont d’abord tué à l’issue de la procédure d’affecta- « Hawthorne »
informés des buts et principes de tion aléatoire des participants, diffère du
l’expérimentation, ceux acceptant d’y groupe de personnes auxquelles l’inter- Les effets de type « Hawthorne »
participer étant ensuite affectés aux vention (par exemple, la politique édu- sont une variante du biais de rando-
groupes de traitement et de contrôle cative) pourrait être appliquée, une fois misation. Dans le cadre expérimental,
par tirage au sort. Le fait que la déci- l’expérience menée et jugée concluante. ce type d’effet correspond au cas où le
sion de participation à l’expérience Ce biais a été maintes fois observé dans comportement des sujets étudiés est
précède le tirage au sort garantit que des essais cliniques, mais aussi dans de modifié par le fait d’avoir été ou non
les groupes de contrôle et de traite- nombreuses expérimentations sociales. retenu pour participer à l’expérience, et
ment constituent des sous-échan- Il est en effet souvent plus difficile de non par le dispositif ou le programme
tillons aléatoires de la population par- persuader des personnes de participer lui-même. En effet, certains peuvent
ticipante. En ce cas, l’effet moyen du à une expérience randomisée que de éprouver un sentiment de gratitude

Éducation & formations n° 81 [ mars 2012  ] 43


e
èm
Th

ou au contraire d’injustice selon qu’ils Heckman [4], Heckman et Smith [6], et biologie. On a pu, par exemple, obser-
ont été ou non choisis pour participer à Manski [9] ont ainsi pu montrer que des ver un tel phénomène dans le cadre
une expérience susceptible d’amélio- expériences conduites à l’aide d’échan- du programme STAR, qui a permis de
rer leur situation matérielle. Le terme tillons trop faibles peuvent conduire à tester, aux États-Unis, les effets d’une
provient des expériences menées des résultats sensiblement différents de réduction de la taille des classes dans
dans l’établissement d’Hawthorne celles réalisées à l’aide de groupes de le cadre d’un programme expérimental
de la Western Electric Company, à beaucoup plus grande taille. Les deux conduit sur une très grande échelle [2].
Chicago entre 1924 et 1933. La pre- difficultés peuvent se cumuler dès lors Le biais d’attrition est difficilement
mière de ces expériences montra que que le consentement des participants réductible. Heckman, Smith et Taber [7]
des variations de la luminosité sur le pressentis peut dépendre de la taille ont précisé la condition sous laquelle il
lieu de travail avaient pour effet une des échantillons constitués ; pour eux, est possible d’identifier l’effet moyen du
amélioration de la productivité et de la il peut être plus facile de participer à programme sur le résultat des membres
satisfaction des salariés, indépendam- une expérience qui impliquera un grand du groupe de traitement qui participent
ment du fait que la lumière fut plus nombre d’élèves ou d’établissements, pleinement à l’expérimentation, c’est-à-
ou moins forte. En présence d’effets les écarts individuels à la moyenne dire jusqu’à son terme (cette quantité
de type « Hawthorne », l’estimation passant alors plus vraisemblablement n’est pas exactement l’effet moyen du
de l’impact du programme risque, là inaperçus et les éventuels effets de programme sur ceux qui en ont bénéfi-
encore, d’être biaisée, le sens du biais stigmatisation étant de ce fait atténués. cié, cette dernière quantité ne pouvant
(positif ou négatif) étant ici difficile à Mais cet avantage a une contrepartie : être identifiée en présence d’attrition).
prévoir. Seule une observation très une expérimentation de grande dimen- Cette condition stipule que le résultat
étroite des élèves, professeurs, chefs sion est tout à la fois plus coûteuse et moyen des membres du groupe de trai-
d’établissement, etc., permet alors de plus difficile à mettre en œuvre. tement qui abandonnent l’expérimenta-
comprendre comment, et dans quelle tion avant qu’elle ne prenne fin doit être
mesure, leur comportement peut être égal au résultat moyen des membres du
éventuellement modifié par leur parti- Le biais groupe de contrôle qui auraient aban-
cipation à l’expérimentation. d’attrition donné de la même façon l’expérimen-
tation s’ils avaient été placés dans le
Ce biais résulte du fait que certains groupe de traitement. Heckman, Smith
La faiblesse participants, membres du groupe de et Taber [7] proposent des tests statis-
des effectifs traitement ou du groupe de contrôle, tiques permettant de vérifier la validité
décident de quitter l’expérience avant de cette condition.
Le biais de randomisation peut la fin de celle-ci. Ce phénomène se
également résulter de la faiblesse des produit plus fréquemment dans les
effectifs participant à l’expérience, expériences qui se déroulent sur une Le biais
les résultats étant en ce cas très échelle de temps assez longue, par de substitution
imprécis. Par exemple, de trop petits exemple sur une ou plusieurs années.
échantillons conduisent trop souvent L’importance de ce biais, inhérent Ce biais peut apparaître dès lors
à rejeter l’hypothèse d’un effet positif aux expérimentations qui portent que certains membres du groupe de
(ou négatif) de l’intervention ou du pro- sur des sujets humains, a été recon- contrôle, n’ayant pas accès au pro-
gramme expérimental, non parce que nue très tôt. Hausman et Wise [3] gramme éducatif durant le temps de
la différence des moyennes de résultat faisaient remarquer que le problème l’expérience, cherchent à se procurer
observés dans les deux groupes est de l’attrition provient de facto de l’in- des substituts à ce programme avant
effectivement positive (ou négative) troduction du facteur temporel dans les la fin de l’expérience. Pensons à un
mais parce que son écart-type est trop expérimentations sociales ou cliniques programme éducatif qui accroît le
large pour aboutir à une conclusion et que ce problème n’apparaît pas dans nombre d’heures de mathématiques.
suffisamment fiable. Étayant leurs les expérimentations généralement Il est possible que les parents des
analyses par des exemples concrets, conduites en physique, en chimie ou en élèves des classes faisant partie du

44 Éducation & formations n° 81 [  mars 2012  ]


Th
èm
e
groupe de contrôle recourent alors à Mieux définir les puissance (souvent fixée à 80 %) un
des cours privés, ou bien que les pro- protocoles et plans écart d’une certaine valeur entre les
fesseurs en charge de ces classes, deux groupes. Plus l’écart postulé est
d’expérience
hostiles au principe de l’expérimen- élevé, plus l’hypothèse nulle est facile
tation, décident unilatéralement d’in- Dans de trop nombreux cas, les cher- à rejeter, et plus la taille de l’échantillon
tensifier le nombre et le contenu de cheurs conduisant des expérimentations est faible. Ce genre d’exercice permet
l’enseignement de mathématiques. randomisées en sciences sociales négli- de savoir a priori si le budget de l’ex-
Il est clair qu’il est difficile de leur gent de définir le protocole statistique périence permet ou non de détecter un
interdire d’agir ainsi, leur argument qui assurera l’efficacité maximale des écart d’une certaine ampleur. Lorsque
étant de ne pas défavoriser les résultats de l’expérimentation, et ce, les chercheurs rédigent leur rapport,
élèves qui n’ont pas accès à ce pro- avant même que celle-ci ne débute sur joindre le calcul de puissance permet
gramme qu’ils supposent bénéfique. le terrain. Ce souci est depuis longtemps d’informer le lecteur sur les hypothèses
Là encore, réduire ce biais, qui tend à au cœur de la démarche des statisti- faites ex ante par les chercheurs.
sous-estimer les effets du programme ciens conduisant des expérimentations Dans une étude récente, List, Sadoff
ou de la politique éducative que l’on dans le cadre clinique ou dans d’autres et Wagner [8] énoncent quatre règles
souhaite évaluer, est chose difficile. disciplines (agronomie, physique, permettant d’améliorer l’efficacité sta-
Heckman [5] a toutefois précisé les chimie, etc.), mais il semble avoir été tistique des protocoles expérimentaux :
conditions sous lesquelles il reste jusqu’à aujourd’hui largement absent 1. lorsque la variable de résultat
possible d’identifier l’effet moyen du des préoccupations des chercheurs en est continue (par exemple, une note
dispositif pour ceux qui en bénéficient sciences sociales ou en sciences de à un examen ou à une évaluation) et
dans le cas où le groupe de contrôle l’éducation. De ce fait, on a souvent pu lorsque la variance de la moyenne
a accès à un substitut. La première constater que les estimations déduites de cette variable est supposée être
condition stipule que, pour chaque des expérimentations sociales étaient la même dans les deux groupes (de
participant, membre du groupe de statistiquement peu significatives et/ou traitement et de contrôle), il faudrait
traitement ou du groupe de contrôle, peu robustes. affecter les sujets (ici les élèves) de
l’effet du dispositif devant être évalué Le protocole expérimental doit être
est le même que celui de son subs- avant tout calibré par un calcul de puis- NOTE
titut. La seconde condition est que sance2. Préalablement au lancement de 2. La puissance statistique est la proba-
l’effet du dispositif évalué doit être l’expérimentation, les chercheurs doi- bilité que l’hypothèse nulle (ici, l’absence
le même pour chaque participant. vent s’efforcer d’énoncer clairement de différence de résultats entre les deux
groupes) soit rejetée, et que l’expéri-
Enfin, il faut que l’effet moyen du dis- la question à laquelle ils souhaitent
mentation puisse donc permettre de re-
positif pour les membres du groupe répondre et spécifier l’hypothèse nulle pérer l’association réellement existante
de traitement qui participent à l’ex- correspondante (par exemple, qu’il entre le programme éducatif évalué et
périmentation jusqu’à son terme soit n’existe pas de différence de résultats la variable de résultat considérée (par
exemple, le taux de redoublement ou la
égal à l’effet moyen du substitut au entre les deux groupes à l’issue de la
moyenne des notes en mathématiques).
dispositif pour les membres du groupe mise en œuvre du programme expéri- La puissance est déterminée par diffé-
de contrôle qui ont accès à ce subs- mental dans le groupe de traitement). Ils rents facteurs, parmi lesquels la fré-
titut. On le voit, ces conditions sont doivent également faire des hypothèses quence de la variable de résultat consi-
dérée, le protocole de l’expérience et la
extrêmement strictes et n’ont que concernant l’espérance mathématique taille de l’échantillon. Lors de la mise
peu de chances d’être vérifiées en de la variable d’intérêt dans le groupe en place de l’expérience, les chercheurs
pratique. En conséquence, la seule de traitement (par exemple, le taux de doivent opter pour une certaine puis-
sance en fonction de laquelle la taille de
solution pragmatique, quoique diffi- redoublement est en moyenne plus
l’échantillon est ensuite déterminée. Une
cile à mettre en œuvre, est de limiter, faible dans ce groupe). Ces hypothèses puissance statistique de 80 % est géné-
autant que faire se peut, les possibi- leur permettent ensuite de calculer, ralement considérée comme le minimum
lités d’accès à des substituts au sein compte-tenu du plan d’expérience, la exigible. Ce qui signifie qu’il y a 80 %
de chance que l’expérimentation puisse
du groupe de contrôle. taille minimale des échantillons per-
mettre en évidence l’effet recherché.
mettant de détecter avec une certaine

Éducation & formations n° 81 [ mars 2012  ] 45


e
èm
Th

manière égale dans les deux groupes ; que la proposition effectivement choi- et de mieux en mieux maîtrisé. Les
2. lorsque les variances ne sont pas sie émane d’un groupe d’experts de gains que l’on peut en attendre dans
identiques, le rapport des effectifs des qualité suffisante. Somme toute, le un domaine aussi important que celui
deux groupes devrait être égal au rap- nombre de statisticiens de valeur des politiques éducatives sont subs-
port des écarts-types de la moyenne consacrant leur temps et leur énergie tantiels. Pour autant, leur mise en
des résultats dans les deux groupes ; à la pratique des expérimentations œuvre peut encore être améliorée.
3. lorsque le coût d’échantillon- est assez limité. Il est donc possible Parmi les progrès les plus notables
nage varie d’une cellule expérimen- que les équipes répondant aux appels devant être enregistrés, figure cer-
tale à l’autre (une cellule pouvant être d’offres soient parfois de qualité tainement la meilleure connaissance
ici un établissement, une classe, un moyenne et ne contiennent que rare- des problèmes méthodologiques qui
groupe d’élèves homogène), le rapport ment des chercheurs présentant des leur sont inhérents. Cet article en a
des tailles d’échantillon devrait être garanties de qualité suffisantes. Plus dressé la liste. Il appartient mainte-
inversement proportionnel à la racine la pratique des expérimentations, et nant aux chercheurs d’œuvrer à la
carrée des coûts relatifs ; notamment des expérimentations à résolution de ces problèmes et de
4. lorsque l’unité que l’on tire grande échelle, se diffusera, et plus proposer des protocoles statistiques
aléatoirement (par exemple, un éta- le problème de qualité des évalua- qui permettent d’obtenir des résul-
blissement) est différente de l’unité teurs se posera. Certains répondront tats fiables, et surtout des interpré-
d’analyse (par exemple, une classe), il qu’il suffit de former de plus en plus tations analytiques allant au-delà
faudrait tenir compte du coefficient de de jeunes chercheurs de valeur à du simple constat « cela fonctionne/
corrélation entre classes d’un même cette méthode d’évaluation. Mais cela ne fonctionne pas ». Pour le dire
établissement. l’expérimentation n’est pas la seule autrement, pour ceux qui veulent per-
technique statistique nécessaire à suader du bien-fondé de la démarche
notre compréhension des phéno- expérimentale en sciences sociales,
La qualité mènes économiques, politiques et et tout particulièrement dans le
des évaluateurs sociaux. Elle n’est pas non plus la domaine de l’éducation, l’impératif
plus exigeante, bien que les difficul- est aujourd’hui, selon moi, d’aban-
Cet aspect, souvent ignoré, n’est pas tés statistiques qu’elle soulève soient donner l’effervescence praticienne
le moindre risque encouru par une réelles, et trop souvent ignorées par pour atteindre la maturité scienti-
expérimentation randomisée. La qua- les économistes et sociologues qui y fique. À défaut de cette transition,
lité des agences ou opérateurs en consacrent tout ou partie de leur beaucoup d’expérimentations rando-
charge de la mise en œuvre de l’ex- carrière. misées risquent de livrer des résul-
périmentation est par essence tats peu convaincants et insuffisam-
variable. Ces opérateurs sont en Conclusion ment articulés. n
général choisis à l’issue d’une procé-
dure d’appel d’offres, pilotée par un Les expérimentations randomi-
comité d’usagers, de praticiens et de sées sont aujourd’hui un dispositif
personnes qualifiées. Rien ne garantit d’évaluation de plus en plus utilisé

46 Éducation & formations n° 81 [  mars 2012  ]


Th
èm
e
bibliographie

[1] Burtless G., 1995, The Case for Randomized Field Trials in Economic and Policy Research, Journal of Economic
Perspectives, vol. 9, n° 2, p. 63-84.
[2] Ding W., and Lehrer S. F., 2010, Estimating Treatment Effects from Contaminated Multiperiod Education
Experiments: The Dynamic Impacts of Class Size Reductions. The Review of Economics and Statistics, vol. 92, n° 1,
p. 31-42.
[3] Hausman J., and Wise D., 1979, Attrition Bias in Experimental and Panel Data: The Gary Income Maintenance
Experiment. Econometrica, Vol. 47, n° 2, p. 455-473.
[4] Heckman J., 1992, Randomization and Social Policy Evaluation, dans Evaluating Welfare and Training Programs,
édité par C. Manski et I. Garkinkel. Cambridge, Massachusetts, Harvard University Press, p. 201-230.
[5] Heckman J., 1997, Instrumental Variables: A Study of Implicit Behavioral Assumptions in One Widely Used
Estimator. The Journal of Human Resources, vol. 32, n° 3, p.441-461.
[6] Heckman J. and Smith J., 1995, Assessing the Case for Social Experiments, Journal of Economic Perspectives.
vol. 9, n° 2, p. 85-110.
[7] Heckman J., Smith J., and C. Taber, 1998, Accounting for Dropouts in Evaluation of Social Programs.
The Review of Economics and Statistics, vol. 80, n° 1, p. 1-14.
[8] List J., Sadoff S. and Wagner M., 2010, So You Want to Run an Experiment, Now What? Some Simple Rules of
Thumb for Optimal Experimental Design, National Bureau of Economic Research, Working Paper 15701, Cambridge,
Massachusetts.
[9] Manski C., 1995. Identification Problems in the Social Sciences. Harvard University Press, 172 pages.
[10] Manski C., 1997, The Mixing Problem in Programme Evaluation. The Review of Economic Studies, vol. 64,
n° 4, p. 537-554.

Éducation & formations n° 81 [ mars 2012  ] 47

Vous aimerez peut-être aussi