DocimologieCognitiveVersionrelecture PDF

See discussions, stats, and author profiles for this publication at: https://www.researchgate.
net/publication/349780093
Chapitre 5. Évaluations scolaires et étude du jugement des enseignants : pour

une docimologie cognitive
Chapter · January 2017

DOI: 10.3917/dbu.detro.2017.01.0141
CITATION READS
1 444
2 authors, including:
Vantourout Marc
Paris Descartes, CPSC
13 PUBLICATIONS 48 CITATIONS
SEE PROFILE
All content following this page was uploaded by Vantourout Marc on 07 April 2021.
The user has requested enhancement of the downloaded file.

L’évaluation
à la lumière
des contextes
et des disciplines
DETROZ_CS6_PC.indb 1 10/10/2016 09:47:09

Pédagogies en développement
Collection dirigée par

Jean-Marie De Ketele
Comité scientifique international
Daniel Chevrolet (Rennes I) ; Claude Tapia (Tours) ; Ben Omar Boubker (Rabat) ;
André Girard (Québec) ; Claudine Tahiri (Côte d’Ivoire)
DETROZ_CS6_PC.indb 2 10/10/2016 09:47:09

Pédagogies en développement
L’évaluation
à la lumière
des contextes
et des disciplines
Pascal Detroz,
Marcel Crahay
et Annick Fagnant
(sous la direction de)
DETROZ_CS6_PC.indb 3 10/10/2016 09:47:09

Pour toute information sur notre fonds et les nouveautés dans votre domaine
de spécialisation, consultez notre site web : www.deboecksuperieur.com
© De Boeck Supérieur s.a., 2016

Rue du Bosquet, 7 – B-1348 Louvain-la-Neuve
Tous droits réservés pour tous pays.
Il est interdit, sauf accord préalable et écrit de l’éditeur, de reproduire (notamment

par photocopie) partiellement ou totalement le présent ouvrage, de le stocker dans
une banque de données ou de le communiquer au public, sous quelque forme et de
quelque manière que ce soit.
Imprimé XXXXX
Dépôt légal :
Bibliothèque nationale, Paris : XXXXX 2016 ISSN 0777-5245
Bibliothèque Royale de Belgique, Bruxelles : 2016/13647/XXX ISBN 978-2-807-30715-5
DETROZ_CS6_PC.indb 4 10/10/2016 09:47:09

S O M M A I R E
LISTE DES AUTEURS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

INTRODUCTION . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
Par Pascal DETROZ, Marcel CRAHAY et Annick FAGNANT
CHAPITRE 1
Évaluations à large échelle : prendre la juste mesure
des effets de contexte . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
Par Dominique LAFONTAINE
AXE 1 :
ÉVALUATIONS ET CONTEXTES DIDACTIQUES
Introduction à l’axe 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
Par Annick FAGNANT
CHAPITRE 2
Évaluer en mathématiques :
une approche didactique et épistémologique . . . . . . . 63
Par Brigitte GRUGEON-ALLYS
CHAPITRE 3
L’évaluation, un paramètre prépondérant
en didactique du français langue étrangère
et seconde . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91
Par Fatima CHNANE-DAVIN et Jean-Pierre CUQ
DETROZ_CS6_PC.indb 5 10/10/2016 09:47:09

6 L’évaluation à la lumière des contextes et des disciplines
CHAPITRE 4
Évaluation formative de l’apprentissage
par la lecture : relation complexe et dynamique
« individu-contexte » . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111
Par Sylvie C. CARTIER, Thaïs GUERTIN-BARIL, Julie ARSENEAULT
et Manal RAOUI
AXE 2 :
ÉVALUATION ET MODÈLES COGNITIFS
Introduction à l’axe 2 : De la docimologie

à la psychologie de l’évaluation . . . . . . . . . . . . . . . . . . . 133
Par Marcel CRAHAY
CHAPITRE 5
Évaluations scolaires et étude du jugement
des enseignants : pour une docimologie cognitive . . 141
Par Rémi GOASDOUÉ et Marc VANTOUROUT
CHAPITRE 6
Une modélisation pour appréhender
la référentialisation dans l’évaluation
des apprentissages des élèves . . . . . . . . . . . . . . . . . . . . 169
Par Lucie MOTTIER LOPEZ
CHAPITRE 7
Le redoublement des élèves :
des décisions prises dans l’incertitude . . . . . . . . . . . . . 193
Par Géry MARCOUX et Marcel CRAHAY
DETROZ_CS6_PC.indb 6 10/10/2016 09:47:09

Sommaire 7
AXE 3 :
ÉVALUATION DANS L’ENSEIGNEMENT SUPÉRIEUR,
ORIENTATIONS DISCIPLINAIRES
ET APPROCHES PÉDAGOGIQUES
Introduction à l’axe 3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 213

Par Pascal DETROZ et Nathalie YOUNES
CHAPITRE 8
Viser le développement des pratiques
d’Assessment for Learning (AfL) dans le contexte
de la 1re année à l’université : cadre théorique,
dispositif et initiatives pédagogiques
résultant du projet « Feedbacks 1er bac ». . . . . . . . . . . 221
Par Laurent LEDUC, Audrey MOHR, Eléonore MARICHAL, Mélanie DEUM
et Pascal DETROZ
CHAPITRE 9
Comment former à une vision élargie
de l’évaluation formative en vue de réguler
efficacement les apprentissages mathématiques
des élèves ? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 259
Par Annick FAGNANT et Isabelle DEMONTY
CHAPITRE 10
Regards croisés sur deux dispositifs de formation
technopédagogique, leur outillage conceptuel
et l’évaluation de leurs bénéfices . . . . . . . . . . . . . . . . . 277
Par Catherine LOISY, Jeff VAN DE POËL et Dominique VERPOORTEN
LISTE DES TABLEAUX ET FIGURES . . . . . . . . . . . . . . . . . . . . . . . . . . 307

TABLE DES MATIÈRES . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 311
DETROZ_CS6_PC.indb 7 10/10/2016 09:47:09

DETROZ_CS6_PC.indb 8 10/10/2016 09:47:09
L I S T E D E S A U T E U R S
Julie Arseneault
Université de Montréal
Sylvie C. Cartier
Fatima Chnane-Davin
Aix-Marseille Université
Marcel Crahay
Professeur honoraire
Universités de Genève et de Liège
Jean-Pierre Cuq
Université Nice Sophia Antipolis
Isabelle Demonty
Université de Liège
Pascal Detroz
Mélanie Deum
Annick Fagnant
Rémi Goasdoué
Université Paris Descartes
DETROZ_CS6_PC.indb 9 10/10/2016 09:47:09

Brigitte Grugeon-Allys
Laboratoire de Didactique André Revuz
Université Paris-Diderot, Université de Cergy Pontoise,
Université Paris-Est Créteil, Université d’Artois, Université de Rouen
Thaïs Guertin-Baril
Dominique Lafontaine
Département éducation et formation, Université de Liège
Laurent Leduc
Catherine Loisy
École normale supérieure de Lyon
Géry Marcoux
Université de Genève
Eléonore Marichal
Audrey Mohr
Lucie Mottier Lopez
Université de Genève
Manal Raoui
Jeff Van de Poël
Marc Vantourout
Université Paris Descartes
Dominique Verpoorten
Nathalie Younes
Université Blaise Pascal de Clermont-Ferrand
DETROZ_CS6_PC.indb 10 10/10/2016 09:47:09

1
I N T R O D U C T I O N
Pascal DETROZ, Marcel CRAHAY et Annick FAGNANT
1. L’ÉVALUATION, CE CONCEPT QUI S’ÉTEND

JUSQU’À DEVENIR INSAISISSABLE
Il fut un temps où aborder le concept d’évaluation était plus simple.
Un temps où l’on ne risquait pas, en embrassant cette thématique, de s’égarer
dans une profusion de modèles, de postures ou encore de valeurs. Un temps
où emprunter le chemin de l’évaluation n’était pas synonyme d’emprunter un
« chemin sinueux, un chemin que croiseraient plusieurs sentiers propices à
la distraction et parfois à la confusion » (Scallon, 2004, p. 320).
L’évaluation n’a jamais été aussi présente dans nos vies quotidiennes.
En tant qu’enseignants et chercheurs, nous sommes cernés par des dis-
positifs d’évaluation. À certains moments, nous sommes les évaluateurs à
d’autres les évalués. À tel point que si l’évaluation était valorisée sous forme
d’actions cotées en bourse, un individu ayant misé quelques francs sur
celle-ci dans les années 1960 verrait sans doute sa fortune faite aujourd’hui.
Mais paradoxalement, le concept d’évaluation a rarement été aussi
peu limpide. Comme tout élément en forte croissance, l’évaluation traverse
1. Le présent ouvrage fait suite au 27e colloque de l’ADMEE Europe qui a été organisé à
l’Université de Liège du 17 au 20 janvier 2015. La thématique de ce colloque est donc
forcément identique à celle du présent ouvrage, à savoir « L’évaluation à la lumière
des contextes et des disciplines ». En conséquence, la présente introduction s’inspire
en partie de la description de la thématique telle qu’elle a été présentée dans l’appel à
communication de l’ADMEE.
DETROZ_CS6_PC.indb 11 10/10/2016 09:47:09

une crise profonde. De nombreuses voix s’élèvent contre ce « tout à l’éva-

luation » qui nous enferme derrière des grilles (Barbara Cassin, 2014) et qui
n’est pas dénué de faces sombres (Martucelli, 2010). Certes, ces critiques ne
sont pas récentes. Par exemple, Berger et Ardoino (1989) nous mettaient
déjà en garde contre une évaluation « en miette » qu’ils opposaient à une
évaluation « en acte ». Mais aujourd’hui, les critiques et questionnements
sont prégnants. Ils questionnent les fondements mêmes de ce concept. Tardif
(2006, p. 134) n’écrivait-il pas, à propos de l’évaluation dans une approche
par compétences, que « Les exigences de l’évaluation des compétences
sont nombreuses et elles posent des défis de taille. D’aucuns pourraient dès
maintenant penser qu’une telle entreprise est impossible étant donné les
théories et les instruments développés à ce jour dans le domaine de l’éva-
luation des apprentissages » ? Sur le même sujet, les propos de De Ketele
et Gérard (2005, p. 22) étaient tout aussi peu encourageants : « Peut-on
espérer un jour disposer d’une édumétrie satisfaisante pour évaluer des
compétences complexes ? Rien n’est moins sûr dans l’état actuel de nos
connaissances ». Citons aussi, dans le même ordre d’idées, la conclusion
de l’article de Vandermaren et Loye (2011, p. 52) qui, après une vision
critique de l’évaluation des compétences, notaient dans leur conclusion :
« Notre réflexion critique, très sinon trop critique selon certains collègues,
ne fait que relever l’ampleur et la difficulté de leur tâche et tout le mérite
qu’ils peuvent avoir dans leurs tentatives répétées, assidues, ingénieuses
de relever ce défi qui, lorsque l’on combine les analyses sociologiques et
psychologiques du travail scolaire, peut apparaître parfois comme une tâche
impossible à surmonter. »
Nous en sommes à un stade où, à force d’être utilisé tout le temps
et en tous lieux, par tout un chacun selon plusieurs sens et fonctions, le
concept scientifique d’évaluation se dilue jusqu’à devenir insaisissable.
Considérons à titre d’exemple (et pour s’en tenir uniquement au
domaine de l’enseignement2) les dispositifs contemporains suivants : un pro-
fesseur de médecine questionnant le raisonnement clinique de ses étudiants,
des études internationales de type PISA, un test d’entrée donnant accès aux
études en sciences appliquées, un enseignant observant un élève en prise
avec un problème mathématique pour lui donner un feedback précis, les
étudiants notant la qualité de l’enseignement qu’ils ont reçu, un inspecteur
étudiant la posture d’un enseignant face à sa classe, un chasseur de têtes
faisant un screening du profil d’un candidat à un poste à haute responsabilité
dans une administration scolaire, des experts internationaux auditant une
Faculté de Philosophie et Lettres d’une université quelconque, un respon-
sable administratif analysant le rendement de l’un des enseignants de son
2. Car on pourrait également évoquer l’évaluation dans les entreprises, l’évaluation des
services et des produits par les clients, etc. Bref, l’évaluation est partout.
DETROZ_CS6_PC.indb 12 10/10/2016 09:47:09

Introduction 13
département, un élève soumis à un test adaptatif en anglais, le classement

« Shanghai » des universités…
Si l’on analyse ces démarches évaluatives et que l’on essaie de déter-
miner leur(s) point(s) commun(s), la tâche est complexe. Hormis le fait
qu’elles traitent toutes, d’une manière ou d’une autre, d’évaluation, il n’est
pas aisé de trouver d’autres similarités. En effet, les méthodes, les publics
visés, les parties prenantes, les modèles sous-jacents, les finalités, les tem-
poralités, etc. sont tellement divergents qu’il est difficile de considérer ces
dispositifs comme faisant partie d’un même ensemble unifié. Le lecteur
pourrait argumenter en disant qu’il s’agit dans tous les cas de prendre
de l’information et d’effectuer un jugement afin de prendre une décision3,
mais peut-on encore se contenter d’un cadre conceptuel aussi large pour
répondre à des critiques4 de plus en plus précises, instruites et… virulentes.
2. UNE COMPLEXITÉ QUI S’EST DÉVELOPPÉE

AU FIL DU TEMPS
Aujourd’hui, la complexité est une facette inhérente de l’évaluation.
Il n’en a pas toujours été ainsi… En effet, il fut un temps où « évalua-
tion » était quasi synonyme de « mesure ». On sait aujourd’hui que c’est
une chimère, mais les edumétriciens de l’époque cherchaient à obtenir des
mesures de qualité similaires à celles qu’obtenaient les psychométriciens qui,
eux-mêmes, visaient à obtenir des mesures de qualité identiques à celles des
physiciens. La primauté était ainsi donnée à la qualité de la mesure. Pour
l’anecdote, on prête à Alfred Binet, cofondateur du célèbre test Binet-Simon,
la tirade suivante, lorsqu’on lui demanda de définir l’intelligence : « l’intel-
ligence, c’est ce que mesure mon test ». Même si cette réplique semble
apocryphe, elle est signifiante. Nous ne dirions pas que le construit mesuré
était à l’époque sans importance, mais la qualité statistique de la mesure
passait avant toute autre considération.
Plus tard, les référentiels ont fait leur entrée remarquée dans le
domaine de l’évaluation. Le contexte est lié à l’organisation du travail selon
les principes du taylorisme, la psychologie est avant tout behavioriste et
Tyler (1935) modifie durablement les conceptions pédagogiques en pro-
posant l’approche par objectifs. La conjonction de ces phénomènes va
profondément influencer l’évaluation scolaire. Elle va se construire à partir
d’un référentiel de ce que les étudiants devraient avoir acquis à un moment
donné de leur formation. C’est l’âge d’or des taxonomies d’objectifs. L’idée,
3. Ce qui correspond à la définition de l’évaluation par Stufflebeam (1981).

4. Voir par exemple Del Rey (2013), La tyrannie de l’évaluation ou encore Miller et
Milner (2004), Voulez-vous être évalué ? en plus des références citées en amont.
DETROZ_CS6_PC.indb 13 10/10/2016 09:47:09

très présente dans la perspective de la mesure, de comparer les étudiants

entre eux – le mythe de la courbe de Gauss – est ici supplantée par l’idée
de comparer la performance d’un étudiant par rapport à un attendu (réfé-
rentiel) clairement défini. On mesure des acquis d’apprentissage.
L’évaluation est ensuite considérée comme un outil de gestion. Si
l’on arrive à mesurer les acquis des étudiants, on est à même de déceler
des décalages par rapport aux attendus. S’il y a un décalage négatif entre
ce que l’étudiant sait ou sait faire et ce qui est prescrit dans le référentiel,
il s’agit alors d’une erreur menant à une régulation de type cybernétique.
L’avènement du cognitivisme et du socioconstructivisme, associé
à l’explosion des savoirs et aux besoins de flexibilité constante en entre-
prise (qui prend le contre-pied du taylorisme et conduira notamment à
vouloir, dans une certaine mesure et avec des désaccords parfois marqués,
« remplacer » les objectifs par des compétences), modifie encore une fois
la posture des évaluateurs. L’évaluation devient plus dynamique. Elle est
porteuse de sens pour les différentes parties prenantes. L’idée est d’éclairer
les situations d’enseignement/apprentissage, de les rendre intelligibles pour
chacun en vue de construire du sens. Les modèles cognitifs sont construits
à partir du comportement des apprenants, mais aussi à partir des stratégies
mises en place par les évaluateurs.
Esquissé à la grosse louche et de manière parfois caricaturale5, cette
vision évolutive du concept d’évaluation poursuit la finalité suivante : mettre
en évidence le fait qu’aujourd’hui, divers modèles et postures en lien avec
l’évaluation se côtoient, se juxtaposent ou s’intègrent dans nos systèmes
éducatifs, rendant complexes la lisibilité et la compréhension même de cette
notion d’évaluation. Les modèles s’entrechoquent et ceux dont l’évaluation
est le métier ne peuvent plus s’abstenir d’empoigner cette problématique à
bras le corps, même si la tâche est ardue. Car le concept d’évaluation semble
a priori polysémique et flou. Sa définition est large et à le définir de façon
trop générale, on court le risque de le vider de sa substance. À l’inverse,
en entrant dans sa complexité, on court le risque opposé de produire un
discours qui ne soit audible que par quelques initiés.
3. VERS UNE PRISE EN COMPTE

DES CONTEXTES
Le parti pris des éditeurs scientifiques du présent ouvrage n’est
pas de plaider en faveur d’un modèle – ou d’une logique – d’évaluation
plutôt qu’un autre ; il s’agirait plutôt de les mettre en débat. En tant que
5. Pour un historique complet, voir Bonniol et Vial (1997).
DETROZ_CS6_PC.indb 14 10/10/2016 09:47:09

Introduction 15
spécialistes de l’évaluation, nous sommes autant passionnés par des études

psychométriques présentant de nouveaux indices permettant de détecter la
réponse au hasard dans les questionnaires standardisés que par des études
beaucoup plus écologiques concernant l’utilisation du feedback en sciences
par les étudiants de troisième secondaire des écoles liégeoises en Belgique
francophone.
Il nous semble par ailleurs stérile d’opposer diverses postures épisté-
mologiques en évaluation qui nous semblent de facto plus complémentaires
qu’inconciliables… Par exemple, lorsqu’un enseignant met en place un dispo-
sitif d’évaluation formative dans le cadre de l’Assessement for learning – et
que, dès lors, il est surtout très préoccupé par la qualité de son feedback –
n’est-il pas nécessaire qu’il se préoccupe aussi de la qualité de l’information
ou de la mesure qu’il récolte à travers son dispositif ? Peut-il faire abstraction
de la validité de la mesure sous prétexte qu’il vise avant tout son caractère
diagnostique ? Poser la question, c’est sans doute y répondre.
En tant que spécialiste de l’évaluation, notre rôle est d’éclairer les
enjeux et de dénoncer les éventuelles incohérences que l’on peut trouver
dans les dispositifs d’évaluation auxquels nous sommes confrontés. En effet,
s’il ne nous semble pas opportun de défendre systématiquement l’un ou
l’autre modèle, il est impératif de repérer et d’améliorer des démarches qui
ne semblent pas cohérentes. Pour reprendre l’exemple cité en amont, un
enseignant qui vise une évaluation formative dans le cadre de l’Assessement
for learning ne peut résolument pas se contenter de donner le score brut
d’un test à un étudiant. Idéalement, s’il souhaite atteindre son objectif, il
devra au contraire analyser finement les réponses offertes par l’étudiant
afin qu’il puisse se construire une représentation des éventuelles difficultés
de ce dernier. Cette analyse devrait donner lieu à un feedback détaillé qui
sera le point de départ d’un dialogue collaboratif entre l’enseignant et l’étu-
diant pouvant déboucher sur des pistes très concrètes de remédiation. Les
problèmes de concordances et/ou de tensions entre les finalités poursuivies
(ou annoncées) par l’évaluation d’une part et le dispositif réellement mis
en place d’autre part ne sont pas rares. Citons à titre d’exemple le fait de
réaliser des évaluations formatives, mais qui comptent pour un pourcentage
de la note finale, évaluer de manière formative la qualité des enseignements
universitaires, mais acheminer les rapports de résultats aux autorités aca-
démiques…
En tant que scientifique dans le domaine de l’évaluation, il nous
semble absolument fondamental de mener des recherches s’intégrant dans
des contextes spécifiques, se déroulant dans des écologies clairement défi-
nies. En effet, il est loin le temps où les études ne se centraient que sur la
mesure (la note), sur les différents biais (de halo, de contraste, etc.) qui
l’influençaient et sur la façon de contrecarrer ces biais. Il est également loin
DETROZ_CS6_PC.indb 15 10/10/2016 09:47:09

le temps où la problématique de l’évaluation se limitait à l’évaluation scolaire

(des élèves) qui était abordée essentiellement dans le cadre théorique de
la psychométrie. Du fait de la diversification des fonctions de l’évaluation,
de l’élargissement des publics évalués, de son inscription dans de nou-
veaux modèles et de l’évolution des valeurs la concernant, des champs de
recherche nouveaux ont émergé, des questions nouvelles se sont posées.
Il est devenu impossible de traiter scientifiquement l’ensemble de la
complexité qui résulte de cette évolution. Les chercheurs doivent, dès lors,
nous semble-t-il, assumer ce fait, et proposer des études dans lesquelles le
contexte est un élément prépondérant. Il faut également qu’ils le fassent de
manière audible pour qu’un public de non-initiés puisse bénéficier de leurs
conclusions. Les différents chapitres de cet ouvrage cherchent à remplir
cette double contrainte. Nous les avons regroupés en trois axes thématiques
qui étaient, par ailleurs, trois des axes du colloque de l’ADMEE-Europe dont
est issu le présent ouvrage.
4. STRUCTURE DE L’OUVRAGE
Cet ouvrage débute par un texte introductif, correspondant à la
conférence inaugurale de ce colloque et traduisant sa problématique cen-
trale : l’importance de la prise en compte des contextes lors des évaluations.
Dans les lignes qui suivent, nous présentons brièvement ce texte
introductif, ainsi que les raisons ayant présidé aux choix des trois axes
thématiques. En vue de donner une vue d’ensemble de l’ouvrage, le contenu
de chacun des axes est également très brièvement évoqué.
Notons toutefois qu’une description plus complète des thématiques
traitées par chacun des axes sera présentée en introduction de ceux-ci. Un
court résumé de chacun des chapitres constitutifs y sera également présent.
Nous renvoyons donc le lecteur intéressé à ces présentations liminaires.
4.1. L’importance de la prise en compte

du contexte lors des évaluations
Dans son texte intitulé « Évaluations à large échelle : prendre la
juste mesure des effets de contexte » (chapitre 1), Dominique Lafontaine
part du principe selon lequel, « sans appréhension rigoureuse des effets de
contexte, les enquêtes internationales sont sans intérêt, sans pertinence,
voire risquent d’induire en erreur… » (p. 1 de l’article). Le ton est donné
d’emblée et l’analyse rigoureuse présentée tout au long du texte convainc
rapidement le lecteur, à la fois du bien-fondé de ces enquêtes, mais aussi
de toute la prudence qu’il convient de conserver lors de l’interprétation des
résultats. Appuyant ses propos sur l’évolution des Cadres de références
DETROZ_CS6_PC.indb 16 10/10/2016 09:47:09

Introduction 17
(frameworks) développés dans le cadre de l’enquête PISA, elle montre

comment l’impact des contextes est pris en compte en amont du processus
d’évaluation, au moment du test et en aval de celui-ci. Ces « contextes » se
déclinent selon deux dimensions : une « diversité des contextes » d’abord,
caractérisée par les particularités linguistiques et culturelles des pays, mais
aussi par l’organisation même du système éducatif ; un « emboîtement des
contextes » ensuite, dans la mesure où les individus dont on mesure les
performances sont situés dans des classes, elles-mêmes situées dans des
filières, des programmes d’études, des régions et des pays. Le texte décrit
très précisément les avancées scientifiques réalisées ces dernières années,
tout en présentant des illustrations permettant au lecteur de comprendre
les enjeux liés à cette « juste » prise en compte des effets de contexte.
Si la porte d’entrée choisie est celle des enquêtes internationales à large
échelle, Dominique Lafontaine explique aussi que certains éléments, comme
les « biais de réponse » ou le « big-fish-little-pond-effect », sont également
à prendre en considération dans des études à plus petite échelle ou dans
des études plus qualitatives. Pour conclure, elle se tourne alors vers l’avenir,
en pointant les acquis, les points d’attention et les défis qu’il reste encore
à relever.
4.2. Axe 1 : Évaluations et contextes didactiques

Cet axe était incontournable à partir du moment où la prise en
compte des contextes était la thématique centrale du colloque liégeois.
En effet, une des manières de proposer une contextualisation accrue des
recherches en évaluation est de passer par une « didactisation » de l’éva-
luation. La didactique des disciplines a fait la preuve qu’elle était très
complémentaire avec les sciences de l’éducation en ce qu’elle apporte
l’éclairage résolument disciplinaire que ces dernières n’ont pas toujours.
Or, s’il paraît aujourd’hui évident que l’on n’enseigne pas le français langue
étrangère comme l’on enseigne les mathématiques ou les sciences, il semble
tout aussi évident que l’on n’évalue pas de la même manière les étudiants
dans ces disciplines. C’est d’autant plus vrai quand les méthodes d’ensei-
gnement et d’évaluation se fertilisent mutuellement comme c’est le cas dans
l’Assessment for Learning. Dès lors, il est non seulement pertinent, mais
aussi nécessaire, d’augmenter les synergies entre ces deux champs théo-
riques. Il est en effet probable que les pratiques et modèles de l’évaluation
d’une part, les connaissances didactiques inhérentes à certaines disciplines
d’autre part, puissent s’interféconder, ouvrant ainsi de nouveaux champs
d’investigation prometteurs.
Cette partie de l’ouvrage comprend trois chapitres portant sur les
liens entre évaluations et, respectivement, didactique des mathéma-
tiques (chapitre 2 : Brigitte Gugeon-Allys – Évaluer en mathématiques : une
approche didactique et épistémologique) ; didactique du français langue
DETROZ_CS6_PC.indb 17 10/10/2016 09:47:09

étrangère et seconde (chapitre 3 : Fatima Chnane-Davin et Jean-Pierre

Cuq – L’évaluation, un paramètre prépondérant en didactique du français
langue étrangère et seconde » du texte coécrit par) et apprentissage par
la lecture dans trois contextes disciplinaires différents (chapitre 4 : Sylvie
C. Cartier, Thaïs Guertin-Baril, Julie Arseneault et Manal Raoui – Évaluation
formative de l’apprentissage par la lecture : relation complexe et dynamique
« individu-contexte »).
4.3. Axe 2 : Évaluations et modèles cognitifs

Lorsque les organisateurs du colloque liégeois ont proposé cet axe,
ils envisageaient de recevoir des contributions exclusivement en lien avec les
modèles cognitifs de l’apprentissage. Ils ont été pris à contre-pied : il s’avère
que des communications signifiantes portaient sur les aspects cognitifs liés
aux pratiques d’évaluation. Notons que cette thématique illustre à mer-
veille la vision évolutive du concept d’évaluation que nous avons brièvement
décrite en amont. En effet, après avoir mis l’emphase sur la mesure (la note)
produite par les enseignants – et sur les biais éventuels l’entachant –, après
avoir mesuré l’effet de procédure destiné à contrer ces biais (par exemple
les grilles critériées d’évaluation) des chercheurs se donnent pour objectif
premier de comprendre l’activité évaluative telle qu’elle se déploie dans la
réalité complexe de la vie des classes. Renonçant à la posture normative
et prescriptive des pionniers (de Landsheere, 1976), les chercheurs ayant
contribué à l’axe 2 du présent ouvrage veulent comprendre les raisonne-
ments évaluatifs des enseignants, avant de les conseiller ou leur faire des
suggestions.
Cet axe comprend trois chapitres, qui traitent respectivement de
l’évaluation scolaire et du jugement des enseignants (chapitres 5 : Rémi
Goasdoué et Marc Vantourout – Évaluations scolaires et étude du jugement
des enseignants : vers une docimologie cognitive) ; de la référentialisation
dans l’évaluation des apprentissages des élèves (chapitre 6 : Lucie Mottier
Lopez – Une modélisation pour appréhender la référentialisation dans l’éva-
luation des apprentissages des élèves) et des facteurs influençant la prise
de décision portant sur le redoublement scolaire (chapitre 7 : Géry Marcoux
et Marcel Crahay – Le redoublement des élèves : des décisions prises dans
l’incertitude).
DETROZ_CS6_PC.indb 18 10/10/2016 09:47:09

Introduction 19
4.4. Axe 3 : Évaluation dans l’enseignement

supérieur, orientations disciplinaires
et approches pédagogiques
La prise en compte des contextes et des disciplines est particu-
lièrement vivace au niveau des pratiques d’évaluation de l’enseignement
supérieur. D’une part parce que, comme l’ont souligné Rege Colet et Romain-
ville (2006) ce niveau d’enseignement est en profonde mutation (dû à la
massification des étudiants notamment) ce qui n’est pas sans effet sur l’éva-
luation. D’autre part, il y a également un ancrage disciplinaire important
de l’évaluation qui mène parfois à des dispositifs très spécifiques et très
originaux. C’est le cas, par exemple, des tests de concordance de scripts et
des Examens cliniques objectifs structurés dans le domaine de la médecine.
Par ailleurs, la qualité de l’enseignement y est un thème émergent amenant
une préoccupation nouvelle pour l’évaluation, notamment à visée formative.
Évaluation qui est également mobilisée dans les approches de Scholarship of
Teaching and Learning dont la vocation est de mesurer l’impact d’innovations
pédagogiques afin de favoriser un partage de pratique entre pairs souvent
d’une même discipline. Pour toutes ces raisons, l’enseignement supérieur
nous semble être un contexte pertinent dans le cadre de cet ouvrage.
Comme dans les axes précédents, on trouve ici encore trois chapitres
qui abordent respectivement l’évaluation dans le cadre de l’Assessement for
Learning (chapitre 8 : Laurent Leduc, Audrey Mohr, Eléonore Marichal,
Mélanie Deum et Pascal Detroz – Viser le développement des pratiques
d’Assessment for Learning [AfL] dans le contexte de la 1re année à l’uni-
versité : cadre théorique, dispositif et initiatives pédagogiques résultant
du projet « Feedbacks 1er Bac »), la formation à l’évaluation formative de
futurs titulaires d’un master en sciences de l’éducation dans le cadre des
premiers apprentissages mathématiques des élèves (chapitre 9 : Annick
Fagnant et Isabelle Demonty – Comment former à une vision élargie de
l’évaluation formative en vue de réguler efficacement les apprentissages
mathématiques des élèves ?) et l’évaluation des bénéfices de deux dispo-
sitifs de formation technopédagogique (chapitre 10 : Catherine Loisy, Jeff
Van de Poël, Dominique Verpoorten – Regard croisé sur deux dispositifs
de formation technopédagogique, leur outillage conceptuel et l’évaluation
de leurs bénéfices).
DETROZ_CS6_PC.indb 19 10/10/2016 09:47:09

RÉFÉRENCES BIBLIOGRAPHIQUES
Ardoino, J. & Berger, G. (1989). D’une évaluation en miettes à une évaluation en

actes, le cas des universités. RIRELF : Paris, 1989.
Bonniol, J.-J. & Vial, M. (1997). Les modèles de l’évaluation : textes fondateurs
avec commentaires. Bruxelles, Paris : De Boeck Université.
De Ketele, J.-M. & Gérard, F.-M. (2005). La validation des épreuves d’évaluation selon
l’approche par les compétences. Mesure et Évaluation en Éducation, volume 28,
no 3, 1–26.
Del Rey, A. (2013). La tyrannie de l’évaluation. Paris : La Découverte, coll. « Cahiers
libres », 143 p.
de Landsheere, G. (1972 et 1976). Évaluation continue et examens. Précis de
docimologie. Bruxelles : Labor.
Martuccelli, D. (2010). Critique de la philosophie de l’évaluation. Cahiers interna-
tionaux de sociologie, no 128-129, 27-52. DOI : 10.3917/cis.128.0027
Meirieu, Ph., Develay, M., Durand., C. & Mariani, Y. (dir.) (1996). Le concept de
transfert de connaissance en formation initiale et continue. Lyon : CRDP.
Miller, J.-A. & Milner, J.-C. (2004). Voulez-vous être évalué ? Paris : Grasset.
Piéron, H. (1963). Examens et docimologie. Paris : Presses universitaires de France.
Rege Colet, N. & Romainville M. (2006). La pratique enseignante en mutation à
l’université. Bruxelles : De Boeck.
Scallon, G. (2004). L’évaluation des apprentissages dans une approche par les
compétences. Bruxelles : De Boeck Université.
Stufflebeam, D. L., Foley, W.J., Gephart, W.J., Guba, E.G., Hammond, R.L., Merriman,
H.O. & Provus, M. M (1980). L’évaluation et la prise de décision en éducation.
Victoriaville, Canada : N.H.P.
Tardif, J. (2006). L’évaluation des compétences. Documenter le parcours de
développement. Montréal : Chenelière.
Tyler, R.W. (1935). Evaluation : A challenge to progressive education. Education
Research Bulletin, 14, 9–16.
Van der Maren, J.-M. & Loye, N. (2011). À propos de quelques difficultés de l’éva-
luation des compétences. Réflexions critiques. Éducation Sciences et Society,
2 (2), 40-53.
DETROZ_CS6_PC.indb 20 10/10/2016 09:47:09

Axe
ÉVALUATION
2
ET MODÈLES COGNITIFS
Introduction à l’axe 2 :
De la docimologie à la psychologie de l’évaluation
Chapitre 5 Évaluations scolaires et étude du jugement
des enseignants : pour une docimologie
cognitive
Chapitre 6 Une modélisation pour appréhender
la référentialisation dans l’évaluation
des apprentissages des élèves
Chapitre 7 Le redoublement des élèves :
des décisions prises dans l’incertitude
DETROZ_CS6_PC.indb 131 10/10/2016 09:47:13

DETROZ_CS6_PC.indb 132 10/10/2016 09:47:13
Introduction à l’axe 2 :
De la docimologie
à la psychologie de l’évaluation
Marcel CRAHAY
1. LA DOCIMOLOGIE EST-ELLE OBSOLÈTE ?

Les études docimologiques se sont développées dans l’entre-deux
guerre (Merle, 1998)46. Elles se sont poursuivies jusque dans les années 1960
et 1970. Deux ouvrages sont emblématiques de ce courant de recherches :
Examens et docimologie de Piéron (1963) et Évaluation continue et
examens. Précis de docimologie de de Landsheere (1972). Dans cet
ouvrage réédité à six reprises (c’est-à-dire jusqu’en 1980), de Landsheere
définit la docimologie comme la « science qui a pour objet l’étude sys-
tématique des examens, en particulier des systèmes de notation, et du
comportement des examinateurs et des examinés » (1980, p. 13). Cette défi-
nition souligne le rôle central occupé dans cette discipline par les examens
avec leur corollaire les systèmes de notation. Elle mentionne aussi « le
comportement des examinateurs et des examinés ». Cependant, la lecture
de l’ouvrage indique que cette dimension n’est pas réellement investiguée.
Le projet qui anime de Landsheere, mais aussi Piéron (1963) et
Bonboir (1972) notamment est noble. Il s’agit de réduire autant que faire
se peut les biais multiples qui introduisent l’inégalité dans les notations sco-
laires des enseignants. L’approche est normative ou prescriptive dans l’esprit
pédagogique de l’époque. Celle-ci se fonde sur un idéal de mesure juste des
niveaux et performances scolaires des élèves. En fait, il semble que, pour
ces pionniers, il va de soi d’assimiler évaluation et mesure. Cette question
n’est pas discutée dans les premières éditions du Précis de docimologie
46. Le lecteur trouvera un développement des idées présentées dans cette première section
dans Crahay, M. (2006). L’évaluation des élèves : entre mesure et jugement.
DETROZ_CS6_PC.indb 133 10/10/2016 09:47:13

de de Landsheere. Elle l’est dans la quatrième édition de 1976. Celui-ci

mentionne notamment un texte de Taba (1962, cité par de Landsheere,
1976) distinguant mesure et évaluation, dans lequel l’évaluation est conçue
comme dépendante de la mesure, tout en intégrant d’autres éléments ; par
exemple, l’effort de l’élève. Évoquant l’évaluation d’une œuvre d’art, de
Landsheere (1976) s’oppose à Taba. Pour lui, il faut distinguer l’évaluation
de la mesure. L’évaluation relèverait comme l’appréciation esthétique d’un
tableau, d’opérations de jugement. Quant à la mesure, elle est une opération
consistant à « assigner un nombre à un objet ou à un événement selon une
règle logiquement acceptable » (de Landsheere, 1976, p. 1647). Ceci implique
que la mesure porte sur des objets ou paramètres clairement circonscrits
et qu’une règle permette de lier systématiquement les valeurs métriques
aux variations des paramètres visés.
Cette tension entre mesure et jugements évaluatifs reste d’actualité.
Les épreuves à large échelle, qu’il s’agisse des épreuves PISA ou celles
composant les épreuves externes dans les différents systèmes éducatifs,
se situent clairement dans le champ de mesure. En ce qui concerne les
évaluations opérées par les enseignants lorsqu’ils jugent les performances
de leurs élèves, les choses sont moins claires.
Notons au passage que les théories de la mesure en éducation ont
dû – et ce ne fût pas une entreprise aisée – s’affranchir de la psychométrie.
Émergeant dans le contexte des théories eugénistes de la fin du XIXe et
début du XXe siècles (Lemaine & Matalon, 1985), la psychométrie classique
se donne pour objet de discriminer de façon fiable ou valide les individus,
principalement en fonction de leurs aptitudes. Dans cette perspective, la
mesure est jugée valide ou fidèle si les scores des individus aux différents
items du test sont uniformes. Techniquement, il s’agit de s’assurer que la
variance inter-questions est inférieure à la variance entre individus. Dans ce
cas, le score au test peut être attribué à l’individu puisqu’il est indépendant
des fluctuations du paramètre « question ». Mais l’enracinement de la théorie
de la mesure ne va pas sans contradiction. Celle-ci est apparente dans le
Précis de Docimologie de de Landsheere (1976). Introduisant le chapitre
consacré à la notation, il présente la courbe de Gauss comme un préambule
indispensable (p. 116). Plus loin dans l’ouvrage, à la page 210, il dénonce
« le dangereux mythe de la courbe de Gauss » (cf. p. 210). Dans le monde
francophone, Cardinet (1988) est sans doute l’auteur qui s’est le plus efforcé
de lever cette contradiction. Pour lui, il convient d’abandonner l’ancrage
psychométrique et de rechercher un autre arrimage axiomatique pour fonder
l’édumétrie. D’où son investissement avec quelques autres chercheurs dans
des études sur la généralisabilité (Cardinet & Tourneur, 1985). Selon ce
chercheur suisse, la conception psychométrique de la fidélité, reposant sur
47. Sur ce point, de Landsheere s’inspire explicitement de Guilford (1954).
DETROZ_CS6_PC.indb 134 10/10/2016 09:47:13

Introduction à l’axe 2 135
la loi de distribution normale, ne permet pas d’estimer la fidélité de la

mesure d’élèves pris isolément. Or, en éducation, il est nécessaire de pouvoir
estimer la compétence de l’élève « sans du tout faire intervenir les résultats
d’autres personnes » (p. 121). Plus largement, il s’agit d’assumer, sur le
plan de la mesure, les différentes questions qui se posent en éducation. Il
faut non seulement pouvoir différencier les individus, notamment dans la
perspective de composer des groupes de besoin ou des groupes coopératifs,
mais il faut aussi pouvoir distinguer les domaines de compétences au sein
desquels l’élève fait preuve de maîtrise de ceux au sein desquels il éprouve
des difficultés et ceci dans la perspective de diagnostiquer ses forces et ses
faiblesses. Il faut encore pouvoir examiner les scores d’un élève en fonction
des moments de l’évaluation, ceci afin de faire apparaître ses évolutions.
En définitive, la docimologie (ou mieux l’édumétrie) en tant que
discipline s’efforçant de composer des épreuves et de concevoir des sys-
tèmes de notation permettant de mesurer au mieux les compétences des
individus ou l’efficacité des systèmes, garde sa pertinence et sa légitimité.
En revanche, il n’est pas sûr que celle-ci puisse aider les enseignants dans
la pratique quotidienne de leurs classes.
2. LA NÉCESSITÉ D’UNE ANALYSE

APPROFONDIE DE L’ACTIVITÉ ÉVALUATIVE
DES ENSEIGNANTS
On doit principalement à Noizet et Caverni (1978) d’avoir amorcé
le développement d’une autre approche, résolument enracinée dans la
psychologie. Celle-ci repose sur l’idée de base selon laquelle « l’activité
d’évaluation fait partie intégrante de nos modalités d’adaptation à l’environ-
nement physique et social » (Aubret, 1995, p. 541). Pour ces auteurs, il s’agit
de reconnaître que l’évaluation scolaire mobilise des opérations mentales
de traitement de l’information et, donc, des activités perceptives et cogni-
tives. Selon Noizet et Caverni (1978), le noyau de ces opérations procède
d’un schéma de comparaison, consistant à rapporter un objet à évaluer sur
une échelle de valeurs. Plus précisément, tout évaluateur sélectionne des
observables qu’il interprète en fonction de systèmes de référence.
Le modèle « comparaison référent/référé » de Noizet et Caverni
(1978) est au cœur de la contribution de Goasdoué et Vantourout : « Évalua-
tions scolaires et étude du jugement des enseignants : vers une docimologie
cognitive ». Notons par ailleurs que nos collègues utilisent le terme de doci-
mologie dans une acception différente de la nôtre, mais cette divergence
lexicale ne nous paraît pas fondamentale. Ce modèle est également mobilisé
dans la contribution de Mottier Lopez ainsi que dans celle de Marcoux et
DETROZ_CS6_PC.indb 135 10/10/2016 09:47:13

Crahay, mais dans une moindre mesure. Ceci prouve son actualité. Pour
être précis, ce modèle pose que toute évaluation repose sur la construction
par l’évaluateur « d’un référent, système d’attentes jugées légitimes, ou d’un
ensemble de critères au nom desquels on va se prononcer, et d’un référé,
“modèle réduit” de l’objet évalué, c’est-à-dire ce à partir de quoi on pourra
porter le jugement de valeur » (cf. Hadji, 1997, pp. 42-45 ; 1992, pp. 31-36,
cité par Goasdoué et Vantourout, ci-dessous). Bien plus, le modèle de réfé-
rence se construit avant l’évaluation. Comme le mentionnent Goasdoué et
Vantourout, le modèle « comparaison référent/référé » fait consensus tant
dans le domaine de l’enseignement (cf. Hadji, 1997) que dans celui de la
formation (cf. Barbier, 1985). Il semble donc que les chercheurs en évalua-
tion considèrent ce modèle comme universel.
L’intérêt des trois contributions rassemblées dans la présente section
de l’ouvrage réside dans le fait qu’elles discutent à des degrés divers, sur la
base de données empirique, la validité et l’universalité de ce modèle. Bien
plus, les données engrangées par les uns et les autres tendent précisément
à en contester l’universalité.
Étudiant notamment l’activité de professeurs confrontés à des
situations aménagées en mathématiques, Rémi Goasdoué et Marc Vantou-
rout distinguent trois groupes ou profils d’enseignants. Le premier profil
conforte le modèle référent/référé puisqu’il correspond à des enseignants
qui résolvent immédiatement l’intégralité du problème, avant de s’intéresser
aux réponses des élèves. Disposant de l’ensemble des réponses attendues,
ces professeurs disposent d’un référent lorsqu’ils évaluent les productions
des élèves. Ces enseignants se caractérisent également par la maîtrise des
enjeux disciplinaires du problème, ce qui indique l’importance des connais-
sances disciplinaires dans l’activité évaluative des enseignants. Cependant,
d’autres profils ont également été identifiés, pour lesquels il est difficile, voire
impossible de les décrire à l’aide du modèle comparaison référent/référé.
Ainsi, on repère des professeurs qui ne résolvent pas le problème, car, ne
maîtrisant pas les connaissances disciplinaires nécessaires, ils rencontrent
des difficultés importantes pour le comprendre. Il convient de se demander
quelle portée il convient de donner à cette dernière observation. Celle-ci
est réalisée dans le cadre d’une étude quasi expérimentale dans laquelle les
enseignants n’ont pas conçu l’épreuve ; celle-ci leur est en quelque sorte
imposée. Or, on peut penser que, dans le quotidien de leurs classes, les
enseignants évitent de présenter à leurs élèves des problèmes qu’eux-mêmes
ne peuvent résoudre. Quoi qu’il en soit l’observation interpelle et mériterait
d’être vérifiée par des recherches complémentaires en conditions naturelles.
Plus généralement, ces chercheurs ambitionnent de comprendre
les logiques internes aux pratiques d’évaluation en articulant les apports
théoriques de la psychologie et des didactiques disciplinaires, ce qui les
DETROZ_CS6_PC.indb 136 10/10/2016 09:47:13

conduit à proposer une docimologie cognitive au sein de laquelle la validité

des raisonnements évaluatifs des enseignants est investiguée. Car, pour
ces chercheurs, les raisonnements évaluatifs à mobiliser diffèrent selon les
contenus et les épreuves ; le modèle référent/référé fonctionnerait dans
certains cas et pas dans d’autres. En définitive, c’est l’universalité de ce
modèle qui est mis en question.
Dans sa contribution, Lucie Mottier Lopez remarque que, classi-
quement, dans le modèle référent/référé, le référentiel d’évaluation est un
objet conçu comme préexistant à l’activité évaluative de l’enseignant, ce
qu’elle conteste. Pour elle, souvent si pas toujours, les enseignants pro-
cèdent à une démarche de référentialisation, désignant par là un processus
d’élaboration du référentiel. Autrement dit, le référentiel mobilisé par les
enseignants pour évaluer les performances des élèves n’est pas disponible tel
quel, puisé dans une source quelconque (programme, manuel, curriculum,
etc.). Postulant sur la base des travaux de Figari et Renaud (2014) que toute
tâche évaluative convoque une référentialisation spécifique, elle s’intéresse
à une question de recherche précise : « comment cette référentialisation
spécifique s’observe-t-elle dans les jugements évaluatifs des enseignants au
regard de référents prescrits, supposés communs ? » Pour répondre à cette
question, la chercheuse genevoise élabore, sur la base d’une large revue de
la littérature, une modélisation de l’activité évaluative de l’enseignant au
regard de trois axes conceptuels :
– les invariants de l’activité évaluative ;

– les dimensions et qualités des objets évalués ;
– la relation entre l’activité évaluative et les contextes sociaux et
institutionnels dans lesquels et avec lesquels l’activité se déploie.
Elle en illustre la pertinence à partir d’une analyse approfondie de

la pratique évaluative d’une enseignante. L’intérêt de cette analyse suggère
la nécessité de poursuivre des travaux dans la perspective proposée par
notre collègue.
Les deux premières contributions ont pour point commun de se
concentrer sur l’analyse de copies d’élèves, mais diffèrent sur le plan
méthodologique. Le plan de recherche de Goasdoué et Vantourout est
de type quasi expérimental. La méthode mobilisée par Mottier Lopez est
de type compréhensif. Le cas de Patricia utilisé dans cette contribution
est extrait d’une recherche sur des pratiques d’évaluation certificative au
deuxième cycle de l’école primaire genevoise (élèves de 8 à 12 ans). S’ins-
crivant dans le courant de la cognition située, Mottier Lopez s’efforce de
s’approcher des situations telles qu’elles fonctionnent sur le terrain. Afin
de comprendre au mieux l’activité évaluative des enseignants et, notamment,
de Patricia, il leur a été demandé d’accepter une observation en situation
DETROZ_CS6_PC.indb 137 10/10/2016 09:47:13

d’évaluation certificative authentique (c’est-à-dire avec leurs propres élèves,

pour l’attribution d’une note « qui compte » réellement, et avec des travaux
non préalablement lus ou corrigés). Chaque enseignant a été soumis, avec
leur consentement, à une procédure en trois temps :
– un entretien semi-dirigé ante ;

– une verbalisation de l’enseignant pendant qu’il évalue quatre textes
d’élèves successivement, à partir de la méthode du think-aloud
dans une approche qualitative ;
– un entretien semi-dirigé de clôture, sollicitant des remarques de
l’enseignant à propos de la correction effectuée et des résultats
obtenus par les élèves.
Cette procédure permet une compréhension en profondeur de l’acti-

vité et des raisonnements évaluatifs des enseignants. Selon nous, les deux
approches méthodologiques sont loin d’être opposées ; nous les percevons
comme complémentaires.
La contribution de Marcoux et Crahay se situe à un niveau plus
« macro ». Portant sur les décisions de redoublement prises en fin d’année,
elle s’efforce d’appréhender le processus qui aboutit au redoublement de
certains élèves ou à leur orientation vers l’enseignement spécialisé. Dix
enseignants genevois ont été interrogés à cinq reprises : une première fois
avant que l’année scolaire démarre et puis quatre fois au cours de l’année
2011-2012 (septembre, décembre, mars et juin). L’entretien préalable
avait pour objectif d’expliquer le but et la méthode de la recherche et de
négocier l’adhésion des enseignants, mais aussi de cerner les croyances et
connaissances des enseignants concernant le redoublement. Lors des quatre
entretiens menés en cours d’année, les enseignants sont invités à parler de
leurs élèves, tout particulièrement de ceux qu’ils percevaient en difficulté
et pour lesquels ils redoutaient un redoublement éventuel. L’objectif de
cette recherche est d’investiguer une double question : quand et comment
les décisions de redoublement sont-elles prises ? L’hypothèse était que ces
décisions sont prises tôt dans l’année. L’hypothèse n’est pas confirmée.
Pour rendre compte des données recueillies, ces chercheurs proposent une
modélisation du processus décisionnel en trois phases distinctes dans le
temps : (1) le repérage des élèves en difficulté (2) l’alarme et la réaction
de l’élève et de son entourage parental et (3) la décision finale. La pression
institutionnelle de la fin d’année contraint les enseignants à « trancher » ;
le plus souvent, ils le font avec un fort sentiment d’incertitude.
DETROZ_CS6_PC.indb 138 10/10/2016 09:47:13

3. COMPRENDRE AVANT DE CONSEILLER

Les trois contributions recueillies dans cet axe 2 sont différentes ; on
vient de le voir. Cependant, la posture scientifique des chercheurs concernés
présente plusieurs points communs. Tous tournent le dos à une approche
normative et prescriptive. Il ne s’agit pas, pour eux, de juger les pratiques
évaluatives des enseignants et de leur faire des recommandations sur ce
que seraient les « bonnes pratiques ». Pour eux, il s’agit de comprendre
avant d’éventuellement conseiller. Lucie Mottier Lopez l’écrit on ne peut
plus clairement ; nous la citons :
Notre point de vue est qu’il faudrait commencer par mieux connaître
et comprendre les pratiques évaluatives des enseignants, c’est-à-dire telles
qu’elles se développent dans leur contexte écologique, notamment quand elles
débouchent sur des décisions à forts enjeux sur les parcours de formation
des élèves, comme c’est le cas dans des évaluations certificatives.
Manifestement, l’époque de la toute-puissance de la mesure est

révolue, du moins en ce qui concerne l’activité évaluative des enseignants
face à leurs élèves. Ses limites ont été cernées avec justesse par Cardi-
net (1988) qui, par ailleurs, a développé, au travers de la théorie de la
généralisabilité, les fondements d’une édumétrie libérée de la courbe de
Gauss. Concernant les pratiques évaluatives des enseignants, les chercheurs
reconnaissant désormais leur complexité ont renoncé à vouloir les formater
dans des algorithmes de décision. Par-delà leur diversité méthodologique
et la variété des objets traités (évaluation de copies versus décisions de
redoublement en fin d’année ; copies de mathématiques versus de français,
etc.), les trois contributions partagent l’idée qu’il faut chercher avant tout
à comprendre et, si possible, à modéliser les raisonnements évaluatifs des
enseignants (leur activité cognitive lorsqu’ils évaluent). Le débat quant à la
meilleure méthodologie de recherche pour atteindre ce but est évidemment
ouvert ; pour l’instant, il me paraît secondaire, car, rejoignant le point de
vue anciennement défendu par Huberman et Miles (1991), la triangulation
des approches sera très probablement fructueuse à plus ou moins court
terme. L’important pour nous (je parle ici au nom de mes collègues qui ont
contribué à cet axe) est que ce courant de recherches ne se résume pas
à quelques contributions, mais se déploie en de multiples entreprises. Car
les cinq contributeurs à cet axe 2 sont convaincus de ce que l’évaluation
se manifeste de multiples façons dans la pratique des enseignants : évalua-
tion certificative de copies, évaluation formative en cours d’enseignement,
décision de redoublement, etc.
DETROZ_CS6_PC.indb 139 10/10/2016 09:47:13

Aubert, J. (1995). Psychologie de l’évaluation. In D. Gaonach, D. & C. Golder

(Eds), Profession enseignant : manuel de psychologie pour l’enseignement
(pp. 540-555). Paris : Hachette.
Bonboir, A. (1972). La docimologie. Paris : Presses universitaires de France.
Cardinet, J. (1988). Évaluation scolaire et mesure. Bruxelles : De Boeck.
Cardinet, J. & Tourneur, Y. (1985). Assurer la mesure : guide pour les études de
généralisabilité. Berne : Peter Lang.
Crahay, M. (2006). L’évaluation des élèves : entre mesure et jugement. In G. Figari
& L. Mottier Lopez (Eds), Recherche sur l’évaluation en éducation (pp.132-138).
Paris : L’Harmattan.
De Ketele, J.-M. (Ed.) (1986). L’évaluation : approche descriptive ou prescrip-
tive ? Bruxelles : De Boeck.
de Landsheere, G. (1972). Évaluation continue et examens. Précis de docimolo-
gie. Bruxelles : Labor (1972 et 1976).
Figari, G., & Remaud, D. (2014). Méthodologie d’évaluation en éducation et for-
mation. Bruxelles : De Boeck.
Gilly, M. (1980). Maître-élève. Rôles institutionnels et représentations. Paris :
Presses universitaires de France.
Guilford, J.P. (1954). Psychometrics Methods. New York : Mc Graw (2e édit).
Huberman, M.A., & Miles, M.B. (1991). L’analyse des données qualitatives. Recueil
de nouvelles méthodes. Bruxelles : De Boeck.
Lemaine, G. & Matalon, B. (1985). Hommes supérieurs, hommes inférieurs ? La
controverse sur l’hérédité de l’intelligence. Paris : Armand Colin.
Merle, P. (1998). Sociologie de l’évaluation scolaire. Paris : Presses universitaires
de France, « Que sais-je ? », no 3278.
Noizet, G. & Caverni, J.P. (1978). Psychologie de l’évaluation scolaire. Paris :
Presses universitaires de France.
Piéron, H. (1963). Examens et docimologie. Paris : Presses universitaires de France.
DETROZ_CS6_PC.indb 140 10/10/2016 09:47:13

Chapitre
Évaluations scolaires et étude
5
du jugement des enseignants :
pour une docimologie cognitive
Rémi GOASDOUÉ et Marc VANTOUROUT
1. PRÉAMBULE
1.1. Quel psychologique en évaluation ?
Ce chapitre appartient à la section de l’ouvrage consacrée aux
« modèles psychologiques en évaluation » ou encore à la « psychologie des
enseignants-évaluateurs ». Mise en perspective avec le titre du colloque,
« L’évaluation à la lumière des disciplines et des contextes », cette apparte-
nance signifie que, en tant que contributeurs, nous estimons pouvoir accéder
à une meilleure connaissance et compréhension de l’évaluation, notamment
en milieux scolaires, en portant un regard psychologique sur celle-ci. Les
références au « psychologique » en évaluation sont historiquement et actuel-
lement diverses48. C’est pourquoi nous souhaitons clarifier en préambule
notre façon de l ‘appréhender49. Pour nous, le psychologique en évaluation :
48. Comme le montrerait, à notre avis, une confrontation des chapitres regroupés dans
cette section.
49. Certains pourront juger, à juste titre, ces clarifications rapides. Effectivement, nous
n’entrons dans aucune des réflexions relatives au pluralisme théorique de la psychologie
DETROZ_CS6_PC.indb 141 10/10/2016 09:47:13

– renvoie « au cognitif » au sens de l’étude du fonctionnement cognitif

des évaluateurs et des évalués, ce qui implique de mettre au centre
des analyses ce qui relève de ce niveau, comme les connaissances,
la production d’inférences, les processus de généralisation, etc.
Pour résumer, tout ce qui est sous-jacent aux raisonnements mis
en œuvre dans l’activité évaluative, que ce soit par les évaluateurs
ou les évalués ;
– ménage une place aux apports des « didactiques » disciplinaires
pour comprendre les apprentissages évalués. Ces convergences sont
décrites dans ce que nous qualifions d’« approches psychodidactique
des évaluations » (APDE) (Vantourout & Goasdoué, 2014) ;
– relève prioritairement d’un niveau « local », car fortement dépendant
des contenus50 disciplinaires impliqués dans les évaluations ; et donc
s’émancipe en corollaire des modèles généraux de l’apprentissage ;
– repose sur une « entrée par l’activité » (des évaluateurs et des
évalués), plus précisément sur la dialectique « tâche(s)/activité »,
au fondement de la psychologie ergonomique (Leplat, 1997).
1.2. Vers une docimologie cognitive

Porter un regard psychologique sur l’évaluation n’a rien de très
novateur. En effet, les pionniers de la docimologie voulaient étudier la
« psychologie des examinateurs » (cf. Laugier & Weinberg, 1927) puis les
docimologues expérimentaux ont développé une « Psychologie de l’évaluation
scolaire » (cf. l’ouvrage éponyme de Noizet & Caverni, 1978). En proposant
une « docimologie cognitive », avec, à l’instar de nos prédécesseurs, comme
préoccupation initiale la question des divergences entre évaluateurs, nous
prolongeons en quelque sorte ces courants, tout en cherchant à décrire
les raisonnements à l’œuvre dans les situations d’évaluation, et ce de la
conception d’épreuves, de tâches ou de tests, à la correction, notation,
cotation51. Nous nous attachons à comprendre « ce que fait celui qui évalue »
en partant d’une analyse de son activité ; autrement dit, la docimologie que
l’on qualifie de cognitive n’est pas prescriptive, mais tente de comprendre
ce qui fonde « les pratiques d’évaluation ». Elle tente de cerner les atouts
et les limites des épreuves, des jugements des enseignants, en s’interro-
geant sur les conditions et les critères de leur validité, laquelle ne saurait
(cf. Crahay, 2013) et n’abordons pas l’épineuse question des rapports des didactiques,
en particulier celle des mathématiques, à la psychologie (cf. Maury, 2001).
50. La notion de contenus « désigne tout ce qui est objet d’enseignement et d’apprentissage
et qui constitue les savoirs qui sont enseignés et les connaissances que construisent les
élèves au fil du temps » (Delcambre, 2007, p. 45).
51. Dans ce chapitre, nous nous centrons sur la facette « correction » de l’activité des éva-
luateurs. Pour la facette « conception d’épreuves », voir Vantourout & Goasdoué, 2014.
DETROZ_CS6_PC.indb 142 10/10/2016 09:47:13

Évaluations scolaires et étude du jugement des enseignants 143
être rabattue, pour les épreuves, sur leur pouvoir de discrimination, pour
les jugements des enseignants, sur la convergence des notations. Ainsi,
nous nous intéressons davantage à ce qui dans l’activité des enseignants,
notamment à partir de leurs verbalisations, nous permet de décrire les
processus cognitifs qui conduisent aux jugements, plutôt qu’aux jugements
qu’expriment les enseignants, et marginalement à leurs notes. Contraire-
ment à la docimologie « critique », initialement construite pour promouvoir
l’emploi d’épreuves inspirées des tests psychologiques alors en plein essor,
l’approche que nous défendons rejette l’idée d’une faillibilité généralisée des
jugements des évaluateurs, considérant que celle-ci ne peut se fonder sur
les constats répétés de divergences de notation. En tentant de comprendre
les ressorts de l’activité des évaluateurs, nous avons en effet maintes fois
constaté que des jugements pouvaient être divergents sans être aberrants,
tout comme des convergences de notations pouvaient masquer des diver-
gences de jugements. Bref, sans verser dans un relativisme généralisé, nous
considérons que des jugements peuvent être également « légitimes » sans
être convergents. L’analyse minutieuse de l’activité d’évaluation nous conduit
tout autant à remarquer que certaines épreuves ne permettent pas porter
de jugement fiable sur les acquis des élèves, tout comme certains évalua-
teurs éprouvent des difficultés pour corriger et ne cernent pas toujours
clairement les enjeux conceptuels et cognitifs des épreuves. Au-delà de
ces deux écueils, un angélisme compréhensif et une suspicion a priori,
nous défendons que l’analyse de l’activité permet, pour un domaine précis,
mais aussi pour un type d’épreuve donné, de porter un regard nouveau
sur les questions de validité. Il ne s’agit pas d’évaluer l’évaluation ou les
évaluateurs, mais de cerner à quelles conditions les jugements peuvent
être « valides »52. Enfin, accoler « cognitive » à docimologie se justifie, de
notre point de vue, pour trois raisons principales. D’abord, parce que nous
convoquons des concepts issus de la psychologie cognitive pour analyser
l’activité. Ensuite, en référence à l’étymologie de ce terme, parce que nous
accordons aux connaissances et à leurs spécificités une place centrale dans
l’évaluation scolaire. Enfin, parce nous considérons l’évaluation comme une
démarche de production de connaissance (cognitive), une forme d’enquête53
structurée par des modes de « raisonnements évaluatifs » spécifiques aux
contenus de savoirs évalués et aux types d’épreuves impliquées (cf. infra
dernière partie).
Ce chapitre comprend quatre parties. Nous porterons d’abord un
regard critique sur deux résultats majeurs des travaux docimologiques.
52. Jugements « valides » ou « légitimes » ? Notre préférence porte sur le second terme,
nous nous en expliquerons (cf. infra).
53. Bien qu’ayant des finalités variables, les évaluations produisent des connaissances sur
les acquis des élèves, leurs démarches, voire sur l’effet de pratiques d’enseignement ou
d’organisations curriculaires.
DETROZ_CS6_PC.indb 143 10/10/2016 09:47:13

Puis dans les deux parties suivantes, nous montrerons à travers deux
recherches, que tout ne se passe pas toujours de manière conforme au(x)
modèle(s) proposé(s) par les docimologues expérimentaux. Conjointement,
ces recherches serviront à illustrer les principaux renouvellements apportés
par la docimologie cognitive pour étudier les divergences entre évaluateurs,
notamment sur les plans méthodologiques et théoriques. Dans la dernière
partie, nous présenterons et discuterons quelques-unes des bases de la
docimologie cognitive et reviendrons sur la notion de validité, en lien avec
ce que nous nommons « raisonnement évaluatif ».
2. REGARD CRITIQUE SUR DEUX RÉSULTATS

DES TRAVAUX DOCIMOLOGIQUES
Le premier résultat majeur des travaux en docimologie concerne la
faillibilité des évaluateurs, avec la remise en cause, sans aucune équivoque,
de leur fiabilité. Les docimologues, dans la première moitié du 20e siècle,
ont fait le constat des divergences et écarts de notes entre correcteurs.
Puis les docimologues expérimentaux, dans les années 60 et 70, ont montré
l’existence de biais systématiques, lors de la notation d’un lot de copies,
et ont expliqué les divergences constatées par des déterminants externes
auxquels seraient sensibles tous les évaluateurs (effets d’ordre, de contraste
et d’assimilation). Au sein de ces deux courants, les chercheurs ont été
guidés par l’obsession de la « vérité docimologique », de la « note vraie »
(Bonniol & Vial, 1997, p. 61), même ceux qui s’en défendaient, car « en
travaillant sur les déformations, on cautionne l’idée d’une note objective,
même si c’est pour montrer que la note ne l’est pas » (idem). La fidélité
inter et intra-correcteurs fut manifestement leur principale, voire unique,
préoccupation, au détriment de la validité. Ce choix, qui s’inscrit dans une
logique de mesure promue par la psychométrie, a été critiqué notamment par
Cardinet dès 1973 et plus récemment par Bodin en 2006. Nous rejoignons ces
auteurs et défendons que la validité ne peut être rabattue sur la fidélité des
épreuves ni se résumer, plus généralement, à des questions de choix métho-
dologiques indépendamment des contenus et des contextes d’évaluation. Il
s’agit d’un point de divergence fondamental entre la docimologie cognitive
et les approches docimologiques antérieures. À cela s’ajoute le fait que les
travaux des docimologues n’ont jamais véritablement porté sur l’évaluateur, ni
sur son activité, mais sur ses notes. Ce parti pris méthodologique est cohérent
avec la place centrale, voire exclusive, accordée à la fidélité comme critère
de la validité. Dans cette perspective, les divergences de notation ne font que
traduire l’erreur de mesure. La note pour les docimologues, comme le score
pour les psychométriciens, est le point départ de toutes les analyses de la
validité. Pourtant, on peut tout autant s’intéresser aux jugements produits
DETROZ_CS6_PC.indb 144 10/10/2016 09:47:13

lors d’une correction-évaluation d’épreuve, les catégoriser et statuer sur les

divergences qualitatives de manière quantifiée54. De façon analogue à leurs
prédécesseurs, les docimologues expérimentaux, en identifiant des déter-
minants externes et « universels », sont immanquablement conduits à faire
disparaître chaque correcteur et ses spécificités derrière la note qu’il produit.
Les particularités des épreuves et des connaissances qu’elles impliquent
sont également reléguées dans leurs travaux au second plan, sous la seule
désignation générique de la discipline : mathématiques, philosophie, etc.
Un autre résultat majeur est l’élaboration, par les docimologues
expérimentaux, du « modèle explicatif du comportement d’évaluation de
productions scolaires » (Amigues, Bonniol, Caverni, Fabre & Noizet, 1975 ;
Noizet & Caverni, 1978 ; cf. annexe 1). Sur le plan cognitif, les auteurs
font figurer dans leur modèle deux opérations qui caractérisent l’essentiel
des comportements d’évaluation qu’ils étudient : « l’opération de sélection
des produits attendus parmi les produits possibles et l’opération de com-
paraison de la copie – produit réel – et du modèle de référence » (Noizet
& Caverni, 1978, p. 116). Pour Amigues et al. (1975), la tâche d’évalua-
tion ne peut être exécutée sans que l’évaluateur dispose d’un modèle de
référence, inscrit dans ses structures cognitives. Noizet et Caverni (1978)
précisent que « le modèle de référence, d’un côté, est constitué antérieure-
ment à la tâche, c’est-à-dire à l’acte d’évaluation et, d’un autre côté, se
modifie au fur et à mesure que la tâche d’évaluation se produit » (p. 68).
Toutefois, il est relativement stable et ses modifications ne pourraient s’effec-
tuer que sous l’influence des déterminants externes ou biais systématiques
mentionnés précédemment (cf. Bonniol, 1981, cité par Bonniol & Vial, 1997,
p. 76). Aujourd’hui, on s’accorde – très largement – pour concevoir l’évalua-
tion, d’un point de vue psychologique, comme une activité de comparaison
entre un référent et un référé (cf. Barbier, 1985 ; Hadji 1992, 1997). Pour
preuve, le référent et le référé, ainsi que l’opération de confrontation à
laquelle ils prennent part, ont été cités récemment par De Ketele (2012)
comme éléments unificateurs55, au-delà de la diversité des paradigmes et
de leurs usages : « il s’agit chaque fois de la confrontation d’un référé à
un référent, même si ceux-ci sont différents d’un paradigme à l’autre »
(p. 206). Toute évaluation suppose donc la construction par l’évaluateur d’un
référent, système d’attentes jugées légitimes, ou d’un ensemble de critères
au nom desquels on va se prononcer, et d’un référé, « modèle réduit » de
l’objet évalué, c’est-à-dire ce à partir de quoi on pourra porter le juge-
ment de valeur (cf. Hadji, 1997, pp. 42-45 ; 1992, pp. 31-36). Ce second
modèle, que l’on nommera « comparaison référent/référé », apparaît comme
54. Voir Vantourout & Goasdoué, 2010, notamment pour une illustration empirique.
55. De Ketele (2012) parle de l’existence d’éléments unificateurs mais ne cite que ces deux-là.
DETROZ_CS6_PC.indb 145 10/10/2016 09:47:13

un avatar du modèle explicatif56. Bien qu’il existe des différences entre ces
deux modèles57, il semble que l’on s’accorde désormais pour considérer
le modèle « comparaison référent/référé » comme un modèle « universel »
(cf. ci-dessus De Ketele, 2012).
Nous constatons en effet que ce modèle bénéficie d’un large consen-
sus, tant dans le domaine de l’enseignement (cf. Hadji, 1997) que dans celui
de la formation (cf. Barbier, 1985). Pour preuve, il est convoqué fréquem-
ment dans une variété de travaux indépendamment des formes et objets
d’évaluation, sans qu’aucune réserve soit véritablement émise à son égard, à
l’exception de rares restrictions qui ne sont que des déclarations formelles,
celles-ci se situant à un niveau de généralité très élevé (cf. ci-dessus la
citation de De Ketele, 2012 ; cf. également Bonniol, note 13). Or, à notre
connaissance, le modèle explicatif, dont il dérive directement, n’a été établi
que sur la base de situations expérimentales de notations et de classements
de copies et renfermait une dimension heuristique (Amigues, communica-
tion personnelle). Il devait permettre de poser des perspectives ultérieures
d’investigations, ses concepteurs ayant d’ailleurs encouragé à en étudier la
validité en le testant selon différentes modalités (ce qui à notre connais-
sance n’a pas été fait). Dans la suite de ce qui vient d’être mentionné,
notons que les docimologues expérimentaux décelaient des limites dans
leur modèle explicatif. En particulier, ils avaient conscience que l’étude des
processus impliqués par la tâche d’évaluation était la seule voie de progrès
et d’amélioration du modèle58 (Noizet & Caverni, 1978, p. 116). Notre cri-
tique principale vis-à-vis de ce modèle porte sur sa généralisation à d’autres
domaines d’application, alors qu’il n’a jamais été, à notre connaissance,
véritablement « testé », notamment à travers des situations d’évaluation
en milieux scolaires.
À présent, nous voudrions revenir sur le niveau de généralité des
modèles et sur l’importance de la spécificité des contenus évalués. Dans
les modèles qui viennent d’être présentés, le cognitif ne se manifeste qu’à
56. À notre connaissance, Barbier (1985) est le premier auteur qui présente le modèle
« comparaison référent/référé ». Il le fait pour décrire le procès d’évaluation en forma-
tion et se réfère alors largement au modèle explicatif des docimologues expérimentaux,
présenté notamment par Noizet et Caverni en 1978 dans leur ouvrage de référence.
57. Par exemple, le référent est appelé « modèle de référence » dans le modèle explicatif
des docimologues expérimentaux. Le modèle de référence est finement décrit et com-
porte plusieurs éléments dont le « produit norme » et les « produits attendus ». Un texte
de dictée sans faute est un exemple de produit norme.
58. L’étude des processus devait leur permettre d’accéder à un modèle formel (au lieu du
modèle analogique explicatif) et d’envisager, comme souvent dans les années 1970-1980,
une simulation informatique (c’est nous qui inférons) en vue « d’énoncer des prédic-
tions quantifiées [de la note la plus probable] » (Noizet & Caverni, 1978, p. 116). Les
objectifs visés ici par l’étude des processus divergent fortement des nôtres.
DETROZ_CS6_PC.indb 146 10/10/2016 09:47:13

travers deux opérations de haut niveau59, une opération de sélection puis

une opération de comparaison. Ces opérations, rappelons-le, sont censées
décrire l’activité des évaluateurs, indépendamment des tâches ou épreuves
d’évaluation, de leurs contenus et des compétences des évaluateurs. Or,
nous montrerons que ce n’est pas le cas. La correction d’une dissertation ne
repose pas sur les mêmes ressorts cognitifs que la correction d’une dictée.
Non seulement les « raisonnements évaluatifs » à l’œuvre sont différents,
mais l’existence d’une norme a priori n’est pas toujours présente, ni pos-
sible, ni même souhaitable pour certaines épreuves. La plausibilité de ce
processus de comparaison référent/référé est d’autant plus élevée que la
réponse attendue est clairement définie a priori et univoque. Or, cette situa-
tion est finalement assez rare dans les évaluations scolaires. Les notes sont
davantage des « appréciations synthétiques » pour reprendre la distinction
proposée par de Landsheere (1971) entre note et score, qu’une quantifica-
tion de l’écart à la norme via un processus de comparaison référent/référé.
Dépasser les notes considérées comme des mesures, prendre en
compte conjointement les spécificités des épreuves et des connaissances
ou compétences en jeu, conduisent nécessairement à s’éloigner de modèles
généraux de l’évaluation valables pour toute épreuve et toute discipline.
L’approche que nous défendons entend montrer les cohérences internes
propres à chaque pratique d’évaluation et d’envisager la validité comme
une cohérence interne à ce qu’on pourrait qualifier de raisonnement éva-
luatif, qui se déploie de la conception à la correction. Cette proposition sera
développée dans la dernière partie de ce chapitre.
3. RÔLE DES CONNAISSANCES

DES ÉVALUATEURS ET REMISE EN CAUSE
DU MODÈLE « COMPARAISON RÉFÉRENT/
RÉFÉRÉ » EN MATHÉMATIQUES
Même s’il existe des nuances, pour les docimologues expérimentaux
le modèle de référence se construit avant l’évaluation et celui-ci comprend
toujours un produit-norme, qui peut être plus ou moins difficile à définir
selon les disciplines et les exercices60 (cf. Noizet & Caverni, 1978, p. 69).
59. Il y a « certes d’autres opérations ou sous-opérations [qui] sont susceptibles d’interve-

nir mais les énumérer alourdirait le modèle sans en accroitre le pouvoir heuristique »
(Noizet & Caverni, 1978, p. 116).
60. Selon Bonniol (1981, cité par Bonniol & Vial, 1997, p. 64), « il semble bien qu’il y ait
toujours un produit-norme quand il y a évaluation, quel que soit le caractère vague et
flou qu’il possède dans les représentations de l’évaluateur, quel que soit le degré de
conscience que l’évaluateur peut en avoir ».
DETROZ_CS6_PC.indb 147 10/10/2016 09:47:13

Dans la recherche que nous allons présenter (Vantourout 2007, 2004), on

s’intéresse aux connaissances mobilisées par les évaluateurs pour expliquer
leurs divergences. L’analyse de l’activité des évaluateurs a eu pour résultat
la remise en cause de l’un des termes de la comparaison référent/référé, le
référent (ou modèle de référence), principalement ses caractéristiques et
sa construction a priori.
3.1. Une double orientation didactique

pour étudier l’activité des évaluateurs
Cette recherche s’inscrit dans une double orientation didactique :
didactique des mathématiques et didactique professionnelle. Alors que les
docimologues expérimentaux avaient fabriqué des « copies construites »
(Noizet & Caverni, 1978), nous avons fabriqué des « situations aménagées »
(Vantourout, Goasdoué, Maury & Nabbout, 2012). Ces situations, inspirées
des ingénieries de la didactique professionnelle, sont un type particulier de
simulations (Pastré, 2011). Elles sont qualifiées « d’aménagées » au regard
de la distance qui les sépare de la situation dite de « référence », c’est-à-dire
avec celles qui existent sur le terrain et que l’on cherche à reproduire ; lors
de cette recherche, des situations d’évaluation formative interactive. Dans
les situations aménagées, ce ne sont pas les appariements de surface qui
sont recherchés, mais prioritairement des équivalences fonctionnelles. Grâce
à la manipulation de variables, il devient possible de proposer des situations
d’évaluation où sont modélisés des comportements d’élèves représentatifs
d’un point de vue didactique. On associe au contrôle des variables une
analyse de l’activité qui offre une description du comportement des évalua-
teurs qui s’avère plus riche que celle habituellement conduite dans un cadre
expérimental où, pour les travaux sur l’évaluation, l’on prend, quasiment
sans exception, uniquement en compte la note attribuée par l’évaluateur.
L’une des spécificités de ces situations, notamment par rapport aux
copies construites, est l’appui sur des travaux issus des didactiques dis-
ciplinaires. L’ancrage dans le champ de la didactique des mathématiques
se manifeste d’abord au niveau de l’élaboration du matériel expérimental
(cf. annexes 2 et 3), présenté lors des situations aménagées61. Il s’agit
de réponses et de verbalisations attribuées à des binômes d’élèves ayant
résolu des problèmes de proportionnalité impliquant des représentations
61. Lors des expérimentations, les situations aménagées sont présentées aux évaluateurs
via un CD-Rom. Phase 1, ils travaillent seuls face à un ordinateur (un dispositif permet
de savoir sur quoi porte leur activité, notamment à quelle traces de l’activité des élèves
ils s’intéressent) et doivent répondre à la consigne suivante : « En quoi les productions
et réponses de ces élèves sont-elles satisfaisantes et/ou non satisfaisantes ? » Phase 2,
en binôme, ils doivent discuter et s’accorder sur une évaluation commune. Phase 3, ils
participent individuellement à un débriefing.
DETROZ_CS6_PC.indb 148 10/10/2016 09:47:13

graphiques62. La présence de graphiques vise à engendrer des situations

d’évaluation relativement complexes sur le plan conceptuel, en raison des
difficultés que soulève l’utilisation de ce type de représentations. Les produc-
tions à évaluer ont été conçues pour ne pas susciter d’avis tranchés ; cette
caractéristique de la situation d’évaluation rend intéressante et possible
l’étude du jugement, contrairement à des situations beaucoup plus simples
(la correction d’opérations arithmétiques, par exemple). L’élaboration de ce
matériel implique des analyses a priori, réalisées selon deux plans. Elles
concernent, d’une part, les problèmes retenus, c’est-à-dire les tâches censées
être proposées aux élèves fictifs, et, d’autre part, l’invention des produc-
tions et des comportements attribués à ces élèves. Elles font intervenir des
connaissances en didactique relatives à la proportionnalité et aux graphiques.
Ces quelques éléments témoignent de l’importance que nous accordons,
pour concevoir ces situations aménagées, aux contenus impliqués dans les
productions à évaluer, ainsi qu’aux connaissances relatives à l’apprentissage
de ces contenus. Le fait de construire les productions à évaluer nous permet
de retenir et d’aménager des comportements d’élèves qui correspondent
à des procédures caractéristiques, en faisant de sorte que celles-ci véhi-
culent également des éléments pouvant favoriser l’apparition chez certains
évaluateurs de conceptions relatives aux notions mathématiques en jeu,
et, éventuellement, d’autres conceptions plus générales relatives à l’évalua-
tion. Le second niveau de l’ancrage didactique touche à des aspects plus
généraux, notamment liés au statut de l’erreur, qui consistent à considérer
celle-ci comme un indicateur du fonctionnement d’une connaissance et donc
à s’attacher, à partir des observables, à identifier et à analyser les procédures
et leur signification au niveau des connaissances. Les tâches d’évaluation
proposées dans les situations aménagées permettent ainsi de cerner les
compétences diagnostiques des enseignants. En ce sens, ce travail réalise
une jonction entre évaluation formative et didactique des mathématiques, en
s’intéressant, plus ou moins directement, à la manière dont des enseignants
prennent en compte les erreurs et les réussites des élèves.
3.2. Analyse de l’activité des évaluateurs :

le rôle des connaissances
Bien que le terme « connaissances » figure dans le modèle « expli-
catif » (cf. annexe 1, « Corps de connaissances »), les connaissances des
évaluateurs n’ont jamais été prises en compte dans les travaux docimo-
logiques. Or, les connaissances – notamment celles qui sont attendues,
62. Les professeurs évaluent des travaux attribués à des élèves absents et qu’ils ne
connaissent pas. Ces travaux ont été élaborés, pour les besoins de l’expérimentation,
à la suite d’observations de binômes d’élèves « réels » qui avaient résolu le même pro-
blème.
DETROZ_CS6_PC.indb 149 10/10/2016 09:47:13

car en lien avec la tâche et qui seront mobilisées ou non selon les
sujets – constituent cependant un des déterminants internes de l’activité
d’évaluation, c’est-à-dire propres à l’évaluateur. L’intérêt que nous leur
portons a pour finalité de mieux comprendre leur rôle dans les processus
d’évaluation63.
En étudiant l’activité de professeurs64 confrontés aux situations amé-
nagées en mathématiques, trois grands pôles de connaissances ont pu être
identifiés : « disciplinaires », « évaluation » et « socio-psycho-pédagogiques »
(Vantourout & Maury, 2006). Au sein du pôle disciplinaire, nous distin-
guons les connaissances liées aux mathématiques et aux représentations
graphiques et les connaissances liées à la didactique des mathématiques.
Toutes ces connaissances peuvent se manifester, entre autres, quand les
enseignants se concentrent sur l’identification et l’étude des procédures
mises en œuvre par les élèves. Si la majorité des enseignants observés
marque de l’intérêt pour les procédures et reconnaît les situations où leur
analyse est pertinente, ce n’est qu’exceptionnellement qu’un professeur
parvient à conduire une analyse didactique, c’est-à-dire à mener une analyse
explicative de l’activité de l’élève en mobilisant des connaissances valides
liées à la didactique des mathématiques. Ces dernières représentent moins
de 0,25 % des occurrences de connaissances que nous avons relevées, bien
que ces professeurs, anciens étudiants et stagiaires en IUFM, aient reçu une
formation en didactique des mathématiques65.
De fait, mener une véritable analyse didactique requiert également
la mobilisation de connaissances dites de « niveau conceptuel supérieur »
(Vantourout & Maury, 2006). Au sein des connaissances disciplinaires liées
aux mathématiques et aux représentations graphiques, nous distinguons les
63. D’après le modèle explicatif des docimologues expérimentaux (cf. Annexe 1), tout se
passe comme si ces derniers créditaient les correcteurs d’une maitrise des objectifs
pédagogiques et des connaissances impliqués dans l’épreuve qu’ils corrigent. Les doci-
mologues expérimentaux postulent en quelque sorte que les correcteurs disposent d’un
niveau de compétence (notamment disciplinaire) requis pour accomplir leur tâche, ce
qui est d’autant plus intéressant, et peut même sembler paradoxal, puisqu’ils défendent
l’existence d’une faillibilité générale des correcteurs, leurs divergences en étant le
symptôme. Il en résulte que ces divergences ne peuvent pas reposer sur un déficit de
connaissances mais uniquement sur des biais universels. Attention toutefois, mobili-
ser pour évaluer la (ou les) connaissance(s) adéquate(s) ne garantit absolument pas
l’absence de divergences entre évaluateurs (cf. infra).
64. Il s’agit de 18 enseignants en fin de formation initiale en IUFM (Institut Universitaire de
Formation des Maîtres), 12 professeurs des écoles (PE) et 6 professeurs de mathéma-
tiques (PLC – Professeur exerçant en Collège ou en Lycée ). Selon que les professeurs
sont des PE ou PLC, les élèves sont respectivement déclarés comme étant en CM2 en
fin d’année scolaire ou en 6e en début d’année scolaire.
65. Ce résultat renvoie à la question de la pragmatisation des savoirs en connaissances opé-
rationnelles, telle qu’abordée en didactique professionnelle (cf. Pastré, 2011).
DETROZ_CS6_PC.indb 150 10/10/2016 09:47:13

connaissances de ce niveau de celles dites « de base ». Ces dernières, aux

occurrences très nombreuses, sont mobilisées par tous les évaluateurs : elles
ont comme principale caractéristique de permettre de « faire » le problème,
elles suffisent pour répondre à l’ensemble des questions contenues dans
les énoncés de l’expérimentation. Parmi leurs fonctions, on trouve celle de
permettre de se prononcer sur la justesse, la fausseté, les imperfections
et les erreurs des réponses numériques ou graphiques ou encore celle de
permettre l’énonciation et la reconnaissance de notions en jeu dans le pro-
blème. Les connaissances de niveau conceptuel supérieur permettent de
modéliser la situation, de comprendre au plan mathématique et d’expliquer
les procédures des élèves. Elles permettent de traiter la relation « signifiant/
signifié » (par exemple, le lien entre la pente d’une droite et le coefficient
directeur d’une fonction linéaire ou affine) ou en encore d’amener une solu-
tion « experte » (par exemple, construire un graphique qui représente à la
fois les quantités et les proportions). Enfin, nous avons relevé des connais-
sances « erronées ou inexactes », mobilisées uniquement par des professeurs
des écoles de formation « non scientifique »66.
L’analyse des connaissances mobilisées par les évaluateurs a montré
que :
– des jugements évaluatifs identiques ou (très) proches peuvent

reposer sur des connaissances différentes, dont certaines erronées
ou inexactes ;
– des connaissances analogues peuvent conduire à des jugements
évaluatifs différents, voire opposés.
L’emploi de connaissances attendues et valides est donc une condi-

tion nécessaire, mais pas suffisante pour produire des jugements que nous
qualifions de « légitimes ». Ce terme nous permet de renoncer à celui de
« valide », trop fortement connoté comme « bon jugement », souvent unique,
plutôt que comme jugement acceptable parmi d’autres, très différents, mais
tout autant acceptables.
Nous allons illustrer ce résultat à partir de l’évaluation d’une
réponse graphique soumise lors d’une situation aménagée. Celle-ci est
construite autour d’un problème de location de cassettes vidéo, avec
trois tarifs différents, dont deux avec abonnement. Les élèves devaient,
entre autres, compléter un graphique (sur lequel sont déjà représentés
deux des tarifs) en représentant la formule de tarification avec abonne-
ment à 250 francs et 10 francs par cassette louée (cf. annexe 3). Les
66. Ceux-ci s’opposent aux professeurs de formation « scientifique ». Parmi ces derniers
figurent tous les PLC et les professeurs des écoles qui possèdent au minimum un bac-
calauréat scientifique.
DETROZ_CS6_PC.indb 151 10/10/2016 09:47:13

élèves d’un binôme ne font pas débuter leur tracé au point (0, 250), mais
à l’origine du repère, puis placent le point67 (1, 260). Sur le plan des
jugements évaluatifs, dix-sept des dix-huit professeurs s’accordent pour
reprocher aux élèves de faire débuter leur graphique à l’origine. Seul l’un
des professeurs (F) hésite vraiment à émettre une critique sur la réponse
proposée et la juge finalement acceptable : il défend l’idée selon laquelle
faire débuter le graphique à l’origine dénote d’une logique concrète, que
cela renvoie à la dimension « réaliste » du problème. Nous présentons
ci-après quelques courts extraits d’échanges entre des enseignants qui
doivent s’accorder sur une évaluation commune68. À travers les justifica-
tions, et en comparant les différentes interventions (par exemple A2 et
C3), il apparaît nettement que les connaissances à l’origine d’un même
jugement peuvent être différentes. Quant à elles, les interventions C3 et
F3 permettent d’inférer que les deux évaluateurs maîtrisent les enjeux
disciplinaires et qu’ils mobilisent, bien qu’ils s’expriment différemment (ce
qui n’est peut-être pas anodin ici), une connaissance analogue relative aux
fonctions affines. Pourtant, certainement parce qu’ils ne donnent pas la
même importance à la l’aspect « réaliste » évoqué par le problème, leurs
jugements sont opposés.
Le jugement des enseignants A et B laisse apparaître une divergence,
avec aucune véritable argumentation. Finalement B suivra l’avis de A. Ce qui
emporte la décision est la référence aux autres tracés (A2). L’intervention
A2 donne aussi une indication sur la manière dont est construit le référent
et sur sa solidité (cf. infra)
A1 : Donc, il y a une reprise du tracé graphique, mais je pense qu’il

y a quand même l’erreur, car ils débutent de l’origine zéro.
B1 : Ce n’est pas une erreur pour moi, ils débutent de l’origine zéro,
c’est 250 francs en n’ayant pris aucune cassette, donc, ce n’est
pas une erreur.
A2 : Comme dans les autres tracés, on prend en compte directement
l’abonnement.
Les enseignants C et D sont confrontés à un dilemme que nous

formulerons ainsi : comment gérer la dimension « réaliste » ou la référence
au contexte qui est en décalage avec le recours au modèle des fonctions
affines et linéaires ?
67. Dans un premier temps, comme cela se voit sur le graphique, ils oublient de prendre en
compte l’abonnement et placent les points (0, 0), (1, 10), (5, 50), etc., dont les abscisses
correspondent aux valeurs figurant dans le tableau qu’ils doivent d’abord compléter.
68. Pour accéder à la catégorisation et à l’analyse détaillée des connaissances mobilisées
par les différents professeurs, se reporter à Vantourout, (2004).
DETROZ_CS6_PC.indb 152 10/10/2016 09:47:13

C1 : Oui, mais tu ne veux pas louer de cassette tu ne payes pas.

D1 : Si tu te casses une jambe et que tu ne peux plus aller à ton
truc de vidéo, tu n’auras toujours pas de cassette de louée et
puis tu auras quand même payé l’abonnement pour un an, tu
ne crois pas ?
C2 : Oui, mais je pense que tu payes l’abonnement à partir du
moment où tu loues une cassette… Tu ne vas pas payer l’abon-
nement sans louer de cassette.
D2 : Attends, moi je commencerais à 1 ! Mais si attends, alors pour-
quoi ? Parce que… Oui tu ne loues pas de cassette, tu ne payes
pas d’abonnement… Ouais, enfin si c’est vrai ce que tu dis.
C3 (faisant référence à une autre formule et à son tracé sur le gra-
phique) : La formule, c’est 100 plus 30 fois x [100 + 30 x], x étant
le nombre de cassettes… donc pour x égal zéro, ça fait 100.
Les enseignants E et F sont confrontés au même dilemme, mais

l’un d’entre eux, F, parvient à prendre en considération la situation évoquée
dans l’énoncé et peut s’appuyer sur une modélisation du problème via les
fonctions dans le cadre graphique.
E1 : Alors pour le graphique, il y a un problème pour le prix quand

on prend zéro cassette, ils ont mis, ils ont pris l’origine aussi,
ils n’ont pas décalé à 250 là.
F1 : Ben qui est faux, moi je ne suis pas entièrement d’accord pour
dire que c’est faux parce que ça se défend si t’as pas l’inten-
tion de louer de cassettes tu ne prends pas d’abonnement, donc
finalement ça ne coûte rien.
E2 : Ouais, mais enfin l’abonnement tu le payes après si tu veux
zéro cassette tu as quand même payé tes 250 francs, si tu tombes
malade ou je ne sais pas quoi.
F2 : Cela dit, souvent, le jour où tu vas prendre ton abonnement tu
prends une cassette, donc si tu n’as pas pris de cassette, c’est
que tu n’avais pas… Ouais enfin, moi je dis que ça se défend,
zéro, zéro (0,0) […].
E3 : Ouais… Je ne sais pas si tu n’analyses pas un peu trop ?
F3 : C’est vrai qu’on part du schéma des fonctions affines, mais jus-
tement je n’ai pas fait attention […] Donc moi, enfin je préfère
privilégier le sens… Pour moi, qu’ils aient mis le point là ou
là, ce n’est pas très important, je ne trouve pas ça insatisfaisant
qu’ils aient mis le zéro, zéro, je ne trouve pas que ça soit un
problème.
DETROZ_CS6_PC.indb 153 10/10/2016 09:47:13

3.3. Analyse de l’activité des évaluateurs :

quel référent pour l’évaluateur ?
Une partie des éléments recueillis lors de cette recherche a permis
de s’intéresser à la manière dont des évaluateurs construisent leur réfé-
rent, principalement dans sa dimension « disciplinaire » : plusieurs profils
de comportements évaluatifs ont été distingués69.
L’un de ces profils renvoie à des professeurs qui, avant de s’intéresser
aux réponses des élèves, résolvent immédiatement l’intégralité du problème
et disposent de l’ensemble des réponses attendues. Autrement dit, ces pro-
fesseurs, qui maîtrisent les enjeux disciplinaires du problème, disposent d’un
référent, contenant toutes les réponses aux questions, lorsqu’ils évaluent les
productions des élèves. Certains référents sont éventuellement plus complets
que d’autres, en particulier pour ce qui concerne la partie graphique du pro-
blème. Ces professeurs mettent en œuvre une activité qui correspond à une
confrontation entre un référent et un référé. D’ailleurs, plusieurs déclarent
comparer leurs réponses avec celles des élèves. Bref, le modèle comparaison
référent/référé convient parfaitement pour décrire leur activité.
D’autres profils ont été également identifiés : il est difficile, voire
impossible pour certains, de les décrire à l’aide du modèle comparaison
référent/référé. Cela concerne d’une part des professeurs qui, comme les
précédents, maîtrisent les enjeux disciplinaires du problème. Mais, contrai-
rement aux précédents, ils ne cherchent jamais à le résoudre, ce qui fait
qu’ils ne disposent d’aucune des réponses attendues lorsqu’ils découvrent
le travail des élèves. Ils disposeraient néanmoins de « la structure de la
solution », c’est-à-dire d’un modèle général de résolution pour une classe de
problèmes donnés. Le rôle de cette structure serait de faciliter une lecture et
une compréhension plutôt globales du problème. Par exemple, ils identifient
l’un des problèmes (Le cycliste, cf. annexe 2) comme étant une situation
qui implique les notions de fonctions linéaire et affine, une courbe affine par
morceaux, etc. Il est possible de considérer que la structure de la solution
tienne lieu de référent pour ces professeurs. Ce référent, qui renfermerait
les principales notions mathématiques en jeu dans le problème, comprendrait
une image adéquate de la courbe à construire, ainsi que des attentes plus ou
moins précises, comme le recours à certaines procédures, en revanche il ne
contiendrait aucune réponse précise aux questions. Il n’y aurait donc pas de
« véritable » produit-norme70. La description de l’activité évaluative de ces
professeurs, contrairement à celle des professeurs précédents, ne renvoie
69. Pour une présentation détaillée des quatre profils, voir Vantourout (2007).
70. On retrouve un produit-norme « vague et flou », tel qu’avancé par Bonniol (cf. note 13).
Mais avait-il envisagé que cela puisse arriver dans une situation analogue aux nôtres,
avec des qui problèmes mathématiques « classiques » ?
DETROZ_CS6_PC.indb 154 10/10/2016 09:47:13

pas à la comparaison référent/référé sous sa forme la plus « classique ». Il

est toutefois envisageable de décrire leur activité comme une opération de
confrontation impliquant, d’un côté une lecture et une analyse attentives
des raisonnements des élèves, et de l’autre, un cadre de possibles, à la fois
ouvert à beaucoup d’éventualités et borné par la structure de la solution.
L’activité de ces évaluateurs peut être décrite comme une lecture orientée
des productions des élèves, basée sur le système d’attentes de l’évaluateur
jugées légitimes, autrement dit sur un référent tel que le définit Hadji (1999),
même si ce référent est ici éloigné de la conception habituelle et classique71.
D’autre part, il y a des professeurs qui ne résolvent pas le problème
et qui, loin de le maîtriser, rencontrent des difficultés importantes pour le
comprendre. Les concernant, il nous semble difficile de leur attribuer un
référent au sens où on l’entend habituellement. D’abord, parce qu’ils ne
parviennent pas, ou très difficilement, à modéliser correctement la situa-
tion et parce qu’ils ne disposent d’aucune réponse. Ensuite, parce qu’un
phénomène évaluatif très répandu intervient avec ces professeurs dans des
proportions que l’on peut juger extrêmes : celui-ci, entrevu précédemment
avec l’évaluateur A, consiste à s’appuyer sur les productions des élèves
pour évaluer. Dans leur cas, il ne s’agit plus de s’appuyer, mais davantage
de puiser des informations, voire des connaissances, au sein des produc-
tions des élèves, afin de disposer de réponses qui paraissent justes, tout en
étant incapables d’en contrôler la validité. Cela apparaît, par exemple, avec
l’une des questions du problème « Le cycliste », lorsque des évaluateurs
retiennent comme réponse, celle proposée par un élève, Alexis, sans être en
mesure de dire pourquoi cette réponse est juste72. Pour décrire l’activité de
ces professeurs, dont nous n’avons donné qu’une brève illustration, il paraît
impossible d’utiliser le modèle comparaison référent/référé. On peut estimer
que ces professeurs ne disposent pas de produit-norme, contrairement à la
position générale adoptée par Bonniol (cf. note 13). Et quand bien même
on accepterait l’existence d’un référent extrêmement pauvre et laconique,
sans le moindre élément pouvant s’approcher d’un produit-norme, il faut
garder à l’esprit que la notion de référent s’intègre dans une conception
de l’activité évaluative selon laquelle c’est le référent qui oriente la lecture
du référé. Or, il se produit, avec ces professeurs, un renversement complet
71. On pourrait aussi considérer que ce référent s’apparente à une « image opérative »
(cf. Pastré, 2011).
72. Il est question dans l’énoncé d’un cycliste qui roule régulièrement (phase 1), s’arrête
(phase 2), puis roule à nouveau régulièrement (phase 3). La phase 3 ne peut pas être
modélisée comme une situation de proportionnalité. Pour trouver la distance parcou-
rue au bout de 90 minutes (phase 3), alors que l’un des élèves, David, ne parvient
pas à se dégager de la situation de proportionnalité, l’autre, Alexis, utilise implicite-
ment et judicieusement la propriété des fonctions affines dite « propriété des écarts
proportionnels ».
DETROZ_CS6_PC.indb 155 10/10/2016 09:47:13

qui donne lieu à une lecture uniquement orientée par le référé, ce qui
rend difficile, voire impossible, une description à l’aide de ces modèles et
de cette comparaison73.
C’est un fait, certains professeurs élaborent donc leur référent
alors qu’ils évaluent (Vantourout, 2004 et 2007). Il est possible de faire
un rapprochement entre ce phénomène évaluatif et l’évaluation « appré-
ciative sans modèle prédéterminé » postulée par Ardoino et Berger (1986,
cf. Hadji, 1989 et 1992) et dont il sera plus amplement question ci-après.
Cette recherche a permis de donner une consistance empirique à cette
proposition et d’attester l’existence de tels phénomènes évaluatifs. Mais, il
a également été constaté que, parmi les évaluateurs qui ne disposent pas
de référent a priori, certains maîtrisent mal, voire pas du tout, les aspects
disciplinaires du problème servant à évaluer.
4. LA CORRECTION DE DISSERTATION
EN SCIENCES ÉCONOMIQUES ET SOCIALES
Une autre illustration des options méthodologiques et théoriques
que nous défendons pour l’étude de l’activité des évaluateurs vient d’une
recherche menée sur la correction de dissertations en Sciences économiques
et sociales (SES) (Goasdoué, Vantourout & Bedoin, 2016 ; Vantourout
& Goasdoué, 2011). Bien qu’attaché à une autre discipline, ce travail s’ins-
crit dans le prolongement des travaux menés en mathématiques tout en
explorant des questions sur les jugements des enseignants, moins sail-
lantes dans la recherche précédente. Nous avons en effet choisi d’aller vers
une épreuve encore plus ouverte, au sens où l’ensemble des productions
également valables ou acceptables est plus important et que ces produc-
tions, qui sont d’une grande richesse74, ne relèvent certainement pas du
régime du « juste » ou du « faux ». Ces caractéristiques permettent par
ailleurs de réinterroger la pertinence de la comparaison référent/référé,
puisqu’évidemment aucun enseignant ne s’engage dans la correction avec
une « dissertation modèle » en tête. L’absence d’un référent identifiable ne
73. On pourrait rétorquer que ce profil est avant tout un artefact de la situation aména-
gée, qu’un professeur en exercice ne donne pas à ses élèves un problème qu’il ne saura
pas résoudre, une tâche pour laquelle il ne dispose pas finalement de la réponse atten-
due. Nous pensons qu’il n’en est rien et qu’en raison de contraintes diverses, l’emploi
d’outil d’évaluation par certains enseignants repose parfois sur un choix très global, un
choix par thématique, sans que soient pesés les enjeux de la tâche d’évaluation qu’ils
ne conçoivent qu’assez rarement.
74. Une copie peut-être « riche » pour son contenu, relativement à ce qui est évalué et
attendu, mais elle peut l’être aussi pour les « problèmes » qu’elle suscite du point de
vue de son évaluation, des ambiguïtés qu’elle renferme.
DETROZ_CS6_PC.indb 156 10/10/2016 09:47:13

signifie pas pour autant l’absence d’attentes très précises, mais nous les
qualifierions alors plutôt de réseaux d’attentes que de référent.
L’enquête s’appuie sur une analyse détaillée des verbalisations d’en-
seignants au cours de leur correction de copies. Il s’agit à nouveau d’une
situation aménagée, car ce travail d’explicitation de l’activité de correction
est, dans une certaine mesure, artificiel tout en étant bien un témoignage du
fonctionnement cognitif du correcteur. Après un temps de « préparation »
du sujet de la dissertation, nous demandons aux enseignants de verbaliser
tous les commentaires qu’ils jugent nécessaires pour que l’on comprenne
leur activité de correction. Toujours dans l’idée de prolonger dans une autre
perspective les travaux en docimologie, nous avons sélectionné trois copies75
dont une moins bonne et deux moyennes, car elles sont identifiées de
longue date (cf. Laugier, Weinberg 1936, cités par Piéron 1963) comme
suscitant un maximum de divergences. Tous ces choix – une tâche ouverte,
des réponses ne pouvant pas nécessairement faire l’objet d’une évaluation
tranchée, des copies moyennes – offrent une sorte de cas « extrême » pour
mettre à l’épreuve les principaux résultats et hypothèses de la docimologie :
les divergences entre évaluateurs et leurs déterminants, le modèle com-
paraison référent/référé. Enfin pour évacuer l’effet possible du niveau de
formation et de maîtrise des contenus évalués, nous nous sommes adressés
à des enseignants expérimentés et presque tous agrégés en SES.
Le premier constat quantitatif des divergences de notation est
conforme à tout ce qui a été écrit à ce sujet depuis les travaux pionniers
des docimologues des années 1930, la même copie à reçu la note de 8/20
ou 16/20 selon le correcteur. L’intérêt majeur de ce travail ne réside évi-
demment pas dans la répétition de ce constat, mais dans l’analyse du lien
que l’enquête permet de faire entre notation et jugement. Si on compare
les correcteurs par paires, on peut par exemple remarquer que des écarts
plus faibles en nombre de points ne s’accompagnent pas nécessairement
d’une convergence accrue de jugements simplement caractérisés par leur
valence positive ou négative (Vantourout & Goasdoué, 2010). Inversement,
des enseignants produisant davantage de jugements communs à propos des
mêmes éléments mettent des notes plus divergentes. Ce premier constat
conduit évidemment à différencier divergences de jugement et de nota-
tion. La nature de l’épreuve et les techniques de correction pourraient
être invoquées pour expliquer ces décalages entre jugements et notation.
L’adoption d’un barème commun pourrait être vue comme une solution à
ces divergences ; or il n’en est rien (idem). En effet, parmi les enseignants
interrogés, plusieurs corrigeaient à l’aide d’une grille commune et très détail-
lée à laquelle ils confient en quelque sorte le choix de la note qui n’est plus
75. Ces trois copies proviennent d’un lot, que nous nous étions procuré, constitué de
l’ensemble des copies de bac blanc d’une classe de terminale.
DETROZ_CS6_PC.indb 157 10/10/2016 09:47:13

qu’une somme de l’ensemble des points accordés pour chaque item (en fait,
les compétences constitutives de la maîtrise de la dissertation) de la grille.
Les divergences de notation entre ces correcteurs ne sont pas inférieures
à celles relevées avec d’autres correcteurs qui corrigeaient sans grille76.
Une analyse plus approfondie a permis de constater que si de nombreux
enseignants s’intéressaient aux mêmes passages de la dissertation (80 %
des verbalisations sont concentrées sur les mêmes phrases), ils n’en tirent
pas toujours les mêmes conséquences. On retrouve ici les constats faits
lors de la recherche précédente, la convocation d’une même connaissance
ne conduit pas nécessairement au même jugement évaluatif, comme en
témoignent les extraits suivants :
À la lecture de ces deux phrases d’une copie : Les syndicats
sont devenus des institutions, c’est pourquoi les salariés ne se
reconnaissent plus dans les syndicats et n’y adhèrent donc plus. Les
représentants des syndicats ne sont plus des salariés c’est pourquoi
on peut se demander si les syndicats défendent leurs propres intérêts
ou ceux des adhérents.
– Un premier enseignant dit : Très bon mécanisme, très bonne

argumentation. Chose loin d’être simple à comprendre pour
des élèves de terminale. Ce n’est pas évident pour l’élève de
comprendre que l’institutionnalisation provoque une sortie des
délégués syndicaux trop fréquente de l’entreprise pour qu’il y
ait un contact important entre les collègues.
– Un second affirme au contraire que : Il faut définir le terme ins-
titution ; on parle plutôt d’institutionnalisation des syndicats,
et ajoute sur la copie : Ne sont plus des salariés présents dans
l’entreprise. Donner un exemple pour construire la démons-
tration.
Les deux correcteurs mobilisent la notion d’institutionnalisation,

commune en sociologie du travail. Toutefois, seul le premier fait crédit à
l’élève d’une autre connaissance, celle de savoir que les salariés ne sont
plus présents dans l’entreprise, mais toujours rémunérés par elle. Le second
correcteur pointe l’ambiguïté de la phrase, ce qui débouche évidemment
sur des jugements différents. Le terme « institutionnalisation », absent de la
copie, peut également servir à illustrer la production d’inférences par les cor-
recteurs. Il s’agit, dans notre catégorisation77 d’un « apport-substitution » :
76. Attention toutefois, la grille, qui contraint et organise l’activité des évaluateurs, a des
effets positifs, notamment sur la qualité des retours adressés aux élèves (Vantourout
& Goasdoué, 2010).
77. Pour une présentation détaillée de la catégorisation des inférences, voir Goasdoué et al.
(2016).
DETROZ_CS6_PC.indb 158 10/10/2016 09:47:13

la notion d’institutionnalisation est apportée par les correcteurs, qui la

substituent à l’expression « Les syndicats sont devenus des institutions ».
Nous relevons d’autres inférences, caractéristiques de la double acti-
vité d’évaluation – lecture-compréhension et correction –, qui témoignent
de l’élaboration d’une représentation et de pistes de compréhension. Après
avoir lu un passage de la copie, une enseignante affirme : Je ne suis pas
sûre qu’il ait tout compris parce qu’il parle de fragmentation des
classes sociales et il dit qu’elle est illustrée par une moyennisation
des catégories ouvrières, donc du coup en termes de fragmentation
on a plutôt l’impression d’un rassemblement des classes sociales. Cette
enseignante, tout en se déclarant « pas sûre », exprime très clairement
qu’il s’agit d’une piste de compréhension ; celle-ci repose sur un processus
inférentiel, et donne finalement lieu à un jugement plutôt négatif. La double
activité d’évaluation portant sur le contenu et sur les acquis des élèves est
manifestement à l’œuvre dans cet extrait.
Ces exemples montrent à quel point la correction de dissertation peut
être une lecture singulière et approfondie de la copie où l’élève est présent
à travers son texte. Le texte n’est pas pris comme une simple réponse, mais
plutôt comme le symptôme d’un fonctionnement cognitif, d’un niveau de
maîtrise des connaissances. L’intention ou la finalité de lecture de correction
est implicitement diagnostique, c’est, comme l’affirment Amigues et Zebato-
Poudou (1996), une forme de dialogue différé. La correction et la notation
d’une dissertation ne sont clairement pas une quantification des qualités de
la copie, et encore moins la mesure d’un écart à un référent. On perçoit ici
le décalage profond entre la nature de cette activité et les critères d’analyse
mobilisés par les travaux en docimologie. La fidélité, bien que posant des
problèmes concrets très importants, notamment pour les concours, ne saurait
être le seul critère de validité d’une évaluation. Sur l’ensemble des juge-
ments produits par les enseignants, quasiment aucun ne pourrait être qualifié
d’erroné. Tous s’appuient sur des connaissances et des éléments bien clairs
et légitimement relevés sur la copie. En ce sens, on se démarque nettement
des conclusions des docimologues qui tendent à disqualifier, d’une part, la
validité d’une épreuve comme la dissertation, et, d’autre part, la fiabilité du
jugement des enseignants en raison de leurs divergences et de leur faillibilité.
Outre la question des divergences, cette étude contribue également
à remettre en cause la place de la comparaison référent/référé dans la des-
cription de l’activité des évaluateurs. Remettre en cause la place accordée à
ces processus ne conduit cependant pas à dénier toute cohérence à l’activité
de correction et à supposer que l’enseignant procède par induction sans
attente préalable. La technique de verbalisation concomitante à l’activité de
correction permet au contraire de suivre l’évolution de la représentation que
l’enseignant se fait de la copie. L’évocation fréquente de la cohérence de la
DETROZ_CS6_PC.indb 159 10/10/2016 09:47:13

copie, ainsi que la formation régulière d’anticipations sur la suite de la copie,

montre la richesse de cette activité qui ne saurait être réduite à une com-
paraison référent/référé. À contre-pied des docimologues expérimentaux qui
considéraient l’évaluation comme un cas particulier de perception (notamment
en référence à la perception de grandeurs physiques), ce constat nous a
conduits à considérer la lecture de correction plutôt comme un cas particulier
de compréhension de texte (Blanc & Brouillet, 2003 ; Eco, 1985). Le lecteur
correcteur, dont l’activité a notamment comme finalité la formulation d’une
appréciation et l’attribution d’une note, cherche en permanence à construire
une représentation cohérente du texte lu et, pour y parvenir, produit de
nombreuses inférences sur divers objets tels que les contenus, la structure
du devoir ou les qualités « présumées » de l’élève (Goasdoué et al., 2016).
La docimologie cognitive bénéficie des apports heuristiques de
diverses sources théoriques qui permettent d’appréhender, sous un angle
cognitif, l’activité évaluative étudiée. Pour expliquer notamment la régulation
de cette activité particulière de lecture, nous empruntons les notions de
« traitement heuristique » et de « traitement systématiques » aux travaux
en psychologie sociale sur le jugement et la persuasion, tels que propo-
sés par Chen et Chaiken (1999). Leur Dual Process Theory oppose ces
deux modes de traitement des messages, comme deux processus ayant la
même fonction (vicariants), conduire à un jugement, mais par des voies
très différentes. Le traitement heuristique est spontané, moins coûteux
cognitivement, souvent utilisé en première approche. Le traitement systé-
matique est caractérisé par un coût cognitif supérieur dans la mesure où
le sujet, comme dans les traitements décrits dans la compréhension, doit
faire appel à ses connaissances. On trouve là des ressemblances avec les
Système 1 et Système 2 développés par Kahneman78 (2012). De même,
les travaux de Sperber et Wilson (1989) pourraient s’avérer d’une grande
portée heuristique pour comprendre l’activité des évaluateurs. Proposée
pour aborder la compréhension du langage, leur définition de la pertinence,
comme un rapport entre le coût cognitif et l’effet cognitif, se retrouve très
clairement dans l’activité de correction. Les correcteurs de dissertations sont
contraints, pour « tenir la distance », de cibler leur investissement cognitif
dans la compréhension des copies et des élèves. Un ensemble de travaux
convergents, bien qu’issus de champs différents, véhiculent tous, plus ou
moins explicitement, l’idée d’« avare cognitif » (Fiske, 2008) qui serait une
caractéristique fondamentale de notre fonctionnement cognitif, notamment
face à des situations répétitives et stimulant peu la curiosité.
78. Le premier « fonctionne automatiquement et rapidement, avec peu ou pas d’effort et

aucune sensation de contrôle délibéré », le second « accorde de l’attention aux acti-
vités mentales contraignantes qui le nécessitent, y compris des calculs complexes »
(Kahneman, 2012).
DETROZ_CS6_PC.indb 160 10/10/2016 09:47:13

5. DES ÉPREUVES, DES LOGIQUES

DE PREUVES : DÉPASSER CERTAINS
CLIVAGES POUR PENSER LA VALIDITÉ
DES ÉVALUATIONS
Les constats accablants sur les divergences entre évaluateurs ont
relégué au second plan le projet initial des docimologues, celui d’« étudier
la psychologie des examinateurs » (Laugier & Weinberg, 1927). C’est parce
qu’ils se réapproprient ce projet que les travaux présentés précédemment
peuvent être qualifiés de « docimologiques ». Cependant, notre intention
n’est pas de fournir des arguments pour la promotion d’une méthode parti-
culière, mais de comprendre les raisonnements évaluatifs qui se développent
de la conception d’épreuves à leur correction. Clarifier les critères de validité
et les logiques propres à chaque activité évaluative permet de dépasser le
clivage instauré par les docimologues entre types d’épreuves.
Comme nous l’indiquions en début de chapitre, nous qualifions de
cognitive notre approche de l’évaluation pour trois raisons principales : le
recours à des travaux en psychologie permettant de comprendre le fonction-
nement cognitif des évaluateurs, l’importance accordée aux connaissances
(des évaluateurs et des évalués), et enfin parce que nous considérons l’éva-
luation comme une démarche de production de connaissance. Les parties
précédentes ont largement porté sur les deux premières raisons, ce dernier
paragraphe est l’occasion de clarifier ce que nous entendons par démarche
de production de connaissance et de montrer l’intérêt de considérer l’éva-
luation comme telle.
Les évaluations sont, en un sens, une forme d’enquête, un procès au
sens étymologique du terme. Toute évaluation, quelle que soit sa fonction
ou finalité, doit faire la preuve, attester des acquis des élèves. S’interroger
sur la validité des évaluations conduit donc à s’intéresser à ce qui fonde la
légitimité des jugements émis. Cette analyse ne saurait être confinée à des
choix de méthode, mais doit essayer de cerner ce qui fonde les « raison-
nements évaluatifs » qui conduisent aux jugements. Dans cette perspective
cognitive de la docimologie, la validité repose sur une cohérence interne
des raisonnements évaluatifs propres à chaque d’évaluation.
Cette idée de décrire les chemins de la preuve est en partie inspirée
d’une transposition des travaux de Passeron sur « le raisonnement sociolo-
gique » (1992/2006). Passeron montre que les enquêtes en sociologie relèvent
de différents régimes de scientificité, oscillant entre deux pôles, le raisonne-
ment expérimental et le récit historique. Cette opposition offre une grille de
lecture intéressante pour caractériser les pratiques d’évaluation. Schématique-
ment, on pourrait placer les épreuves fermées (type QCM) du côté du pôle
DETROZ_CS6_PC.indb 161 10/10/2016 09:47:13

expérimental, alors que les épreuves ouvertes (dissertation) seraient proches

des récits historiques. Cependant, la transposition de ce cadre d’analyse dépasse
la simple requalification d’un antagonisme bien connu entre épreuves ouvertes
ou fermées, tout comme Passeron ne se borne pas à rebaptiser l’opposition
entre démarches qualitatives et quantitatives. Il montre non seulement les spé-
cificités, les cohérences internes aux différents régimes de preuve en sociologie,
mais surtout les liens étroits entre objets et démarches de recherche. De la
même façon, nous souhaitons décrire les logiques internes à chaque activité
évaluative, des logiques de preuve, et montrer que les « raisonnements évalua-
tifs » dépendent étroitement des savoirs évalués. Démontrer en mathématique
n’est pas argumenter en philosophie, comme lire un texte juridique n’est pas
proposer une interprétation littéraire. Ces savoirs ne suscitent nécessairement
pas les mêmes raisonnements évaluatifs et, partant, reposent sur des « logiques
de preuve » et donc des critères de validité différents.
Les logiques de preuve, que l’on entend décrire en traitant aussi
bien la conception d’épreuve que la correction, ne recoupent ni les taxono-
mies courantes en évaluation, ni les types des épreuves (QCM vs épreuves
ouvertes). Elles dépendent étroitement d’une part des contenus évalués et
d’autre part de l’activité des évaluateurs (conception et correction) et des
évalués (processus de réponse qui peuvent être variés). Ainsi, la validité
n’est-elle pas pensée comme l’approximation la plus fiable d’une grandeur
préexistante, comme le suggère le paradigme de la mesure, mais comme la
cohérence d’un raisonnement qui se déploie de la conception d’épreuve à
la correction, en passant par le processus de réponse. Les QCM sont fondés
sur des hypothèses évaluatives mettant en jeu à la fois des connaissances
sur les savoirs évalués, mais aussi sur le fonctionnement psychologique des
élèves dans le domaine évalué. Dans les épreuves ouvertes, le raisonnement
est autre ; il existe évidemment des hypothèses qui fondent la conception
du sujet proposé, mais d’autres hypothèses ou interprétations sont formu-
lées lors de la correction. Ces deux types éloignés d’épreuves mobilisent
des raisonnements évaluatifs différents, sans que l’on puisse par avance
qualifier les uns de valides et les autres d’aléatoires. La validité n’est pas
la propriété d’une méthode, mais la qualité d’un raisonnement. À la labilité
des interprétations que peut susciter la lecture d’une dissertation, on peut
opposer l’incertitude qui entoure toute conception de question d’un QCM.
En effet, seule une analyse du processus de réponse permet de savoirs si les
hypothèses évaluatives qui fondaient une question étaient valides. L’examen
du recoupement des réussites aux diverses questions, comme il est d’usage
de faire pour caractériser la validité d’un test, laisse dans l’ombre les « motifs
de réponses l’item » et donc s’accompagne une incertitude importante sur
la signification de la réussite à une question ou à un ensemble de ques-
tions. La validité serait dans cette perspective la réduction de l’incertitude
sur l’assignation d’un individu à une catégorie diagnostique (aussi floue
DETROZ_CS6_PC.indb 162 10/10/2016 09:47:13

soit-elle) ou à un niveau de maîtrise (aussi global soit-il). La validité est de

ce point de vue moins une affaire de précision (métrique) que de légitimité
des jugements produits à partir d’une évaluation. La légitimité renvoyant
elle-même à ce qui fonde les raisonnements qui ont présidé aux jugements.
La description très sommaire des raisonnements évaluatifs et de la
portée heuristique de la transposition des travaux de Passeron qui vient d’être
proposée montre que la validité ne peut être confinée à des questions de
méthode et nécessite le recours à des connaissances issues de la psychologie
des apprentissages, des didactiques disciplinaires, mais aussi de la didactique
professionnelle pour la description de l’activité évaluative. Si les psychométri-
ciens ont fait le choix pragmatique de ne pas attendre d’avoir une « bonne »
théorie de référence pour évaluer l’intelligence, il est clairement discutable de
soutenir cette position à propos des apprentissages scolaires, qui sont pour la
plupart des objets davantage circonscrits et mieux définis. La possibilité de
fonder des choix de tâches, voire de tests, sur des modèles développemen-
taux des apprentissages (psychologiques ou didactiques) permet d’échapper
aux procédures autoréférentielles d’analyse quantitative de la validité et à
l’éternelle tautologie de la définition de l’objet et de la mesure : « la littératie,
c’est ce que mesure le test ». Nous évoquons là une approche renouvelée et
qualitative de la validité, qualifiée de psychodidactique (Vantourout & Goas-
doué, 2014) et d’épistémo-didactique (voir le chapitre de Grugeon dans cet
ouvrage) qui entend traiter sur un autre plan que probabiliste l’incertitude liée
à tout raisonnement évaluatif. Il s’agit de déplacer les débats sur la validité des
questions de méthodes vers des discussions sur le choix des connaissances
convoquées, imbriquées dans les raisonnements évaluatifs. Si cette démarche
est possible pour certains apprentissages mathématiques ou encore pour la
maîtrise de la lecture, un travail considérable reste à faire pour établir des
modèles développementaux relatifs à d’autres apprentissages scolaires, pour
assurer la validité des raisonnements évaluatifs.
Le projet d’une docimologie cognitive n’est ainsi pas de tenir des dis-
cours de la méthode, ni de défendre un modèle général, mais de proposer un
cadre d’analyse permettant d’intégrer deux dimensions fondamentales des
raisonnements évaluatifs, d’une part les spécificités des connaissances éva-
luées et d’autre par les logiques propres des épreuves. Espérons que cette
approche permette de renouveler les débats sur la validité, trop souvent
réduits à des querelles de définitions, voire à des oppositions « claniques »
entre les défenseurs de la mesure au nom de la scientificité et ceux qui
crient au réductionnisme « quantophrénique79 ».
79. Pathologie moderne caractérisée par l’abus de statistiques, déjà dénoncé par Pitirim
Sorokin en 1956 à propos de l’usage des statistiques en sociologie.
DETROZ_CS6_PC.indb 163 10/10/2016 09:47:13

Amigues R., Bonniol J.-J., Caverni J.-P., Fabre J.-M. & Noizet G. (1975). Le compor-
tement d’évaluation de productions scolaires : à la recherche d’un modèle explicatif.
Bulletin de psychologie, 28, 793-799.
Amigues R., & Zerbato-Poudou, M.-T. (1996). Les pratiques scolaires d’apprentis-
sage et d’évaluation. Paris : Dunod.
Barbier J.-M. (1985). L’évaluation en formation. Paris : PUF.
Blanc N. & Brouillet N. (2003). Mémoire et compréhension. Paris : In Press.
Bodin A. (2006). Les mathématiques face aux évaluations nationales et inter-
nationales. Repères IREM, no 65, 55-89. www.univirem.fr/commissions/reperes/
consulter/65bodin.pdf
Bonniol J.-J. & Vial M. (1997). Les modèles de l’évaluation – Textes fondateurs
avec commentaires. Bruxelles : De Boeck.
Cardinet J. (1973/1988). L’adaptation des tests aux finalités de l’évaluation. In J.
Cardinet, Évaluation scolaire et mesure (pp. 24-59). Bruxelles : De Boeck.
Caverni J.-P. & Gonzales M. (1986). Vers une modélisation des processus de jugement
dans l’évaluation. Bulletin de psychologie, 39 (375), 301-304.
Chen S. & Chaiken S. (1999). The Heuristic-Systematic Model in ITS Broader
Context. In S. Chaiken & Y. Tropes (Eds), Dual Process Theory in Social and
Cognitive Psychology, 73-96. New York : Guilford.
Crahay M. (2013). Nécessité et insuffisance d’une psychologie de l’apprentissage pour
enseigner les mathématiques. Éducation & Formation – e-298-01, 11-21.
Delcambre I. (2007). Contenus d’enseignement et d’apprentissage. In Y. REUTER,
Dictionnaire des concepts fondamentaux des didactiques (pp. 45-51). Bruxelles :
De Boeck.
De Ketele J.-M. (2012). À la recherche de paradigmes intégrateurs ou de paradigmes
unificateurs. In L. Mottier Lopez & G. Figari, Modélisation de l’évaluation en édu-
cation – Questionnements épistémologiques (pp. 195-210). Bruxelles : De Boeck.
Eco U. (1985). Lector in fabula. Paris : Le Livre de poche.
Fiske, S. (2008). Psychologie sociale. Bruxelles : De Boeck.
Goasdoué R., Vantourout M. & Bedoin D. (2016). La correction de dissertations : nouveau
regard sur la construction des jugements des évaluateurs. In L. Mottier Lopez & W. Tes-
saro, Le jugement professionnel des enseignants (pp. 73-93). Berne : Peter Lang.
Hadji C. (2012). Faut-il avoir peur de l’évaluation ? Bruxelles : De Boeck.
Hadji C. (1997). L’évaluation démystifiée. Paris : ESF.
Hadji C. (1992). L’évaluation des actions éducatives. Paris : PUF.
Hadji C. (1989). L’évaluation, règle du jeu. Paris : ESF.
Kahneman D. (2012). Système 1/Système 2 – Les deux vitesses de la pensée. Paris :
Flammarion.
DETROZ_CS6_PC.indb 164 10/10/2016 09:47:14

Laugier H. & Weinberg D. (1927). I. Le Facteur subjectif dans les notes d’examen.
L’année psychologique, 28 (1), 236-244.
Leplat J. (1997). Regards sur l’activité en situation de travail. Paris : PUF.
Maury S. (2001). Didactique des mathématiques et psychologie cognitive : un regard
comparatif sur trois approches psychologiques. Revue française de pédagogie,
no 137, 85-93.
Nabbout M. (2006). Enseignement des probabilités en terminale au Liban :
études des représentations et des pratiques dans des situations aménagées.
Thèse non publiée. Université René Descartes – Paris 5 Sorbonne.
Noizet G. & Caverni J.-P. (1978). Psychologie de l’évaluation scolaire. Paris : PUF.
Passeron J.-C. (1992/2006). Le Raisonnement sociologique : Un espace non pop-
périen de l’argumentation. Paris : Albin Michel.
Pastré P. (2011). La didactique professionnelle. Paris : PUF.
Sperber D. & Wilson D. (1989). La pertinence – communication et cognition.
Paris : Les Éditions de Minuit.
Vantourout M. (2007). Étude de l’activité évaluative de professeurs stagiaires
confrontés à des productions d’élèves en mathématiques : quel référent pour l’éva-
luateur ? Mesure et évaluation en éducation, vol. 30, no 3, 29-58.
Vantourout M. (2004). Étude de l’activité et des compétences de professeurs des
écoles et de professeurs de mathématiques dans des situations « simulées »
d’évaluation à visée formative en mathématiques. Thèse non publiée. Université
René Descartes – Paris 5 Sorbonne.
Vantourout M. & Goasdoué R. (2014). Approches et validité psychodidactiques des
évaluations. Éducation & Formation – e-302, 139-155.
Vantourout M. & Goasdoué R. (2011). Correction de dissertations en SES. Idées,
163, 71-77.
Vantourout M. & Goasdoué, R. (2010). Correction de dissertations : analyse de
l’activité de professeurs engagés dans une approche pas compétences. In Actes du
congrès de l’Actualité de la recherche en éducation et en formation (AREF),
Université de Genève, 13-16 septembre. 12 pages (en ligne).
Vantourout M., Goasdoué R., Maury S. & Nabbout M. (2012). À la frontière entre
l’écologique et l’expérimental : des situations aménagées pour l’étude de l’activité
évaluative en mathématiques. In M. Altet, M. Bru, C. Blanchard-Laville (Eds), Obser-
ver les pratiques enseignantes (pp. 191-204). Paris : L’Harmattan.
Vantourout M. & Maury S. (2006). Quelques résultats relatifs aux connaissances
disciplinaires de professeurs stagiaires dans des situations simulées d’évaluation de
productions d’élèves en mathématiques. Revue des sciences de l’éducation, vol. 32,
no 3, 759-782.
DETROZ_CS6_PC.indb 165 10/10/2016 09:47:14

ANNEXE 1
Figure 5.1. Modèle explicatif des comportements d’évaluation

de productions scolaires (Noizet & Caverni, 1978, p. 115)
SORTIE
PRODUCTEUR MÉMOIRE ÉVALUATION (évaluations)
INFORMATIONS SÉQUENTIELLES
INFORMATIONS « A PRIORI »
COMPARATEUR
CONDITIONS DE
PRODUCTION
MODÈLE
DE
RÉFÉRENCE PRODUIT
RÉÉL
ENTRÉE
REPÈRES (productions)
PRODUITS PRODUITS
POSSIBLES SÉLECTEUR ATTENDUS SUR UNE
ÉCHELLE
TÂCHE PRODUIT ÉCHELLE

NORME DE MESURE
OBJECTIFS CORPS DE
PÉDAGOGIQUES CONNAISSANCES
DETROZ_CS6_PC.indb 166 10/10/2016 09:47:14

ANNEXE 2
Figure 5.2. Types de pages présentées lors des situations aménagées

(problème : le cycliste)
Les élèves ont barré la partie en haut à gauche,

considérant cette solution comme fausse.
(Les évaluateurs ont également accès à la transcription des échanges
entre Alexis et David alors qu’ils résolvent le problème.)
DETROZ_CS6_PC.indb 167 10/10/2016 09:47:14

ANNEXE 3
Figure 5.3. Problème « location de cassettes vidéo » :

production graphique d’un binôme d’élèves
(Deux des trois tarifs sont déjà placés sur le graphique ;

les élèves ne doivent représenter que le troisième tarif.)
DETROZ_CS6_PC.indb 168 10/10/2016 09:47:14

View publication stats

DocimologieCognitiveVersionrelecture PDF

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

DocimologieCognitiveVersionrelecture PDF

Transféré par

Droits d'auteur :

Formats disponibles

See discussions, stats, and author profiles for this publication at: https://www.researchgate.

Chapitre 5. Évaluations scolaires et étude du jugement des enseignants : pour

Chapter · January 2017

The user has requested enhancement of the downloaded file.

DETROZ_CS6_PC.indb 1 10/10/2016 09:47:09

Collection dirigée par

DETROZ_CS6_PC.indb 2 10/10/2016 09:47:09

DETROZ_CS6_PC.indb 3 10/10/2016 09:47:09

© De Boeck Supérieur s.a., 2016

Tous droits réservés pour tous pays.

Il est interdit, sauf accord préalable et écrit de l’éditeur, de reproduire (notamment

DETROZ_CS6_PC.indb 4 10/10/2016 09:47:09

LISTE DES AUTEURS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

DETROZ_CS6_PC.indb 5 10/10/2016 09:47:09

Introduction à l’axe 2 : De la docimologie

DETROZ_CS6_PC.indb 6 10/10/2016 09:47:09

Introduction à l’axe 3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 213

LISTE DES TABLEAUX ET FIGURES . . . . . . . . . . . . . . . . . . . . . . . . . . 307

DETROZ_CS6_PC.indb 7 10/10/2016 09:47:09

DETROZ_CS6_PC.indb 9 10/10/2016 09:47:09

DETROZ_CS6_PC.indb 10 10/10/2016 09:47:09

Pascal DETROZ, Marcel CRAHAY et Annick FAGNANT

1. L’ÉVALUATION, CE CONCEPT QUI S’ÉTEND

DETROZ_CS6_PC.indb 11 10/10/2016 09:47:09

une crise profonde. De nombreuses voix s’élèvent contre ce « tout à l’éva-

DETROZ_CS6_PC.indb 12 10/10/2016 09:47:09

département, un élève soumis à un test adaptatif en anglais, le classement

2. UNE COMPLEXITÉ QUI S’EST DÉVELOPPÉE

3. Ce qui correspond à la définition de l’évaluation par Stufflebeam (1981).

DETROZ_CS6_PC.indb 13 10/10/2016 09:47:09

très présente dans la perspective de la mesure, de comparer les étudiants

3. VERS UNE PRISE EN COMPTE

5. Pour un historique complet, voir Bonniol et Vial (1997).

DETROZ_CS6_PC.indb 14 10/10/2016 09:47:09

spécialistes de l’évaluation, nous sommes autant passionnés par des études

DETROZ_CS6_PC.indb 15 10/10/2016 09:47:09

le temps où la problématique de l’évaluation se limitait à l’évaluation scolaire

4.1. L’importance de la prise en compte

DETROZ_CS6_PC.indb 16 10/10/2016 09:47:09

(frameworks) développés dans le cadre de l’enquête PISA, elle montre

4.2. Axe 1 : Évaluations et contextes didactiques

DETROZ_CS6_PC.indb 17 10/10/2016 09:47:09

étrangère et seconde (chapitre 3 : Fatima Chnane-Davin et Jean-Pierre

4.3. Axe 2 : Évaluations et modèles cognitifs

DETROZ_CS6_PC.indb 18 10/10/2016 09:47:09

4.4. Axe 3 : Évaluation dans l’enseignement

DETROZ_CS6_PC.indb 19 10/10/2016 09:47:09

Ardoino, J. & Berger, G. (1989). D’une évaluation en miettes à une évaluation en

DETROZ_CS6_PC.indb 20 10/10/2016 09:47:09

DETROZ_CS6_PC.indb 131 10/10/2016 09:47:13

1. LA DOCIMOLOGIE EST-ELLE OBSOLÈTE ?

DETROZ_CS6_PC.indb 133 10/10/2016 09:47:13

de de Landsheere. Elle l’est dans la quatrième édition de 1976. Celui-ci

47. Sur ce point, de Landsheere s’inspire explicitement de Guilford (1954).

DETROZ_CS6_PC.indb 134 10/10/2016 09:47:13

la loi de distribution normale, ne permet pas d’estimer la fidélité de la

2. LA NÉCESSITÉ D’UNE ANALYSE

DETROZ_CS6_PC.indb 135 10/10/2016 09:47:13

DETROZ_CS6_PC.indb 136 10/10/2016 09:47:13

conduit à proposer une docimologie cognitive au sein de laquelle la validité

– les invariants de l’activité évaluative ;

Elle en illustre la pertinence à partir d’une analyse approfondie de

DETROZ_CS6_PC.indb 137 10/10/2016 09:47:13