Vous êtes sur la page 1sur 3

Qu’est-ce que l’évaluation ?

Rappel de notions clés

Il existe une forte demande d’évaluations, personnelles ou institutionnelles, destinées soit à


réguler les apprentissages, soit à sélectionner l’excellence, toutes motivées par les besoins d’une
société où la mobilité des échanges s’accentue, souvent soutenue par des volontés politiques
affirmées. Si l’éducation pour tous est devenue un droit, la gouvernance des États comme celle
des institutions impliquent une remise à plat de certains fonctionnements, au risque, soit de
renforcer les inégalités et les injustices, soit de voir des dispositifs extérieurs venir supplanter les
dispositifs nationaux. Dans cette optique, il nous faut préciser certains concepts.

Evaluation et mesure
L’évaluation peut-elle être considérée comme une mesure dans la mesure où, dans la plupart des
cas, on évalue en attribuant une note chiffrée ?

« La mesure est l’opération qui permet de passer de l’espace continu du Réel à l’espace discret
du Connu » (Perdijon, 2004 :2). Une mesure n’a de sens que si elle est acceptée de manière
consensuelle. « Il ne saurait exister de vie sociale sans consensus sur une commune mesure »
(Perdijon, op ibid :1).

Lorsque je prends une règle pour évaluer la longueur d’un segment de droite, le résultat de mon
opération résulte en une quantification sur une échelle donnée et s’exprime par un nombre. Ce
nombre, cette valeur, n’a de sens que s’il/si elle est accepté(e) par tous ; cela signifie que l’unité
de mesure choisie ainsi que l’outil qui en découle sont consensuels. Cela signifie également que
le résultat obtenu est discriminant et qu’il me permet d’inférer une prise de décision en affirmant,
par exemple, que le segment x est plus long que le segment y. J’effectue donc une opération
valide puisque je mesure ce que je prétends mesurer, en l’occurrence la dimension dudit segment
d’une extrémité à l’autre, dans sa plus grande valeur et l’information recueillie me permet
d’estimer, ainsi, la possibilité de ranger ou non un livre dans une bibliothèque. C’est également
une opération fiable puisqu’elle peut être répétée autant de fois qu’on le souhaite par autant de
personnes possibles, et que l’on obtiendra toujours le même résultat. Ce sont ces deux qualités,
validité et fiabilité, qui confèrent à la mesure sa valeur sociale.

Rappelons toutefois que cette mesure n’a rien d’universel. On peut mesurer un segment donné en
mètres, en pouces, en pieds ou en heures. L’unité choisie n’a de sens que si elle est porteuse
d’informations pertinentes et discriminantes, et que si elle est reconductible, c’est-à-dire si elle
est considérée comme valide et fiable par le plus grand nombre d’utilisateurs, et nous
rappellerons à ce sujet qu’on ne mesure de façon consensuelle en France que depuis la
Révolution française, avec la création du mètre étalon, qui comme chacun le sait a été établi à
partir de la dix-millionième partie du quart du méridien terrestre le 26 mars 1791 par
l’Assemblée nationale.

Encore faut-il que les individus aient été formés pour parvenir à cette mesure. L’application du
système décimal ne se répandit réellement en France qu’à partir de la deuxième moitié du
XIXème siècle, « avec les progrès de l’enseignement primaire, car les illettrés arrivaient à
diviser par deux, par quatre ou huit (en pliant, une, deux ou trois fois une ficelle ou un
mouchoir), mais non par dix » (Perdijon, op ibid). L’utilisation d’un mètre ne va donc pas de soi,
et fait l’objet d’un apprentissage réalisé en France vers l’âge de sept ans à l’école primaire. Sans
cet apprentissage, point de mesure fiable. L’acte de mesurer est donc un acte technique,
culturel et social. Si l’évaluation est une mesure, nous poserons donc le postulat que l’acte
d’évaluer l’est aussi.

Mais si nous savons clairement dire à quoi correspond un segment de droit de 15 cm, en est-il de
même lorsque nous disons que telle copie « vaut 15/20 » ?

Mesurer une performance en langue est bien entendu autrement plus complexe que mesurer un
segment de droite. Si l’évaluation de la mesure de la longueur d’un segment ne fait guère
question, il n’en est pas de même dès que l’on tente de mesurer une aptitude humaine : des
attributs physiques peuvent être observés directement, mais il n’en est pas de même pour des
caractéristiques telles que l’intelligence, la motivation ou encore la fluidité dans le parler. Devant
cette difficulté, l’institution éducative dans son ensemble a, et cela sans doute depuis toujours,
contourné le problème, en établissant la mesure dans le rapport qui existe entre un état présent
et un état attendu, et l’évaluation est donc devenu l’expression de la mesure d’un écart. Cette
approche, pour exacte qu’elle soit, a eu une conséquence considérable dans le rôle de
l’évaluation en éducation. En observant en effet l’écart entre l’état présent et l’état attendu, on se
consacre souvent davantage sur la distance restant à parcourir plutôt que sur le chemin réalisé, et
cette louable vision pédagogique de l’effort n’a pas toujours le même potentiel motivationnel
pour l’évalué qui aimerait aussi parfois se voir féliciter pour le chemin parcouru. Or, cette
approche de l’irréalisé incite peu à valoriser ce qui a été fait car l’évaluateur est souvent amené à
considérer tous les éléments négatifs pour établir sa mesure. L’évaluation revient donc alors à
faire le bilan de tout ce qui n’est pas (ou mal) maîtrisé (voir le modèle dit « vertical-
descendant », de Puren, 2006) en lieu et place de l’observation de ce qui est bien (les modèles
« vertical-ascendant » et « horizontal » du même auteur dont nous reparlerons plus loin).

Mais si nous avons vu que les hommes sont finalement convenus que l’évaluation métrique ferait
référence à un étalon (de même d’ailleurs que celle d’un volume ou d’une quantité de chaleur),
quelle est donc l’unité de valeur qui motive l’attribution d’une note dans une performance en
langue ? Pour apporter une réponse simple et consensuelle à cette question, il aurait fallu en
arriver à une conceptualisation simple de l’acte de communiquer, sécable en unité de mesure, ce
qui n’est évidemment pas le cas. Faute de pouvoir répondre à cette question, nous considérerons
donc, pour notre part et en l’état actuel de choses, parce que cela nous semble rentable en termes
didactiques, que l’attribution d’une note, d’une lettre ou de toute autre quantification de la
valeur évaluée constitue bien souvent un message plutôt qu’une mesure.

Doit-on pour autant renoncer à la notion de mesure ? Quand on veut suivre les variations d’une
grandeur, chaque mesure est nécessairement séparée de la précédente et constitue un échantillon.
Toutefois, si l’on veut rendre une mesure absolue qui pourra servir de référence, il faut procéder
à un étalonnage de la chaîne, c'est-à-dire une normalisation. Cette phase est indispensable pour
donner des indications qui ne soient pas entachées d’erreurs. Nous verrons que les certificateurs
n’ont pas renoncé à cette recherche de la validation empirique, car elle pourrait constituer la
garantie d’une évaluation fidèle et fiable.

Mais leur raisonnement connaît des limites et il n’est pas exempt de risques pour l’évaluation.
Nous le constaterons, les procédures statistiques qu’ils ont établies visent selon nous surtout à
expliciter un certain nombre de dimensions observables qu’ils considèrent prioritaires, afin de
garantir un consensus autour de « plus petits dénominateurs communs ». Il s’agira donc de la
recherche « a minima » de concepts ayant trait à la validité ou à la fiabilité des épreuves, et cette
démarche peut réduire le fait évaluatif à quelques typologies bien définies. On doit reconnaître
que cette démarche met également l’accent de façon détaillée sur les dimensions choisies et
qu’elle apporte un argumentaire non négligeable pour savoir comment s’assurer que telle
épreuve d’un niveau donné est bien de ce niveau, comment savoir si telle épreuve d’un niveau
donné n’est pas plus difficile/facile qu’une autre, ou encore pour vérifier que les variations de
notation entre évaluateurs sont minimes. Sur le plan qualitatif, elle n’est donc pas dénuée de
mérites, ce qui en explique le succès en particulier Outre-Manche et Outre-Atlantique.

Sur ces questions, les méthodes françaises traditionnelles n’apportent généralement que peu de
réponses, et l’on aurait donc tort de rejeter en bloc l’analyse psychométrique, comme semble
vouloir le faire certain courant universitaire aujourd’hui en France.

Vous aimerez peut-être aussi