Vous êtes sur la page 1sur 20

Extrait de DEMEUSE, M. (d.) (2004). Introduction aux thories et aux mthodes de la mesure en sciences psychologiques et en sciences de lducation.

Lige : Les Editions de lUniversit de Lige.

DOCIMOLOGIE CRITIQUE : DES DIFFICULTS DE NOTER DES COPIES ET DATTRIBUER DES NOTES AUX LVES1
Dieudonn Leclercq Julien Nicaise Marc Demeuse

1. L'histoire de la problmatique L'cole est un lieu dans lequel l'valuation est omniprsente. Il semble mme parfois certains que l'lve frquente davantage l'cole pour rcolter des notes que pour apprendre vritablement quelque chose. Avec la massification et la dmocratisation de l'accs tous les niveaux scolaires, il faut pouvoir comptabiliser checs et succs travers un systme de notation de faon rendre un "verdict" en fin d'anne. La notation est ainsi une rponse la division du travail et l'unicit de l'lve et du temps: il doit tre possible de prendre, un moment donn, une dcision relative chaque lve, ce qui implique la prise en compte d'informations provenant de sources multiples. Si donc l'cole a vu se systmatiser et se professionnaliser "l'art de bien enseigner" travers la didactique, elle a connu le mme dveloppement de "l'art de bien valuer" travers la docimologie. Dans la suite du texte, nous envisagerons principalement les travers de l'valuation classique des lves, nous en pointerons les limites, en suivant les chemins de la docimologie critique. Nous ne dvelopperons donc pas les solutions et les remdes. D'autres cours existent dans le cursus des tudiants - principalement de ceux qui suivront la formation de la licence en sciences de l'ducation - qui leur permettent d'envisager les amliorations possibles. Ce chapitre ne constitue donc qu'une introduction critique la docimologie pratique, la problmatique tant d'tre conscient et attentif aux difficults rencontres lors de l'valuation. Les dveloppements de la docimologie et de la mise en cause des notes scolaires remontent au dbut du vingtime sicle. Ds les annes 1910, les Etats-Unis firent confiance aux QCM dans les tests de slection, par souci dobjectivit et en rponse la difficult de noter. A partir de 1922, en France, Henri Piron sattaque aux problmes poss par la subjectivit de la note. Ds 1929, il attire lattention en ces termes : Cest un principe gnral que, pour tre reu un examen, il faut avoir la moyenne, ds lors, pour un grand nombre de candidats,
1

Ce chapitre rsulte d'une synthse de diffrents documents: Leclercq, D. (1999). Chapitre 3 - Les production de "synthse" et la docimologie critique. In Edumtrie et Docimologie. Universit de Lige. Nicaise, J. (2001). Pratiques, sens et sens pratique au cur des volutions institutionnelles: les instituteurs de sixime primaire et le jugement professoral. Universit de Lige: mmoire de licence (non publi). Nicaise, J. (2002). De la non-objectivit du jugement professoral en matire dvaluation des perfo rmances des lves. Les Cahiers du Service de Pdagogie exprimentale, 11-12. Il s'inspire aussi trs largement de l'ouvrage de G. de Landsheere (1971) qui devient malheureusement trs difficile de se procurer. 273

Partie VI - Chapitre 4

Leclercq, Nicaise et Demeuse

Docimologie critique

ce sera le hasard qui dcidera de leur admission ou de leur recalage. En effet, on sait que cest dans la rgion moyenne quils se massent . (Piron, 1963, p.9) Aux USA, en Angleterre, et mme en Belgique, diverses expriences mettent en vidence le manque de fiabilit des notes scolaires. Piron (1963, p. 13) cite notamment les travaux mens ce sujet, en 1931, par Andra Jadoulle, la clbre psychopdagogue du Laboratoire de pdagogie dAngleur2. En France, Laugier et Weinberg tudient ce mme phnomne ds 1927. Cest en 1931 quune impulsion dterminante sera donne par la subsidiation, par la Carnegie Corporation de New York, dune recherche pilote par lInternational Institute of Education du Teachers College de luniversit Columbia, et fonctionnant via des commissions nationales : amricaine, anglaise, cossaise, finlandaise, franaise, suisse et allemande (cette dernire tant arrte par la nazification de 1933). La commission franaise utilisa des copies notes lors du fameux baccalaurat. En 1934 fut publi, par la commission franaise, le rapport Etudes docimologiques (Laugier, Piron, Piron, Toulouse et Weinberg, 1934). Le baccalaurat offrait une situation exceptionnelle puisque les mmes questions sont poses de trs nombreux tudiants, durant de vritables examens, et sont collectes et corriges par de nombreux correcteurs slectionns. A travers cette situation, compltement externe (encart 1), l'quipe franaise met en vidence de nombreux biais de notation. On se doute que la guerre interrompit ce processus de recherche sur le continent europen.
Encart 1 - Epreuves internes et preuves externes a) Les examens internes En Belgique, quel que soit le niveau d'enseignement considr, les examens sont gnralement administrs par les enseignants qui ont donn les cours. Cest eux qui crent les questions et qui corrigent les copies. Cette faon de faire a des avantages comme celui de coller la matire qui a effectivement t enseigne, ou celui dune familiarit des lves au type de questions. Il a le dsavantage de laisser libre cours aux diffrences (de svrit par exemple) intercorrecteurs ou intertablissements, ce qui pose le problme thique de lquit et de lgalit de traitement, tout spcialement quand lexamen est sanctionnant et quand le professeur sait de qui il corrige la copie. b) Les examens externes correction subjective Dans un souci dgalit de traitement, la France, depuis Napolon, pratique le baccalaurat, examen (le mme pour tous les tudiants dune mme Acadmie ) conu et corrig par des enseignants nayant pas particip lencadrement des candidats valus dont les copies sont rendues anonymes. On devine les prcautions prendre par les formateurs pour respecter le programme et par les concepteurs des questions pour viter les fuites . Ces examens restent toutefois subjectifs quant la correction. c) Les examens externes correction objective Poussant encore plus loin le souci d equity et de unbiased evaluation , les Amricains ont non seulement conu, la charnire du secondaire et de lenseignement sup rieur, des examens (par exemple le Scholastic Aptitude Test ou SAT) qui sont les mmes pour tous, mais dont la correction est objective (ce sont des QCM). Do lexpression objective tests , par un largissement de sens lgrement abusif.

Le terme "docimologie" apparat quant lui en 1929 sous la plume d'Henry Piron et est popularis par celui-ci dans son ouvrage intitul "Examens et docimologie", en 1963. Ce mot puise sa racine dans le grec (examiner, preuve). A ses dbuts, la docimologie est surtout
2

En Belgique o, sur l'initiative d'un chevin clair, Ren Jadot, avait t fond Angleur un laboratoire de psychopdagogie, des expriences avaient t faites par Mlle Jadoulle en 1931, confiant 4 correcteurs le soin de noter des compositions (problmes et questions relatives l'intelligence d'un test) en 2 e et en 6e anne. Les conclusions taient trs pessimistes, un lve se trouvant class 6 e, 14e ou 23e sur une trentaine. (Pron, 1963, p. 13). En Belgique, on doit aussi G. de Landsheere un ouvrage intitul Evaluation continue et examens: prcis de docimologie, publi Bruxelles, chez Labor, et Paris, chez Nathan, en 1971. Cet ouvrage a t publi et republi pendant plus de 20 ans. Partie VI - Chapitre 4

274

Leclercq, Nicaise et Demeuse

Docimologie critique

critique ou ngative: elle met en vidence les problmes, sans les rsoudre, du moins de manire pratique, au niveau o le problme se pose, c'est--dire au niveau des enseignants chargs de procder l'valuation. Progressivement cependant, les chercheurs s'attachent proposer des solutions qui permettent de limiter au mieux le caractre subjectif de la notation. Comme nous allons le voir par la suite, ce caractre subjectif n'est pas imputer uniquement au matre charg de noter l'lve, il relve de mcanismes souvent complexes et qui mettent en jeu enseignants, lves et systme ducatif. Les mthodes employes pour tudier les biais de notation reposent sur diffrentes procdures, selon le type de biais mettre en vidence. On peut ainsi utiliser, de manire exprimentale, les approches suivantes: (a) Une mme srie de copies est corrige plusieurs fois par le mme correcteur, des moments diffrents, sans que celui-ci sen rendre compte, ce qui permet de mesurer la stabilit intra-correcteurs; (b) Une mme srie de copies est corrige par plusieurs correcteurs diffrents, ce qui permet de mesurer la concordance inter-correcteurs; (c) Une mme copie est place dans un ensemble de copies dans des positions diffrentes (prcde de copies meilleures ou plus faibles), ce qui permet de mesurer leffet de contraste, ou de squence; (d) Une mme copie est place dans un ensemble de copies dont les valeurs sont plus ou moins disperses largement (tantt parmi des copies ayant toutes reu la mme note lors d'une valuation pralable, tantt parmi des copies trs varies en qualit); etc. (e) Une mme copie est corrige par plusieurs groupes de correcteurs auxquels on fournit des informations complmentaires diffrentes sur l'lves, ses notes antrieures 2. Les trois sources derreur Si lon cherche identifier les sources derreurs ou de biais qui entachent la notation par les enseignants, pour conserver une approche comparable celle adopte par la thorie classique des tests, les chercheurs identifient au moins trois sources principales : les enseignants, le systme scolaire et les lves. Nous allons aborder successivement ces trois sources. Nous montrerons combien il importe denvisager un problme qui semble assez singulier, donner une note un lve particulier, travers un ensemble beaucoup plus large de dterminants et dinteractions (Perrenoud, 1989, 1998). 2.1. Le systme scolaire La premire source de biais que lon doit prendre en considration est linfluence du contexte scolaire sur les procdures dvaluation en gnral. Ainsi, la classe dans laquelle se trouve llve peut tre dterminante. Les conclusions tires notamment par Grisay sur leffet Posthumus au dbut des annes quatre-vingt et de nombreuses fois vrifies et commentes par la suite (Grisay, 1984 ; Crahay, 1996 ; Demeuse, 2002) offrent un trs large aperu sur les interfrences que peut avoir le contexte dune classe particulire sur lvaluation des lves qui la composent : avec les mmes performances, et toute autre chos e restant gale par ailleurs, un lve est jug par son professeur comme un bon lve dans une classe alors quil peut se voir contraint de doubler son anne scolaire dans une autre ! Tout dpend non pas des performances particulires de llve dans labsolu mais bien de ses performances par rapport celles de ses condisciples. Le hasard du microcosme de la classe dans laquelle se trouve les lves est donc primordiale puisque le professeur est frquemment

Partie VI - Chapitre 4

275

Leclercq, Nicaise et Demeuse

Docimologie critique

pouss tablir des diffrences de performance entre eux, et ce mme si ceux-ci sont trs proches, c'est--dire adopter une attitude plus normative que critrie. De ce fait, leurs rsultats en fin danne sont souvent distribus selon une courbe de Gauss (quelques lves faibles , quelques lves forts , et la grande majorit dans la moyenne ) (Perrenoud, 1995 [1984] ; Crahay, 1996 ; Merle, 1998). Cependant si la classe dans laquelle est plac un lve plutt que dans une autre et son influence sur lvaluation finale est importante, ltablissement scolaire lest parfois tout autant. Alors que de nombreux travaux notamment amricains et leurs diverses interprtations avaient pu laisser sous-entendre dans la foule des Golden sixties (Coleman et al., 1966 ; Jencks, 1979 [1972]), que l'cole a peu d'impact sur les rsultats des lves, le school can make a difference est actuellement reconnu, aussi bien au niveau des rsultats effectifs des lves que de l'valuation de ceux-ci. Il semble toute fois que leffet-classe que nous venons d'voquer soit bien plus important que leffet-tablissement (Bressoux, 1994 ; id., 1995), mme si linfluence de ce dernier est pourtant indniable. Cette diffrence entre tablissements peut rsulter dune stratgie dlibre destine pratiquer une slection par crmage et/ou mdiatiser une certaine image de lexcellence dont la fameuse rputation de certaines coles dlite est la concrtisation (Duru-Bellat et Mingat, 1993 ; Merle, 1998). Et quant bien mme la complexit du contexte de lcole et de la classe ne suffirait pas laisser entrevoir toute lincertitude, la non-objectivit dont est dj empli ce stade lacte valuatif de lenseignant, des biais bien plus lmentaires peuvent dmontrer que la note est encore parfois influence par dautres dterminants totalement extrieurs au travail de llve en soi : depuis longtemps par exemple la docimologie a pu montrer quune mme copie est note diffremment par lenseignant selon son ordre de correction, selon quelle se trouve parmi les premires ou parmi les dernires feuilles de la pile que lenseignant doit corriger (Bonniol, 1965) ; et dans le mme ordre dide, quune mme copie sera juge diffremment selon quelle suit une copie juge trs bonne ou trs faible par lenseignant (Bonniol et Piolat, 1971). Bon nombre denseignants nhsitent dailleurs pas dclarer quils tablissent leur barme de notation seulement aprs avoir lu plusieurs copies, et que celui-ci peut tre appliqu diffremment selon les lves et selon la succession des rsultats, copie aprs copie (Chevallard, 1991 ; Nicaise, 2001). 2.2. Les lves A ct de ce contexte de scolarisation, des particularits intrinsques llve peuvent galement influencer subjectivement le jugement professoral : dans la foule des premires sociologies dnonciatrices des annes soixante et septante (Bourdieu et Passeron, 1964 ; id., 1970 ; Baudelot et Establet, 1971 ; Boudon, 1973), on pensera avant toute autre chose lorigine sociale des lves et aux strotypies diverses qui peuvent y tre associes : ainsi, certains correcteurs ont parfois tendance attribuer de meilleures notes aux enfants issus des milieux les plus favoriss (Pourtois et al., 1978) alors que dans dautres circonstances, ce sont justement les lves issus des milieux dfavoriss qui sont surcots , notamment pour des raisons de paternalisme bienveillant et de correction si minime soit-elle volontaire des ingalits sociales et scolaires (Dardenne, 1999 ; Nicaise, 2001). Le mme type de conclusions a galement pu tre tir dans ce sens avec des dterminants comme lapparence physique ou le genre sexuel des lves : parfois les lves jugs plus beaux ou plus proches des idaux mdiatiques par les enseignants peuvent tre mieux cots (Leyens et Yzerbit, 1997 ; Merle, 1998) et, dans le mme ordre dide, il semble que les filles ont souffrir plus frquemment que les garons quant leur notation, notamment suite aux

276

Partie VI - Chapitre 4

Leclercq, Nicaise et Demeuse

Docimologie critique

phnomnes de menace strotypique et de reproduction des ingalits sociales en matire de genre sexuel (Dardenne, 1999). Par contre, il peut apparatre galement dans dautres circonstances que les mmes filles sont habituellement mieux values parce quelles font preuve dun meilleur comportement en classe et matrisent mieux les rgles et exigences du mtier dlve soit donc quelles sont plus proches que leurs pendants masculins dun comportement idalement attendu par le professeur (Felouzis, 1993 ; Duru-Bellat, 1995). Par l, on peut constater que lvaluation des enseignants porte tout autant sur les savoirtre que sur les plus classiques savoirs et savoir-faire (Bourdieu et Passeron, 1970 ; Crahay, 2000), et que le mme incitant peut influencer celle-ci dans des sens totalement opposs. Comme le complexe scolarit , le complexe lve est trs influent et la relation ne cesse de se complexifier encore un peu plus lorsque entrent en jeu des caractristiques qui sont simultanment dpendantes des deux : pensons par exemple au niveau scolaire de llve (les rsultats de ses valuations prcdentes, notamment ceux prsents dans son bulletin scolaire) et au statut de sa classe (la rputation, limage vhicule par la classe quil frquente, notamment celle prsente lors des conseils de classe). Par un comportement proche dun classique phnomne de rduction de la dissonance cognitive (Festinger, 1957), un enseignant peut parfois tre tent de minimiser la diffrence qui apparatrait entre sa propre attente quant aux rsultats de llve et les rsultats effectivement obtenus. Lhabituel premier de classe peut se voir ainsi tir vers le haut alors que les performances ralises ne correspondent pas ce que lenseignant attendait de lui comme laccoutume (Caverni, Fabre et Noizet, 1975, Merle, 1998). Le complexe lve peut tre vu comme une mise en commun dune multitude deffets dattente qui se rapportent tous, de prs ou de loin, la thse devenue classique aujourdhui de Pygmalion lcole de Rosenthal et Jacobson . Selon ce modle, certains dterminants (origine sociale, sexe, niveau scolaire, etc.) amnent lenseignant dvelopper rapidement des attentes diverses vis--vis de ses lves (notamment sur leurs rsultats scolaires futurs) et diffrentier peu peu, son propre comportement - verbal comme non-verbal, conscient comme inconscient. Il a tendance orienter ses lves vers le rsultat scolaire attendu : quelle soit positive ou ngative, la prdiction peut alors se rvler fortement cratrice d'effets (Rosenthal et Jacobson, 1969 ; Good, 1987). 2.3. Les enseignants Comme nous lavons soulign prcdemment, lexistence et linterfrence de nombreux biais dans la procdure valuative peut encore tre exacerbe puisque, dans ce domaine tout du moins, la libert du matre au sein de sa classe est presque totale : il administre les preuves comme il lentend, il choisit la matire et le sujet des interrogations, il choisit leur forme, leur moment, leur dure, leur importance sur la note finale, il choisit les critres et les normes qui dtermineront son jugement professoral, ... puis c'est lui qui applique le modle d'valuation aux productions de ses lves qui s'avrent, d'une certaine manire, le reflet de son propre travail d'enseignant. La qute de lobjectivit de la note est donc seme dembches majeures. Dpassant par l la vision mcaniste du matre simple notateur dans labsolu, il faut apprhender que lacte valuatif passe galement au travers de nombreux filtres interactifs avant que la note finale puisse tre arrte. Donc, outre les biais classiques que nous avons prsents, le fait de noter un lve est galement une action proprement rationnelle qui trouve ses fondements pour reprendre le raisonnement de Weber (1971) la fois dans les intrts et les valeurs propres de lenseignant. Ainsi, si le jugement professoral peut tre dpendant de lorigine sociale des lves, de leur ge, de leur sexe ou du type dtablissement frquent, il lest tout

Partie VI - Chapitre 4

277

Leclercq, Nicaise et Demeuse

Docimologie critique

autant comme le souligne trs judicieusement Merle (Merle, 1996) dun ensemble quotidien darrangements et de bricolage des notes, intentionnels ou non3. Ds lors, la comprhension des actes valuatifs ncessite dune vision ultra-systmique (Perrenoud, 1995, 1998), mais se double de lexigence dune approche ultra-individuelle et biographique de chaque sujet valuateur particulier. 2.3.1. Les arrangements internes Le premier type de bricolages , de modifications plus ou moins licite des procdures dvaluation, est destin directement la classe in vivo et aux lves qui la composent. Il peut servir entretenir un bon climat de travail, encourager les lves qui prouvent des difficults ou qui ont des problmes dordre extrascolaire (dans ce cas, les notes sont revues la hausse ), restaurer lautorit concrte ou symbolique du matre en sanctionnant certains comportements (les notes sont alors revues la baisse ), sauvegarder une moyenne de points habituelle, amener un lve vers une orientation future plutt quune autre, cder aux ventuelles pressions diverses des lves, etc. Habituellement, ces comportements ne sortent pas de la classe, ils ne sont pas dlibrment cachs par le matre mais celui-ci sen vante rarement car ils font partie de sa propre cuisine interne , de ses procdures personnelles (Merle, 1996). Lapposition dune note relve donc bien galement de la transaction, et constitue un moment particulier mais essentiel dun processus beaucoup plus large, celui dune vritable ngociation didactique entre lenseignant et ses lves (Chevallard, 1991). 2.3.2. Les arrangements externes Les arrangements dits externes prennent la mme forme que les prcdents, mais ils sont destins la direction de lcole, ladministration, aux collgues, aux parents dlves, bref, toute personne qui ne participe pas directement au quotidien de la classe, mais qui interagit nanmoins avec elle. Il sagit souvent pour lenseignant de prsenter une image de sa classe qui satisfasse au mieux ces personnes extrieures : quadviendrait-il si trop dlves taient en chec ? Quadviendrait-il si tous avaient des rsultats exceptionnels ? La rputation et le statut prt lenseignant pourrait tre mis mal et il en serait de mme pour celui de ltablissement. Ce type darrangements est videmment li trs troitement au prcdent (Merle, 1996) : si par exemple une interrogation crite est particulirement mal excute par lensemble de la classe et que le professeur dcide de ne pas en tenir compte, la finalit dun tel acte est double car celui-ci a des consquences internes, mais aussi externes la classe considre comme le seul groupe d'lves. Au travers de ces interactions, une valuation trop svre apparat trs vite comme injuste, mais une valuation trop gnralement favorable s'apparente du laxisme et celui-ci nuit invitablement la rputation de lenseignant et de ltablissement (Perrenoud, 1998). Un difficile quilibre doit donc s'tablir. Ainsi, lenseignant tente souvent de ne pas scarter de ses moyennes et des distributions habituelles des notes (Grisay, 1984 ; Crahay, 1996). Il montre ainsi quiconque quil tient sa classe (Chevallard, 1991). Sur limportance de ces arrangements externes soit pour lessentiel intresss , Grisay montre que de nombreux enseignants, une minorit il est vrai, avouent prendre en considration des lments illgitimes trs diversifis pour tablir leur dcision finale de russite ou de doublement pour certains de leurs lves. Ainsi, les instituteurs peuvent tre influencs par les
3

On admettrait assez difficilement que tous les lves obtiennent le maximum et encore moins que tous chouent lors d'une valuation, d'un examen. Il existe donc assez gnralement des procdures, conscientes ou non, d'ajustement de la distribution des rsultats bruts un modle acceptable. Partie VI - Chapitre 4

278

Leclercq, Nicaise et Demeuse

Docimologie critique

insistances rptes des parents, par le risque que ceux-ci retirent leur enfant de ltablissement si celui-ci venait doubler, par le fait que la russite ou le doublement dun lve provoque louverture ou la fermeture dune classe la future rentre scolaire, par le fait que le prochain enseignant de llve sera prt laider et le soutenir plus qu laccoutume, par le fait galement que lcole accorde ou non une grande importance sa rputation , etc. (Grisay, 1991 [1986]). Il est vident quici encore les enseignants qui usent de ces pratiques ont de grandes rticences les dvoiler expressment : faire part de sa "cuisine" valuative et partager ses doutes ncessitent de dvoiler les limites de son propre jugement et de se mettre en cause professionnellement (Merle, 1996 : 86). 2.3.3. Les arrangements pour soi4 Ce troisime type darrangements valuatifs est frquemment ignor dans de nombreuses tudes et ceci principalement cause de la difficult de les apprhender et de les regrouper au sein de types-idaux exploitables puisquils dpendent directement de lhistoire et de la personnalit mme du sujet-correcteur. Ils sont pris lgard de soi-mme et peuvent dpendre dune foule de reprsentations personnelles, chacune plus difficilement saisissable que lautre : lidal pdagogique de lenseignant, sa conception gnral de lducation, son propre parcours scolaire, son origine sociale, ses engagements politiques et associatifs particuliers, etc. Les normes de justice scolaire auxquelles peut adhrer, parfois avec force, lenseignant sont galement dterminantes : lgalit des chances, lgalit de traitement ou lgalit de rsultat, le besoin de llve, sa contribution et son mrite, le refus de doublement, etc. (Barrre, 2000 ; Nicaise, 2001). Il en est de mme avec les conceptions gnrales sur les coliers : sont-ce dabord des lves scolariser ou des enfants duquer et socialiser que lon a en face de soi ? (Dubet et Martuccelli, 1996). Tous ces facteurs, tous ces sens donns aux pratiques par le sujet selon ses reprsentations interviennent videmment de faon conjointe. 2.4. En bref Ces diffrentes pratiques montrent donc bien que lvaluation des lves, avant dtre une simple apposition dune note que lon croit encore parfois tre vraie , relve de processus et de procdures au croisement des contraintes sociales et des biographies des lves et des matres (Merle, 1996, p. 306). Ainsi, le processus dvaluation est dpendant dun triple rapport entre le professeur et ses lves, le professeur et ses contraintes externes, et le professeur et son pass, son intriorit, lorsquil sengage personnellement dans son travail. La procdure valuative nest donc pas un acte identiquement pos par chaque enseignant. Lobjectivit ny est pas une norme. Ses rgles et ses critres, mme les plus gnraux, ne sont dailleurs que trop rarement dfinis et arrts au pralable, comme ce peut tre le cas dune procdure juridique par exemple.

Le terme darrangements utilis ici dpasse donc de trs loin le sens littral des notions de ngociations (Chevallard, 1991) ou de stratgies (Perrenoud, 1995 [1984]), galement utilises dans le contexte des interactions scolaires puisque ces arrangements sont galement raliss pour soi , parce que tel comportement valuatif sinscrit dans son histoire personnelle et simpose comme une exigence (Merle, 1996, p. 76). 279

Partie VI - Chapitre 4

Leclercq, Nicaise et Demeuse

Docimologie critique

3. Quelques exemples de biais mis en vidence par la docimologie critique 3.1. La distribution force On attribue assez gnralement Posthumus, enseignant hollandais en poste en Indonsie durant la seconde guerre mondiale et intern dans un camp japonais durant celle-ci, la paternit d'une loi formule de la manire suivante par De Landsheere (1992, p. 242): Un enseignant tend ajuster le niveau de son enseignement et ses apprciations des performances des lves de faon conserver, danne en anne, approximativement la mme distribution (gaussienne) de notes5. Cette "loi de Posthumus" indique que la distribution des notes rsulte d'une sorte de prototype, communment admis: il existe peu d'lves exceptionnels (trs faibles ou trs brillants), mais beaucoup d'lves relativement moyens. Lorsque l'on se place dans la situation d'une preuve interne, c'est assez souvent ce type de distribution qui est mise en vidence, alors mme que des preuves externes, appliques aux mmes lves, indiquent des niveaux moyens trs variables et des dispersions diffrentes, d'une classe l'autre. De Landsheere (1992, p. 36), explique ce phnomne de la manire suivante : Un professeur qui enseigne de faon non individualise dans une classe o les lves ne sont pas spcialement slectionns donne normalement son cours un degr de difficult adapt la majorit du groupe. Si lajustement est correct, il y aura donc beaucoup de rsultats moyens, peu de trs bons et peu de trs mauvais. La distribution de ces rsultats sapprochera de la courbe gaussienne. Cette distribution, dite normale, est limage de beaucoup de qualits humaines, telles quelles se rpartissent dans des groupes nombreux, pris au hasard. Le mme auteur dnonce ce quil appelle le dangereux mythe de la courbe de Gauss : Dans les sciences humaines, la courbe en cloche de Gauss joue un rle considrable, parce quelle est limage mme de la rpartition de bien des aptitudes et des qualits : les ind ividus moyens abondent, mais les gnies et les idiots, les gants et les nains sont rares. Comme les tests mesurent souvent des aptitudes, des traits de personnalit ou des performances de vastes populations, et servent classer les individus en les comparant les uns aux autres, il est naturel que ces preuves soient talonnes selon la rpartition gaussienne : en gros, 70 % de moyens, 13 % de bons, 13 % de mdiocres, 2 % dexcellents, 2 % de trs mauvais. Mais, l'cole n'a pas, en principe, pour vise premire, la slection. Il convient donc de s'interroger sur la fatalit de la rpartition gaussienne des rsultats, d'autant que le traitement rserv chaque lve dpend, dans ce modle, de sa position relative initiale dans le groupe d'apprentissage (Crahay, 1996, 2000). De l'intriorisation de cette distribution force dcoulent deux phnomnes particuliers:

Laugier et Weinberg (1927) souscrivent cette ide: En gros, les notes [de 166 candidats un concours universitaire dont les copies ont t juges par deux correcteurs indpendants, expriments et mticuleux] sont distribues par chaque examinateur peu prs suivant une courbe normale "en cloche": les notes moyennes sont les plus frquentes, les notes trs bonnes ou trs mauvaises sont les plus rares. C'est un signe qui atteste de la valeur de la notation, car on sait que si l'on mesure, dans un groupe homogne d'individus, un trait quelconque, - que ce soit la taille ou le poids, ou une fonction mentale au moyen d'un test, - on constate que les rsultats se distribuent selon une courbe en cloche. Tout porte croire qu'il en est de mme pour les connaissances dans le groupe d'individus qui se prsentent un concours, et la confirmation en a t donne par les applications de tests pdagogiques. Partie VI - Chapitre 4

280

Leclercq, Nicaise et Demeuse

Docimologie critique

a) Leffet de tendance centrale : On observe frquemment que les notateurs de performances concentrent leurs apprciations sur les chelons du centre de lchelle. On peut y trouver deux grands types dexplications. La premire est quils ont la courbe de Gauss en tte, et se figurent donc que le plus grand nombre DOIT se trouver au centre de lchelle. Certains juges vont mme jusqu modifier certaines des notes pour que la courbe soit plus parfaite . La deuxime explication est la prudence (ou la lchet) puisquen donnant une note centrale, le correcteur ne peut jamais tre aux antipodes de la note vraiment mrite par la performance. Rot et Butas (1959) rapportent que Gjorgjevski a invit 5 professeurs dune mme branche de lenseignement secondaire noter indpendamment les uns des autres 100 copies de leur discipline sur une chelle 5 degrs (1 = INSUFFISANT; 2= MEDIOCRE; 3 = BIEN, 4 = TRES BIEN ; 5 = EXCELLENT). Il a ensuite extrait 15 copies qui avaient toutes reu la note BIEN par les 5 correcteurs. Elles ont t confies, pour nouvelle correction, 4 autres professeurs, qui ont nouveau distribu les 15 copies travers les 5 catgories de notes, comme l'indique la figure ci-dessous.

b) La surprenante stabilit des taux de russite et d'chec danne en anne. Certains enseignants sont fiers dune telle stabilit, preuve pour eux que lordre des choses (la courbe de Gauss et un score de passage toujours fix au mme endroit) est respect . Hutmacher (1993), Genve, a dvelopp une version de cette thorie adapte lenseignement primaire, ce quil appelle lhypothse socio-arithmtique selon laquelle les matres ont dans la tte le nombre normal dchecs (redoublements) par classe : 2 lves, et font en sorte que ce rsultat soit observ. Ce qui dbouche sur la consquence paradoxale que plus la classe est petite (10 lves par exemple), plus le taux dchecs est lev (20% pour 10 lves, 10% pour 20 lves). 3.2. Les biais rsultant de l'interaction entre le correcteur et l'tudiant ou la copie valu Dans le cas des valuations internes, menes par l'enseignant lui-mme, un certain nombre d'effets indsirables peuvent rsulter de la connaissance que l'enseignant a de l'lve et de l'ide qu'il se fait de ses comptences, a priori.

Partie VI - Chapitre 4

281

Leclercq, Nicaise et Demeuse

Docimologie critique

3.2.1. Effet de strotype ou dinertie Le premier type de "parasitage" de la note peut rsulter d'une sorte d'effet d'inertie: le correcteur a tendance attribuer un tudiant une note comparable celles que celui-ci a acquises auparavant. La connaissance des rsultats antrieurs dun lve mme inconnu - tend influencer lvaluateur. On assiste une sorte dimitation par contagion... Par strotypie, on entend une immuabilit plus ou moins accuse qui sinstalle dans le jugement port sur llve , comme le prcise De Landsheere (1992, pp. 47-48). Caverni, Fabre et Noizet (1975) ont men ltude suivante. A des professeurs de sciences de lenseignement secondaire, ils ont demand de noter (sur 20) chacun les 4 mmes copies, accompagnes de 5 notes censes avoir t obtenues prcdemment par lauteur de la copie . Chaque srie de 5 notes avait deux caractristiques : sa moyenne (leve = 13/20 ou faible = 7/20) et sa dispersion, exprime par la Marge de Variation (MV), c'est--dire lcart entre les notes extrmes (MV forte = 10 ; MV faible = 2). De Landsheere (1992, p. 47) commente : La moyenne exprimait le niveau moyen de llve, tandis que la dispersion exprimait la rgularit ou lirrgularit de ses performances. Un autre descripteur aurait (encore) pu tre utilis : la succession des notes peut marquer un progrs (ce qui tait le cas ici pour toutes les copies) ou, au contraire, une rgression. Le tableau ci-dessous indique le rsultat obtenu pour chacune des 4 copies (a, b, c et d) dans deux situations particulires : l'information sur les rsultats pralables faisait apparatre une moyenne forte (13/20) et une marge de variation faible (2 points), dans le premier cas, et l'inverse (moyenne faible et marge de variation forte), dans le second cas. Comme on peut le constater, la seconde situation est plus dfavorable que la premire. Copies : a b c d Moyenne (sur les 4 copies)
Moyenne forte 12 Marge de Variation faible Moyenne faible 9,75 Marge de Variation forte 8,5 15,25 3 9,69

6,5

11,75

2,75

7,69

Mais, comme le prcise De Landsheere (1992, p. 48) : On aurait tort de croire que la strotypie influence uniquement les valuations base subjective accuse... Elle atteint des exercices aussi objectifs que la dicte orthographique. Lexprience suivante (inspire de Zillig, 1967) en tmoigne. Un professeur de langue maternelle fait rgulirement des dictes. Bientt, il connat les lves qui russissent habituellement le mieux et le moins bien cet exercice. Si lon dtermine la frquence des fautes oublies , non perues par le correcteur, on constate que les oublis en faveur des bons lves sont significativement plus levs que pour les lves faibles. Dans le premier cas, le matre sattend ne pas rencontrer derreurs ; dans le second, il les guette. Noizet et Caverni (1978, p.141) notent : Il est probable que les premiers indices recueillis, quils soient positifs ou ngatifs, vont guider le recueil des indices lvaluateur cherchant davantage des indices susceptibles de confirmer ses premires infrences que des indices

282

Partie VI - Chapitre 4

Leclercq, Nicaise et Demeuse

Docimologie critique

susceptibles de les remettre en question . Et De Landsheere (1992, p. 54) poursuit : Bref, il semble que sil doit faire des fautes, llve a intrt les faire dans la seconde moiti de son examen. Cest ce quune exprience rapporte par Noizet et Caverni (p.142) confirme. 3.2.2. Effet de halo Un autre type de "parasitage" de la note rsulte de l'influence de celle-ci par des aspects non pertinents. Dans ce cas, par exemple, la note est influence ( contamine ) par des caractristiques de ltudiant comme son aspect physique, sa prsentation vestimentaire, sa prononciation ou son accent, etc. Leffet de halo prsente un caractre affectif accus. Souvent, on surestime les rponses dun lve de belle allure, au regard franc, la diction agrableSoit pour des raisons de lisibilit, soit pour des raisons nettement affectives, lcriture peut aussi influencer le correcteur. (De Landsheere, 1992, p. 49). Dans cet ordre d'ide, Chase (1968) a montr que la mauvaise qualit de lcriture fait baisser le score. Weiss (1969), de son ct, a fait lexprience suivante (rapporte par De Landsheere, 1992, p. 50) : Deux rdactions dactylographies ont t soumises 2 groupes de 46 instituteurs de 4 primaire. Au groupe 1, il dit Le travail 1 est luvre dun lve moyen qui aime lire des BD ; son pre et sa mre sont employs. Le travail 2 a t fait par un enfant dou ; son pre est rdacteur dun quotidien connu . Pour le groupe 2, les commentaires ont t inverss. Trois aspects (orthographe, Style, Fond) devaient tre jugs indpendamment, en plus dune note Globale , chaque fois sur une chelle 5 niveaux (1 = TB ; 5 = insuffisant). Comme le prcise De Landsheere (1971, p. 35), dont nous reproduisons la figure inspire des rsultats de Weiss, Pour les quatre aspects considrs, les notes attribues au travail pour lequel on a cr un prjug favorable ont t significativement suprieures aux autres. Pour l'orthographe, qui semblait le plus devoir chapper l'effet dipien de la prdiction6, on observe qu'au travail de l'lve prsent comme dou, 16% des correcteurs accordent la note trs bien et aucun la note insuffisant; si le mme lve est prsent comme moyen, les correcteurs n'accordent aucun trs bien, mais 11% notent insuffisant .

Effet dipien de la prdiction: expression due K. Popper (1957) (Oedipus effect of prediction), en rfrence au personnage mythologique. D'autres synonymes, comme effet d'anticipation de l'exprimentateur ou encore effet Rosenthal, en rfrence aux expriences de Rosenthal et Jacobson (1971, pour la traduction franaise) sont galement utiliss. Il s'agit, selon De Landsheere (1979, p. 104) de l'effet que la prdiction d'un vnement ou la croyance sa venue, chez un sujet impliqu dans une situation, exerce sur la ralisation de la prdiction. Rosenthal et Jacobson parlent, en ce qui les concerne, de "ralisation automatique des prophties" ou, plus exactement, en langue anglaise, de "Self-Fulfilling Prophecy", dans leur texte original de 1968. Selon De Landsheere, l'expression effet Rosenthal devrait tre rserve au phnomne o l'anticipation de l'exprimentateur, due une prophtie, modifie le comportement de celui-ci, de faon telle qu'il augmente la probabilit que l'vnement se produise. C'est ce que Merton appelait "la prophtie qui s'exauce". 283

Partie VI - Chapitre 4

Leclercq, Nicaise et Demeuse

Docimologie critique

Ebel (1965, p. 183) note ainsi que des contre-performances lors de tests peuvent tre rvlatrices dvaluation surfaites lors de situations non standardises. 3.3. Effets de contraste entre copies ou entre tudiants Plusieurs effets parasites peuvent tre identifis comme relevant de l'interaction entre copies successives. On les qualifient d'Effets de contraste ou de squence : la copie qui suit une copie brillante risque dtre dsavantage et inversement. De Landsheere (1992, p. 52) dcrit ce phnomne de la manire suivante: Les lves rompus aux examens ont depuis longtemps dcouvert limportance des contrastes : passer immdiatement aprs un candidat brillant se rvle dfavorable ; succder plus faible que soi peut tre avantageux, condition que la mdiocrit des rponses que linterrogateur vient dobtenir ne lait pas mis de trop mchante humeur. De manire mettre le phnomne en vidence, Bonniol (1972) a prsent une srie de devoirs corriger par deux groupes de 9 correcteurs. Ce sont les mmes devoirs, mais ils sont prsents dans l'ordre inverse dans les deux groupes. Il observe que les diffrences (importantes) entre les deux groupes sont plutt imputables aux deux ordres de correction quaux diffrences de critres dont les examinateurs font tat . A partir de cette observation, il a dcid dintroduire systmatiquement aprs le premier tiers et aprs le deuxime tiers de la squence des copies initiales des copies aux proprits (valeur

284

Partie VI - Chapitre 4

Leclercq, Nicaise et Demeuse

Docimologie critique

de la note) connues : faibles ou trs bonnes. Bonniol appelle ces copies des ancres. Il dfinit le concept d'ancre de la manire suivante: un stimulus privilgi qui joue comme un stimulus de rfrence, soit parce quil est prsent plus frquemment que les autres, soit parce quil est situ dans une position particulire, soit parce quil est signal dune manire ou dune autre lattention du sujet . Il appelle Ancre Haute une copie meilleure que les autres, et Ancre Basse une copie moins bonne que les autres. Pour lui est une Ancre Lourde la succession de trois ancres du mme type. Pour De Landsheere (1992, p. 53), On met deux hypothses : lintroduction des ancres exercera des effets de contraste, se traduisant par des dplacements dans lchelle dvaluation par surestimation ou sous-estimation des travaux succdant lancre dans la srie, et par modification de ltendue de lchelle utilise. Il rapporte que dans sa srie dexpriences, Gjorgjevski a extrait de ses 100 copies, 12 juges TRES BIEN (chelon 4) 12 juges MEDIOCRE (chelon 2). Dans chacun de ces groupes de 12, il a gliss 3 copies juges BONNES (chelon 3). Dans le premier groupe, les trois copies ont vu leur moyenne passer de 3 2,4 et dans lautre groupe, de 3 3,87. Ce qui confirme les deux hypothses signales par De Landsheere. 3.4. L'instabilit d'un mme correcteur Les effets de squence, de contraste, etc. mais aussi des variations internes au correcteur (fatigue ou distraction momentane, hasard..) font quun mme correcteur peut, des moments diffrents, donner des notes diffrentes une mme copie. Avec quelles consquences pour les candidats, se demandera-t-on dans une perspective pratique ? Comme le rappelle De Landsheere (1992, p. 45), Hartog et Rhodes (1935, p. 15) ont demand 14 historiens de noter une deuxime fois 15 compositions 12 19 mois aprs les avoir notes une premire fois. Toute trace de correction avait t efface. Les professeurs accordaient non seulement des points, mais indiquaient la russite globale ou lchec. Dans 92 cas sur 210, soit prs de la moiti des cas, le verdict a t diffrent d'une fois lautre. 3.5. Les diffrences entre correcteurs On peut mettre en vidence, en faisant corriger la mme copie par plusieurs correcteurs qualifis, des diffrences parfois fort importantes entre les notes attribues celle-ci. Ce type d'tudes a t men trs tt. Dans une exprience, rapporte par Piron (1963, p. 123), une mme composition franaise a t juge par 76 professeurs de franais. Voici la distribution de leurs notes (NP = Nombre de correcteurs attribuant une note donne) : Note NP 0-1 1 2-3 6 4-5 20 6-7 34 8-9 10 10-11 3 12-13 2

De manire corriger ce phnomne, Laugier et Weinberg ont appel valeur vraie la moyenne dun nombre assez grand de notations indpendantes, pensant quen multipliant les

Partie VI - Chapitre 4

285

Leclercq, Nicaise et Demeuse

Docimologie critique

correcteurs, on compensera leurs fluctuations (Piron, 1963, p.22). Ils ont cherch dterminer le nombre minimum dexaminateurs comptents auxquels il faudrait faire appel pour obtenir la notation mritant confiance. Dans ce but, ils ont utilis la formule de Spearman-Brown qui a t prsente dans la partie relative l'accroissement de la fidlit des tests en fonction de la longueur, selon la thorie classique. Pour rappel, la formule de Spearman-Brown, qui a t dcrite de manire gnrale pour tout allongement quelconque dun test par un coefficient m, peut s'crire de la manire suivante :

mm
o 11 est la fidlit du test initial

m11 1 m 111

mm est la fidlit du test de longueur modifie. Au dpart de cette formule, les auteurs vont considrer la fidlit inter-correcteurs comme la fidlit originale 11. Cette fidlit inter-correcteurs est tablie sur la base de la corrlation des notes remises par deux correcteurs confronts aux mmes copies. S'il existe plus de deux correcteurs, on calculera la corrlation moyenne au dpart de toutes les corrlations calculables entre les notes transmises par chaque paire de correcteurs. La valeur mm sera la fidlit inter-correcteurs qui rsulterait de la multiplication du nombre de correcteurs par m. Ainsi, si 4 correcteurs fournissent une fidlit inter-correcteurs moyenne de 0,870, on obtiendra respectivement les fidlits inter-correcteurs suivantes: 0,953 pour 12 correcteurs (soit m= 3), 0,964 pour 16 correcteurs (soit m= 4), 0,982 pour 32 correcteurs (soit m= 8). Dans le cas du doublement du nombre de correcteurs (soit 8 correcteurs et m= 2), la formule, dans le premier cas, devient en effet, aprs substitution:

mm

2* 0 ,87 1 2 10 ,87

0 ,93

On peut aussi se poser le problme inverse: de combien de correcteurs devrait-on disposer pour obtenir une fidlit inter-correcteur donne. La rponse s'obtient partir d'une simple transformation de la formule de Spearman-Brown:

mm ( 1 11 ) 11( 1 mm )

Ainsi, si lon dsire une fidlit inter-correcteurs d'au moins 0,90, alors que la fidlit intercorrecteurs moyenne de dpart, tablie sur 4 correcteurs est de 0,87, on devra multiplier le nombre de correcteurs par 1,34, ce qui impliquerait 6 correcteurs (en fait, la valeur calcule indique 5,4, mais il faut bien envisager le recours des correcteurs entiers !). La formule, applique dans le cas d'une fidlit inter-correcteurs de 0,99, s'crira de la manire suivante:

286

Partie VI - Chapitre 4

Leclercq, Nicaise et Demeuse

Docimologie critique

0 ,99 * ( 1 0 ,87 ) 0 ,87 * ( 1 0 ,99 )

14 ,8

Dans ce cas particulier, il faudra donc avoir recours 14,8 * 4 correcteurs, soit environ 60 correcteurs (en fait, 59,2 d'aprs le calcul). Se basant sur cette formule, Piron (1969, p. 23) rapporte les rsultats estims par Laugier et Weinberg pour ce qui concerne les preuves du baccalaurat: Recherchant un coefficient lev de fidlit (0,99), et se fondant sur les moyennes des indices de corrlation obtenus pour chaque catgorie dpreuves, ils ont trouv que ce nombre minimum tait le suivant : Domaine Nombre estim de correcteurs pour obtenir une fidlit intercorrecteurs de 0,99 78 19 28 13 127 16

Composition franaise Version latine Anglais Mathmatique Dissertation philosophique Physique

D'autres rsultats, des mmes auteurs, sont rapports par Agazzi (1967, p. 119): Pour les 6 mmes domaines, 6 correcteurs ont chaque fois not les examens de 0 20, une note infrieure 10 signifiant l'chec. Le tableau suivant prsente les rsultats obtenus pour l'ensemble des 6 correcteurs. La premire colonne indique le nombre de copies refuses par les 6 correcteurs, la dernire, le nombre de copies acceptes par ces 6 correcteurs et la colonne du centre, le nombre de copies pour lesquelles on enregistre au moins une note discordante (au moins un refus et 5 notes suffisantes ou l'inverse).
6 notes insuffisantes 40% 21% 37% 44% 9% 37% Au moins un avis discordant 50% 70% 47% 36% 81% 50% 6 notes suffisantes 10% 9% 16% 20% 10% 13%

Version latine Composition franaise Anglais Mathmatique Philosophie Physique

Piron (1969) et De Landsheere (1971) ne manquent pas de prsenter d'autres exemples encore. Ce type de rsultats a, entre autre, provoqu la remise en cause des notes chiffres. Malheureusement, d'autres expriences ont aussi montr les limites du systme d'apprciations globales du type "Trs bien, Bien, Satisfaisant, Faible, Insuffisant", comme nous allons le voir.

Partie VI - Chapitre 4

287

Leclercq, Nicaise et Demeuse

Docimologie critique

On na pas manqu de penser que des expressions verbales (dailleurs en nombre plus limit que 21 notes possibles) augmenteraient la concordance inter-correcteurs. Do ladoption par des systmes scolaires entiers (la Communaut franaise de Belgique, par exemple) de ce type d'chelles. Reuchlin (1958, 1968) avertit cependant du danger : linstituteur, certainement, connat mieux que personne les points du programme qui sont acquis ou non par chacun de ses lves. Ce quil ignore, cest la gravit qui sattache chaque faiblesse, chaque lacune, lorsquon la considre non plus au sein dune classe qui peut tre forte ou faible , mais par rapport lensemble du pays. De l, les divergences dapprciation mises en lumire par lenqute. Ces divergences sont illustres par les 4 courbes ci-dessous. Elles sont issues dune enqute nationale franaise, mene en 1958, ici sur le calcul au cours moyen 2 anne , ce que lon appelle la 5 primaire en Belgique7. Les instituteurs avaient t invits attribuer chaque lve un des 4 adjectifs suivants pour caractriser son niveau en calcul : TRES BON, BON, MOYEN, MEDIOCRE. De cette manire, 654 lves furent jugs TRES BONS, 1303 BONS, 1551 MOYENS, 1300 MEDIOCRES. La catgorie "moyen" est celle qui rassembla le plus grand nombre d'lves. Ces lves ont par ailleurs subi un test de calcul not objectivement de 0 50. La figure ci-dessous reproduit, pour chacune des "catgories d'lves" rsultant de l'avis des matres, la distribution des notes au test. Ces quatre distributions se recouvrent largement : dans la zone de notes qui va de 10 40, le mme niveau de performance au test peut malheureusement correspondre nimporte laquelle des 4 notes verbales globales.

Il s'agit de la dernire anne de l'enseignement primaire franais, celui-ci ne comportant que 5 annes. Partie VI - Chapitre 4

288

Leclercq, Nicaise et Demeuse

Docimologie critique

4. En guise de conclusion Nous l'avons prcis avant d'entamer ce chapitre, la docimologie critique a permis d'attirer l'attention des correcteurs et des enseignants sur la ncessit d'un soin particulier quand aux diffrents parasitages possibles de la notation. Les expriences nombreuses et dj anciennes
Partie VI - Chapitre 4 289

Leclercq, Nicaise et Demeuse

Docimologie critique

qui sont mentionnes, et qui ne constituent qu'un petit chantillon de ce qui a pu tre ralis entre les annes 1920 et les annes 1970, ne doivent pas conduire au rejet absolu de la notation subjective. C'est impossible. Ces rsultats ne doivent sans doute pas plus conduire au rejet de toute forme d'valuation en dehors de l'usage de questions rponse ferme (vrai/faux, QCM), mais faire rflchir des formules efficaces - la mthode d'examen doit rester praticable dans des conditions normales - et justes. Ce second critre est essentiel car il s'agit d'apprcier les comptences de sujets humains. Les examens dcident de plus en plus, quand il ne s'agit pas de concours, du sort de personnes. Il convient d'y tre attentif. Et si cette attention n'est pas ncessairement spontane chez tous les examinateurs, le risque est grand de voir intervenir de plus en plus d'autres acteurs dans la sphre scolaire l'occasion de l'valuation. On constate en effet que la judiciarisation8 et la juridiciarisation9 sont deux menaces importantes qui psent sur la libert norme, pour ne pas dire totale, qui avait prvalu jusqu'il y a peu dans le domaine de l'valuation scolaire. Pour s'en convaincre, il suffit de se reporter au dossier d'information10 prpar pour la journe organise conjointement par l'Association pour le Dveloppement des Mthodologie d'Evaluation en Education et l'Association internationale de Pdagogie universitaire, le 4 dcembre 2001 Lige. On peut notamment consulter l'article de V. De Landsheere sur "la responsabilit civile dcoulant de l'enseignement dispens" et qui est paru dans le Journal des procs du 30 dcembre 1988 (n 141, pp. 10-13). Ce dernier attire l'attention sur l'importance du phnomne de judiciarisation aux Etats-Unis, il y a plus de quinze ans, et peut prfigurer ce qui pourrait se produire de plus en plus chez nous, si on n'apporte pas un soin particulier aux valuations. Bibliographie Agazzi, A. (1967). Les aspects pdagogiques des examens. Strasbourg: Conseil de l'Europe. Barrere, A. (2000). Sociologie du travail enseignant. LAnne sociologique, 50(2), 469-492. Baudelot, C., Establet, R. (1971). L'cole capitaliste en France. Paris: Maspero. Bonniol, J.-J., Piolat, M. (1971). Comparaison des effets dancrage obtenus dans une tche dvaluation. Exprience de multi-correction en mathmatique et en anglais. in Actes du XVIIe Congrs international de psychologie applique, 8 , 1179-1189. Bonniol, J.-J. (1965). Les divergences de notation tenant aux effets dordre de la correction. Cahiers de Psychologie, 8 , 181-188. Boudon, R. (1973). Lingalit des chances. Paris: Armand Collin. Bourdieu, P., Passeron, J.-C. (1964). Les hritiers. Paris: Les ditions de Minuit. Bourdieu, P., Passeron, J.-C. (1970). La reproduction. Elments pour une thorie du systme d'enseignement. Paris: Les ditions de Minuit. Bressoux, P. (1994). Note de synthse : Les recherches sur les effets-coles et les effetsmatres. Revue franaise de pdagogie, n 108, 91-137. Bressoux, P. (1995). Les effets du contexte scolaire sur les acquisitions des lves : effetcole et effets-classes en lecture. Revue franaise de sociologie, XXXVI, 273-294. Coleman, J. S. et al. (1966). Report on Equality of Educational Opportunity (EEOR). U.S Government Printing Office for Department of Health, Education and Welfare.
8 9 10

Intervention du pouvoir judiciaire dans le rglement de litiges. Intervention du droit dans la dfinition des diffrentes activits. On peut consulter la liste des articles qui le composent l'adresse: http://www.ulg.ac.be/pedaexpe/judi/biblio.pdf Partie VI - Chapitre 4

290

Leclercq, Nicaise et Demeuse

Docimologie critique

Caverni, J.-P., Fabre, J.-M., Noizet, G. (1975). Dpendance des valuations scolaires par rapport des valuations antrieures : tudes en situation simule. Le Travail Humain, 38(2), 213-222. Chevallard, Y. (1991). Vers une analyse didactique des faits dvaluation, in J.-M. De Ketele (Ed.), Lvaluation : approche descriptive ou prescriptive. Bruxelles: De Boeck Universit. Crahay, M. (1996). Peur-on lutter contre l'chec scolaire ? Bruxelles: De Boeck Universit. Crahay, M. (2000).L'cole peut-elle tre juste et efficace ? De l'galit des chances l'galit des acquis. Bruxelles: De Boeck Universit. Dardenne, B. (1999). Psychologie sociale. Lige: Universit de Lige. De Landsheere, G. (1971, 1992). Evaluation continue et examens. Prcis de Docimologie. Bruxelles: Editions Labor et Paris: Fernand Nathan. Demeuse, M (2002). Analyse critique des fondements de lattribution des moyens destins la politique de discrimination positive en matire denseignement en Communaut franaise de Belgique (Thse doctorale). Lige: Universit de Lige. Dubet, F., Martuccelli, D. (1996). A lcole. Sociologie de lexprience scolaire. Paris: Seuil, coll. Lpreuve des faits . Duru-Bellat, M. (1995). Note de synthse : Filles et garons lcole, approches sociologiques et psycho-sociales. Revue franaise de pdagogie, 110 , 75-109. Duru-Bellat, M., Mingat, A. (1993). Pour une approche analytique du systme ducatif. Paris: Presses Universitaires de France. Felouzis, G. (1993). Interactions en classe et russite scolaire. Une analyse des diffrences filles-garons. Revue franaise de sociologie, XXXIV, 199-222. Festinger, L. (1957). A theory of cognitive dissonance, Stanford, Stanford University Press. Good, T. (1987). Two decades of research on teacher expectations : Findings and future directions. Journal of Teacher Education, 24, 32-47. Grisay, A. (1984). Les mirages de lvaluation scolaire. Rendements en franais, notes et checs lcole primaire ? Revue de la Direction Gnrale de lOrganisation des Etudes, 1984, XIX, 5, pp. 29-42. Grisay, A. (1991). Que peut-on prescrire en matire dducation-bilan ? in J.-M. De Ketele (Ed.), Lvaluation : approche descriptive ou prescriptive. Bruxelles: De Boeck Universit. Hutmacher, W. (1993). Quand la ralit rsiste la lutte contre l'chec scolaire. Analyse du redoublement dans l'enseignement primaire genevois. Genve: Service de la Recherche sociologique, Cahier n36. Jencks, C. (1979). Lingalit : influence de la famille et de lcole en Amrique. Paris: Presses universitaires de France. Laugier, H., Pieron, H., Pieron, H, Toulouse, E., Weinberg, D. (1934). Etudes docimologiques sur le perfectionnement des examens et concours. Paris: Conservatoire national des arts et mtiers, Publications du Travail humain, Srie A, n3. Laugier, H., Weinberg, D. (1927). Les facteurs subjectifs dans les notes d'examen. Anne Psychologique, XXVIII, 236-244.

Partie VI - Chapitre 4

291

Leclercq, Nicaise et Demeuse

Docimologie critique

Laugier, H., Weinberg, D. (1936). Commission franaise pour lenqute Carnegie sur les examens et concours. La correction des preuves crites au baccalaurat. Paris: Maison du livre. Leyens, J.-Ph., Yzerbit, V. (1997). Psychologie sociale. Lige: Mardaga. Merle, P. (1996). Lvaluation des lves. Enqute sur le jugement professoral. Paris: Presses Universitaires de France. Merle, P. (1998). Sociologie de lvaluation scolaire. Paris: Presses Universitaires de France. Nicaise, J. (2001). Pratiques, sens et sens pratique au cur des volutions institutionnelles. Les instituteurs de sixime primaire et le jugement professoral. Lige: Universit de Lige (mmoire de licence non publi). Perrenoud, P. (1995). La fabrication de lexcellence scolaire : du curriculum aux pratiques dvaluation. Genve: Droz. Perrenoud, P. (1998). Lvaluation des lves. De la fabrication de lexcellence la rgulation des apprentissages. Entre deux logiques. Bruxelles: De Boeck Universit. Pieron, H. (1963). Examens et docimologie. Paris: Presses universitaires de France. Pourtois, J-P., Bonacina, R., Delbecq, A., Segard, M. (1978). Le niveau dexpectation de lexaminateur est-il influenc par lappartenance sociale de lenfant ? Revue franaise de pdagogie, 44 , 34-37. Rosenthal, R. A., Jacobson, L. (1971). Pygmalion lcole. Tournai: Casterman11. Rot, N., Butas, Z. (1959). Les distributions des notes scolaires compares eux distributions des rsultats obtenus aux tests de connaissances. Le travail humain, XXII, 1-2. Weber, M. (1971). Economie et socit. Paris: Plon.

11

Traduit de l'amricain. Titre original: Pygmalion in the Classroom. Teacher Expectation and Pupil's Intellectual Development (1968). Partie VI - Chapitre 4

292