Vous êtes sur la page 1sur 28

CHAPITRE I

LMENTS DE DOCIMOLOGIE
La docimologie ou science des examens est relativement rcente. Elle doit le jour aux travaux dH. Laugier et H. Piron1. Elle sest dveloppe en France, en Belgique, aux tatsUnis, au Qubec, dans les facults des sciences de lducation et les ministres. Depuis peu, sous le nom ddumtrie, elle tente de prendre de lextension dans une direction plus formative, par lanalyse dunits dapprentissage comme la question choix multiple (Q.C.M.). Elle est en passe de devenir la science de la mesure en ducation2. Dans les coles et les lyces, la tendance est encore de penser quelle ne touche que les mathmaticiens ou les ducateurs frus de statistiques. Et pourtant tous les enseignants n'ont-ils pas affaire des listes de rsultats d'examens ou de tests ? Ils deviendraient plus aisment docimologues si la docimologie, abandonnant ses habitudes langagires mathmatiques, abstruses aux non initis, se laissait traduire en un langage plus accessible3. Prsentons les choses concrtement. On runit, disons, une soixantaine de Q.C.M. dans un questionnaire qu'on administre un groupe d'une centaine d'usagers reprsentatifs de la population vise. Les rponses saisies peuvent entrer dans un tableau deux dimensions raison d'une ligne par individu et d'une colonne verticale par question.

1. Cf. H. Laugier, tudes docimologiques sur le perfectionnement des examens et concours , Paris, Conservatoire National des arts et mtiers, 1934, 88p. H. Piron, Examens et docimologie , Paris, P.U.F., 1963. 2. Voir notamment D. Leclercq, Qualit des questions et signification des scores, avec application aux QCM , Bruxelles, d. Labor, 1987, 174p. 3. Sont ici prsents les travaux d'une quipe de recherche, l'Universit de Montral, compose notamment de Serge Normand (Service Pdagogique), de Norman Molhant (coSystmatica, socit pourvoyeuse de logiciels sur mesure), de Michal Strobel (professeur la Facult des sciences de l'ducation). Les premires pages de ce chapitre sont un rsum de l'enseignement de M. Strobel. Le modle logistique qui suit doit beaucoup aux travaux de N. Molhant (nwm@cafe.edu).

6
RISBERG VERHAEG LECUYER BOUMAZA THORINS POMEL V ESPIAGO BELGHER BOUCHET TENFICH HARCETE MAHUREV NEXERER RIPOLLE ALLAMER LAUGAAM | | | | | | | | | | | | | | | | 314+344++33233324132+12++3++323+3324+1113242++12441442211113 31314244+342432132244212424412244322423143343221234242342121 4++1223+234+3+3222132321122+112421+4113131224412414144244244 113334441323432212132323244424344241223332433332323242344422 3+21343331324222422321213331134422213132312412212143423414212413-41132-24-24233432-42333432414122-33211423-341223-2-424 1121444+4313+3324224+222321131232223441133244212323142113444 444142411313-321+2144112131113133144221342243311414112324321 4234234++31242+142132321124333414424211142444442121114244124 343433422332243434134433214321234231323132443324411333212324 1141314211--33324233-242224434+334412--232-4--2-4213-23414-11423122+14+43324213214222143433144144414-44-4221123-231+-434+2244+13344244323344124422433-4441232144444332441322342424 1241324+1344422212122323231432431311221132424322121142133412 3133324++4334234421343223332112-112-413332444222424142243222 34413243134++21211332133132233231211342441244322244144122243

Ce tableau contient non seulement les numros de rponse des individus chaque question, mais des abstentions (-) quand on reconnat ne pas savoir, et des rejets (+), quand on estime la question mal pose. Ranger les donnes dans un cadre, les voir en deux dimensions, cest dj se faire une ide plus prcise du genre de problme que pose l'analyse des phnomnes de langue envisags sous l'angle de la statistique. Voyons ce que reprsentent les lignes, horizontales, et les colonnes, verticales. gauche, verticalement, les donnes sont prcdes des titres de lignes (les noms des rpondants). Au sommet, les donnes sont normalement surmontes des titres de colonnes (ici, la ligne de titre des colonnes napparat pas, faute d'espace pour les numros de question dans le questionnaire, qui vont de 01 60). Chaque donne est donc identifie, par sa position : rponse de l'individu N la question x. La donne consiste en un seul caractre : 1, 2, 3, 4, -, +, puisqu'il s'agit des quatre choix de rponses d'une question ferme, quatre distracteurs1, plus l'abstention ou le rejet. Chaque nom prcde ainsi une ligne de numros qui sont les rponses choisies par l'tudiant, pour une srie de questions, dans leur ordre. L'intrt de ce tableau est qu'il montre toutes les donnes telles quelles, simplement, sans leur faire subir encore aucun traitement. L'information recueillie par un questionnaire exprimental est donc constitue au dpart d'une masse de dtails : un nombre x de choix pour un nombre y de rpondants. La
1. On appelle distracteur une rponse propose en vue d'carter (de distraire) le rpondant de la rponse la meilleure, car celle-ci ne doit tre retenue que par ceux qui l'identifient distinctement, sans deviner (guessing ). Notons d'emble, toutefois, que nous ne fixons pas d'avance la solution (rponse considrer comme bonne). Nous considrons plutt le questionnaire pdagogique comme une sorte denqute. Dans ce cas, toute rponse vraisemblable devient une solution potentielle. Autrement dit, tous les choix, au moment du choix, sont galit et pourraient s'appeler distracteurs (comme cest le cas pour distractor, en anglais). La dtermination de la norme valide ne doit plus se faire a priori (voir plus loin).

7 multiplicit et la probable complexit sous-jacente de cette information exigent un traitement, mathmatique et interprtatif. Pour rduire la masse des donnes, il s'agit d'extraire des indices gnraux, par exemple la note obtenue par chaque tudiant, puis la moyenne de ces notes, mais aussi le nombre d'tudiants avoir choisi telle rponse plutt qu'une autre, la moyenne des bonnes rponses; etc.

Les choix de rponse.

ANADIST commence comme tout logiciel de statistiques par remplacer les rponses par leur valeur prsume (1 pour ce que les rdacteurs considraient comme la meilleure solution, 0 pour la pire erreur, > et < pour les deux rponses de valeur intermdiaire1). Il additionne ensuite les valeurs par ligne (rsultat de l'tudiant) et par colonne (difficult de la question). Maintenant, un brin de mnage pour y voir plus clair2 : on trie les lignes suivant les rsultats (les plus habiles en haut) puis on trie les colonnes (les questions les plus faciles au dbut). Ainsi les bonnes rponses se trouveront-elles concentres dans le coin suprieur gauche. Rciproquement, le coin infrieur droit rassemblerait une majorit d'erreurs. Si la connaissance, dans un groupe, tait parfaitement homogne, c'est--dire strictement corrlative l'habilet des rpondants comme la difficult des questions, non seulement toutes les moins bonnes solutions et tous les moins bons tudiants se trouveraient dans la partie infrieure droite, mais les frontires entre les meilleures solutions, les presque meilleures, les rejets, les abstentions, les presque pires et les moins bonnes seraient des lignes de sparation nettes et sans ambigut... comme cest le cas dans le tableau, fictif, ci-dessous.

1. Il s'agit des valeurs provisoires attribues par les correcteurs. On verra plus loin comment ces valeurs se modifient pour rejoindre progressivement une chelle qui reflte le jugement du groupe des rpondants. 2. La procdure qui suit est emprunte Michal Strobel. Sur la permutation des lignes et des colonnes dune matrice de rponses et les mthodes visuelles, cf. Benzcri, t.1, p.82-3.

8
LAUGAAM VERHAEG POMEL V RIPOLLE ALLAMER BELGHER HARCETE BOUCHET THORINS NEXERER MAHUREV ESPIAGO TENFICH BOUMAZA LECUYER BROUSSE RISBERG | | | | | | | | | | | | | | | | | 11111111111111111111111111111111111111111111111111>>>>>>>>>> 1111111111111111111111111111111111111111>>>>>>>>>>>>>>>>>>>> 111111111111111111111111111111>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 11111111111111111111>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>++++++++++ 1111111111>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>++++++++++++++++++++ >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>++++++++++++++++++++++++++++++ >>>>>>>>>>>>>>>>>>>>++++++++++++++++++++++++++++++--------->>>>>>>>>>++++++++++++++++++++++++++++++-------------------++++++++++++++++++++++++++++++-----------------------------++++++++++++++++++++------------------------------<<<<<<<<<< ++++++++++------------------------------<<<<<<<<<<<<<<<<<<<< ------------------------------<<<<<<<<<<<<<<<<<<<<<<<<<<<<<< --------------------<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<0000000000 ----------<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<00000000000000000000 <<<<<<<<<<<<<<<<<<<<<<<<<<<<<<000000000000000000000000000000 <<<<<<<<<<<<<<<<<<<<0000000000000000000000000000000000000000 <<<<<<<<<<00000000000000000000000000000000000000000000000000

On peut constater que LAUGAAM est pass au premier rang vu la majorit de bonnes rponses quil avait, tandis que RISBERG a un maximum derreurs graves. Si nous avions indiqu les numros des Q.C.M. au sommet de chaque colonne, on verrait quelles ne sont plus dans lordre 123456789... mais dans lordre de leur difficult croissante. La premire colonne a le plus grand nombre de 1 et le moins grand nombre de 0, et ainsi de suite. Naturellement, il existe quantit de causes de distorsions : le guessing1 par exemple, c'est--dire le fait que ceux qui ne savent pas quoi rpondre osent prendre le risque de se tromper, et courir leur chance plutt que de sabstenir; mais aussi le peu de validit de certains distracteurs, les choix offerts ne convenant pas toujours des sous-groupes dlimits par leur comptence spcifique; et encore l'htrognit possible du groupe, dans lequel tous les niveaux de comptence ne sont pas ncessairement reprsents. Les frontires sont d'habitude floues, apparemment tout fait floues, un point tel qu'il est souvent presque impossible de les reconnatre visuellement. Un statisticien (Cronbach) a pu calculer le degr de cohrence des matrices de rponses aux tests : la consistance des frontires, en quelque sorte. L'indice alpha de Cronbach est gal 1 pour des diagonales parfaites. En revanche, si le nombre de bonnes rponses, en dpit des remaniements dans les rangs des lignes et des colonnes, restait alatoirement rparti, cet indice vaudrait zro. En pratique, en dessous de 0.50, ou bien on s'est tromp de grille de correction, ou bien le groupe est compos de sous-groupes htroclites, ou bien le questionnaire mesure des choses trop diffrentes les unes des autres. Le Cronbach )) comme on dit entre docimologues )) est un indice global remarquable. On peut le considrer comme une mesure de la convenance rciproque entre

1. Terme technique, le plus souvent non traduit. D. Leclercq distingue habilement rponse au hasard et rponse devine . Voir Qualit des questions et signification des scores , p.93 et 94.

9 un groupe et un questionnaire. Supposons, par exemple, qu'un changement dans la cl de correction ait pour effet de faire monter le Cronbach : cela voudrait dire qu'aux yeux du groupe ce changement rend la cl plus conforme la norme qu'il reconnat. Comme tout logiciel de statistiques, ANADIST fait aussi la somme des rsultats, il la divise par le nombre des rpondants pour obtenir une moyenne, il la met en pourcentage, il calcule les carts de chaque rpondant par rapport cette moyenne du groupe, il fait la somme de ces carts et la divise par le nombre des rpondants pour obtenir l'cart moyen (cart moyen la moyenne!). Celui-ci est un indice de la dispersion du groupe. L'cart-type, plus connu, mme des non-docimologues, est plus long expliquer mais il remplit peu prs les mmes fonctions et n'est pas trs diffrent quant sa valeur numrique.

Intrt de l'cart-type.

Au lieu de compter les fautes ou de transcrire une note proportionnellement (sur 10, sur 20, en lettres ou en pourcentage), l'enseignant qui effectue un contrle de l'apprentissage ralis peut mesurer l'acquis en se servant de lcart-type comme unit. Ainsi, on situera un rsultat en disant quil est 1,3 cart-type au-dessus du rsultat moyen et en crivant +1,3. Au lieu de noter de zro cent, on a donc une chelle pour laquelle 0 ne dsigne pas la nullit mais la moyenne des rsultats du groupe; +1 est une note excellente et -1 une note faible (la limite de la russite, normalement). L'intrt de la notation en cart-type est de fournir une chelle de mesure dite pondre, c'est--dire approprie la fois au niveau de difficult du questionnaire et au niveau d'habilet du groupe. Par exemple, un tudiant qui aurait une note faible cause de l'extrme difficult de l'examen aurait, en cart-type, une note plus proche de la moyenne du groupe. Il y a un possible inconvnient. En remplaant la notation normative, avec son nombre de points prtabli pour chaque lment de contenu, par une notation pondre (une chelle ajuste lhabilet moyenne du groupe), le rsultat de chacun se met dpendre du groupe. Or le groupe est un critre valable dans ses propres limites, par exemple des fins seulement formatives. Pour situer des notes ainsi obtenues dans un cadre plus large, par exemple des fins valuatives, il devient ncessaire de vrifier ce quon appelle la reprsentativit. Le rsultat en cart-type est gnralisable quand on peut stre assur que le groupe nest pas marginal, par exemple quil na pas t runi de faon prdtermine artificiellement. Il doit avoir t pris sans aucun critre particulier et donc au hasard, dans l'ensemble de la population vise, dont il est, comme on sen assure dans les sondages un chantillon reprsentatif . Dans la notation en cart-type, si la rpartition suit une courbe normale , on peut observer qu'entre 0 et +1 se trouve un bon tiers des effectifs. Entre 0 et -1, un autre tiers.

10 Au-del de +1, il ne reste que 17% environ du groupe : les meilleurs. En de de -1, il ne reste aussi que 17% environ du groupe : les pires. Incidemment, il faut remarquer que quiconque prfre une notation de 0 100 nest pas oblig de sen tenir pour autant lchelle arbitraire prtablie. Il est relativement ais de retransformer une chelle pondre. On donne par exemple au centre 0 la valeur de 50 (ou de 55, 60, la moyenne souhaite pour le groupe) et on recalcule les notes en attribuant lcart-type une valeur de 15, 20, 25, 30 points selon la dispersion plus ou moins considrable que l'on veut voir entre les notes des individus. On obtient ainsi des rsultats pondrs, normaliss1, mais apparemment semblables aux notes en pourcentage traditionnelles, lies au seul jugement des responsables du systme. Tenant compte du groupe, la mesure en cart-type devrait tre juge plus sre, mais souvent les lves eux-mmes s'en dfient car elle ne favorise pas ncessairement ceux qui enregistrent le plus minutieusement les opinions de lenseignant. On sen tient donc plus volontiers un systme simple, o tout se dcide davance. Pourtant l'chelle en cart-type peut servir de mesure non seulement de lhabilet des rpondants mais, rciproquement, de la difficult des questions. Par exemple, une Q.C.M. dont la rponse prvue est le choix de rpondants dont la moyenne est, disons, +1.4, aura une difficult correspondante. Quand la moyenne des rpondants qui ont pris la meilleure solution scarte de la moyenne gnrale de plus que la moyenne des carts, la question est trop difficile ou trop facile. Si lcart-type est suprieur +2 ou infrieur -2, la question est beaucoup trop difficile ou beaucoup trop facile. La prcision de cette faon de noter nous l'a fait adopter pour les graphiques qu'on trouvera plus loin. Les carts-types vont constituer la graduation de l'axe des habilets, horizontalement. Les habilets ne vont pas plus loin que 3 carts-types car, dj au-del de 2, les courbes deviennent assez hypothtiques. Elles ne sont plus tires des rponses attestes mais de leur prolongement thorique.

1. Appels cote Z. Prenons comme exemple un groupe dans lequel un individu est deux carts-types audessus de la moyenne. Sa cote Z se calcule comme suit. Il faut dabord choisir une valeur pour la moyenne du groupe, par exemple 50, et une valeur pour lcart-type, par exemple 15. La note de +2 devient 50 + (2 x 15) = 80. Lindividu dont lcart-type est de -0.67 aurait une note Z de 50 - (0.67 x 15) = 39.5. On joue son gr sur le point de dpart et la dispersion en dplaant la moyenne et les carts. Avec une moyenne mise 60 et un cart mis 10, lindividu qui a +2 conserve sa note de 80 (60 + 2 x 10) mais celui qui a -0.67 passe 60 - (0.67 x 10) = 53.3. Il a donc russi! Et ce nest que juste car il ne faudrait pas, normalement, arrter plus de 17% des tudiants. En effet, ceux qui sont dans les limites dun cart-type (entre -1 et +1) sont dans le peloton.

11

Que valent les questions ?

Quand on entend parler de moyenne et d'cart-type, on pense qu'il s'agit toujours des rsultats des tudiants. Pourtant, dans le tableau o nous avons rang les donnes, rien n'empche de calculer deux moyennes et deux carts-types suivant qu'on opre sur les totaux des lignes (ce sont les tudiants) ou sur ceux des colonnes (ce sont les questions). Pourquoi n'a-t-on pas l'habitude de faire les moyennes et les carts-types des questions ? Sans doute parce qu'on a gnralement affaire des matires enseigner dont le contenu est indiscutable ou qu'on ne tient pas le mettre en discussion, alors qu'en revanche, il fait partie de la structure pdagogique, de la relation matre-lve, de considrer les capacits des rpondants comme foncirement discutables. Dans un domaine comme celui des langues en contact ou en volution, au lieu de juger seulement les tudiants en les confrontant des normes parfois livresques ou passistes1, on a avantage tenter d'valuer aussi la norme. C'est possible partir des opinions, de prfrence les plus rcentes, des spcialistes (norme individuelle claire) ou partir des capacits qui se rvleront dans un groupe (norme collective). Si l'on pouvait disposer d'une chelle des habilets solide et sre, il suffirait de mesurer l'habilet moyenne de ceux qui optent pour chacun des choix. On aurait ainsi une cl de correction conforme celle du groupe, avec une cohrence interne maximale pour ce test. Mais comment tablir cette chelle des habilets sans partir justement de ce qu'on cherche vrifier : la valeur des rponses... Il y a, dans les chelles d'habilet qu'on tablit, des fluctuations considrables ds que l'on cesse de se fier une norme arbitraire pour les bonnes rponses . Telle est l'origine de la rigidit des normes culturelles, qui ne se modifient que par soubresauts. Les groupes sociaux ont besoin d'une norme indiscutable (penser au code orthographique) mais ils ne peuvent la puiser dans les groupes, o pourtant elle rside, faute d'une mthode assure pour tablir les habilets. On se rallie un code a priori. Toute volution est assimile une faute. L'cart entre la ralit et la vrit officielle s'accrot, crant un malaise que le conservatisme fait grandir. Or, le critre qui permettrait de sortir du cercle existe : c'est la cohrence interne, l'indice de Cronbach.
Le critre de cohrence.

Si la cl de correction initiale est trop carte de celle qui correspondrait le mieux aux habilets relles, cet indice sera peu lev. Au contraire, si la cl de correction utilise est

1. Les aspects positifs de la dfense du bon langage sont analyss notamment par Cl. Hagge, le franais et les sicles , p.156-7 et passim.

12 conforme aux opinions du groupe, si elle convient aux capacits des rpondants, cet indice sera lev. Certains tests ont obtenu jusqu' 0.96 (le maximum possible est 1.00). Les mmes tests, pour des populations compltement diffrentes, ont pu tomber 0.25 (alors que, au-dessous de 0.50, nous considrons les indices obtenus comme inutilisables). Peut-on amliorer le Cronbach d'un test? Il faudrait arriver modifier la cl de correction initiale (la valeur attribue aux rponses par les rdacteurs) de faon qu'elle se rapproche de la cl valide sur le groupe, de celle qui rsulte du jugement de tous les intresss, dans la mesure o on peut le connatre. Quand il sagit de langue, si les groupes sont reprsentatifs de toute la population, c'est dans cette direction que se situe l'volution, l'actualit du rapport entre les formes et le sens. Voici de quelle faon nous avons procd. Certaines valeurs, initiales, en loccurrence +1, +0.5, -0.5 et -1, ont t attribues par l'enseignant aux quatre choix de rponses. Prenons l'exemple d'une question choix multiple, rdige Bangui (Rpublique centrafricaine). Je lance un appel mes camarades ________ au village. 1 de retourner 2 pour retourner 3 retourner 4 pour qu'ils retournent1 Le distracteur 4 a, au dpart, la cote +1; le 2, +0.5; le 1, -0.5 et le 3, -1. On part de la cl professorale car elle se rvle le plus souvent une bonne approximation. De l'exprimentation d'un nombre suffisant de Q.C.M. de ce genre, on tire une chelle des habilets en procdant comme suit. Chaque rpondant a obtenu un rsultat. Celui-ci permet de calculer, pour chaque rponse possible, une valeur qui remplacera +1, +0.5 etc. Cette nouvelle valeur est la moyenne des rsultats au test pour tous les tudiants qui ont choisi cette rponse. Une colonne ayant pour titre Moyenne figure donc dans un tableau de rsultats (ci-dessous). La question a t place dans un questionnaire prsent un groupe de finissants de l'cole normale suprieure de Yaound. Voici le tableau des indices obtenus pour chacun des choix. Ils ne sont pas dans l'ordre initial mais dans l'ordre dcroissant des moyennes qu'ils ont obtenues. Ainsi, on a d'abord la bonne rponse du groupe (qui est celle du sousgroupe suprieur), puis celle du deuxime sous-groupe, etc.

1. Un corrig est remis par la suite aux interrogs. Il comporte la rponse considre comme bonne et des contre-exemples. Voici le corrig de la Q.C.M. ci-dessus. Rponse pour qu'ils retournent Mais (les autres choix de rponse auraient t de bonnes rponses sous la forme suivante) : pour attirer leur attention; pour les inciter retourner... Et On leur dfend de retourner; on les incite retourner au village.

13
Questionnaire AG16. Groupe Cameroun. Q.C.M. 25.
Rponse 4* Rponse 1 Rponse 2 Rponse 3 Abstention Rejet 1 Nombre 56 8 6 6 3 1 % 70% 10% 7% 7% 3% 1% Moyenne 0.23 -0.07 -0.44 -0.72 -1.41 Z 62 59 56 53 46 cart-type 0.98 0.61 0.74 0.78 0.88

Les rponses apparaissent donc dans un ordre qui est celui des valeurs dcroissantes des moyennes de leurs adhrents. Cette moyenne, en effet, est une bonne approximation de leur ventuelle validation (plus les tudiants habiles sont attirs par une rponse, plus elle a de chances d'tre effectivement la meilleure). Rappelons que la cote Z est une transposition de la moyenne sur une chelle plus traditionnelle (allant de 1 100 plutt que de -1 +1). La colonne Nombre donne les effectifs des sous-groupes. Trois tudiants se sont abstenus et un seul a rejet la question. Pour faciliter la lecture et l'interprtation des indices, un astrisque (*) accompagne le numro de la rponse prsume la meilleure. On voit que se prsente en premier lieu la rponse 4*. Elle est toile et donc elle est aussi la bonne aux yeux des rdacteurs, avant l'exprimentation. Le nombre des tudiants avoir pris cette rponse est de 56, ce qui reprsente les 70% du groupe, qui compte 80 personnes. La moyenne des rsultats l'ensemble du test pour le seul sous-groupe de ces tudiants-l (les 70%) est de +0.23 (sur une chelle o 0 reprsente la moyenne du groupe et o +1 ou -1 sont l'cart moyen par rapport ce 0). Pour la lisibilit, on reporte ce 0.23 sur une chelle traditionnelle (note Z) o la moyenne serait 60 (la note de passage) et o l'cart-type serait 10 (ce qui donne six carts-types entre 0 et 60 et quatre entre 60 et 100). Ainsi le niveau ressemble-t-il une note d'examen, o la plupart des notes seraient situes entre 50 et 70. L'indice suivant est l'cart-type, toujours pour le sous-groupe des tudiants qui ont donn cette rponse-l. Ainsi peut-on voir s'ils sont regroups ou non, du point de vue de leurs habilets. Ici, l'cart-type de la rponse 4 est de 0.98, donc il est presque gal celui du test dans son ensemble2. D'autres dtails du tableau seront comments plus loin, de mme que la signification d'indices supplmentaires plus rvlateurs. Pour le moment, nous avons entrepris d'exposer comment on peut tenter d'amliorer la cohrence interne des rponses d'un groupe un test.

1. Rejet de la Q.C.M. par l'tudiant (il rpond 5) quand il la considre comme inutile ou mal pose. 2. On sait que l'cart-type du test est not 1 par dfinition (+1 ou -1). En effet, la moyenne des carts est prise en-dessous et au-dessus de la moyenne gnrale (note 0). Cet cart, divis en centimes, peut servir ensuite d'chelle de mesure pour les habilets, pour chaque rpondant ou chaque sous-groupe de rpondants.

14
Des itrations ?

La cohrence est maximale quand les rponses permettent de trier au mieux les comptences, c'est--dire quand se constituent des sous-groupes dont les traits sont bien distinctifs. Or le tri dpend des valeurs attribues chaque distracteur (puisque cest par l quon peut valuer les comptences). Et ces valeurs sont un peu grossires au dpart (+1, +0.5, -0.5, -1) sinon arbitraires (elles refltent le jugement des rdacteurs). Il suffirait de prciser ces valeurs en fonction du jugement du groupe pour que la cohrence augmente, comme on la vu la page prcdente. Peut-on aller plus loin? Existe-t-il une cl de correction qui maximisera la cohrence ? La moyenne des habilets des adeptes de chaque rponse, que nous avons substitue aux cotes magistrales, c'tait dj des valeurs mesures, donc une rvision raliste de la cl initiale. Toutefois, cette rvision avait t possible partir de moyennes tires d'une correction effectue avec la cl initiale : elle restait donc directement tributaire de celle-ci et elle n'en tait pas trs loigne. Ce n'tait donc qu'un pas dans la bonne direction. Que serait la cl relle , celle du groupe, si on parvenait l'tablir indpendamment d'une cl initiale? Avant daller plus loin, soulignons que la cl initiale, celle des rdacteurs, constitue tout de mme la meilleure approximation accessible. Elle offre plus de garanties, en tout cas, que nimporte quelle autre, qui ne serait pas moins arbitraire. Et elle est srement beaucoup plus proche de la cl mesure que ne le serait une cl de dpart purement alatoire. Mais puisquil a t possible de lamliorer en se servant des rponses effectives du groupe et dun critre mathmatique, donc sans intervention subjective unilatrale, que peut-on tenter pour aller encore plus loin? On a donc maintenant une nouvelle cl, tablie l'aide des moyennes obtenues. Il s'agit dj de valeurs beaucoup plus fines que la cote initiale (elles ont deux dcimales) et surtout ce sont des mesures prises sur le terrain. On peut dire que la nouvelle cl est un compromis heureux entre les points de vue des deux parties en prsence, l'enseignant et les enseigns. Il y a donc progrs. Progrs mesurable, dailleurs. Le test AG16, qui avait un Cronbach de 0.25 (trs insuffisant), est mont 0.48 par cette modification des valeurs. Une partie de l'cart entre la cote initiale et la cote qui permettra une cohrence maximale a d se rsorber. Mais cela ne suffit peut-tre pas. Un Cronbach de 0.48 est peine satisfaisant. Pourquoi s'arrter sur une bonne voie? Une fois les cotes modifies, une nouvelle chelle d'habilet, assez diffrente, va s'laborer. Le rang de certains rpondants se modifie. Par la suite, cette chelle amliore engendre son tour de nouvelles moyennes... donc de nouvelles valeurs pour chaque distracteur. Rsultat enthousiasmant. Le test AG16, en 9 itrations, avait atteint une cohrence interne tout fait remarquable: 0.84. L'ordinateur

15 n'ayant pas se faire prier pour recommencer les mmes choses, nous lui avons fait faire jusqu' cent itrations1. On arrtait quand les modifications cessaient dtre significatives. La premire version du logiciel comportait quelques faiblesses. Dans les groupes disparates, les itrations rnouveles pouvaient faire diverger les rsultats. Ce dfaut a pu tre corrig et les rsultats ont fini par si bien converger que mme en partant d'une cl de correction quelconque, totalement alatoire, on aboutissait, la longue, des cls tout fait similaires. Nous avions le sentiment de Christophe Colomb arrivant en vue dun nouveau continent. La cohrence interne du groupe tait donc un critre plus solide que tous les autres. Elle pouvait se laisser atteindre mme en labsence de cl professorale initiale. On entrevoyait la possibilit de dcrire avec prcision un ensemble de rgles pratiques dun bout lautre de la francophonie, le franais commun daujourdhui, et de reprer les divergences structurelles. Mais il allait falloir mener dinnombrables enqutes, comme Gilliron arpentait les campagnes pour faire la gographie linguistique de la France, une carte pour abeille, une autre pour ive ou jument, etc. Jusquo fallait-il poursuivre les itrations? On adopta comme critre le moment o plus aucune Q.C.M. ne voyait l'ordre de ses rponses se modifier. Solution stable! Le logiciel actuel, ANADIST, donne donc des cls de plus en plus proches d'un centre qui est constitu par le jugement du groupe. Il donne les valeurs pour lesquelles les rponses trient le mieux les comptences. D'itration en itration (elles reoivent un numro d'ordre), on peut voir les courbes se prciser, se redresser (et la raideur est un signe de meilleure discriminance). On peut aussi voir changer la validation de quelques-unes des rponses considres d'abord comme bonnes, et inversement voir surgir des distracteurs qui finissent parfois par prendre la place de la solution quon croyait correcte... chaque itration est franchie une partie (environ la moiti) de la distance qui reste entre la cl en cours et la cl recherche, idale pour le groupe. Les indices de moyenne, sans cesse revus, se succdent. Les jugements implicites du groupe sur les choix sortent de l'ombre tandis que l'incomprhension projete par la loi quand elle est encore inassimilable (ou les divergences insouponnes avec l'enseignant) sont cartes provisoirement. Les variations du Cronbach (et d'autres indices, de fiabilit) sont l pour tmoigner des progrs ventuels, pour les mesurer. Le test qui avait mont de 0.25 0.48 tait 0.58 la troisime itration. Ds ce moment, un grand pas avait t franchi. On voyait un test qui paraissait inutilisable devenir pertinent la seule condition de modifier partiellement, mais d'une manire bien prcise, sa cl de correction. Pour donner une ide de l'amlioration d'chelle obtenue par les itrations, voici un diagramme des habilets (dans un test d'orthographe prsent des lycens de Metz, Dijon et Reims), d'abord avec la cl de correction professorale initiale puis aprs 89 itrations.

1. Un cerveau humain ne peut accomplir une synthse multidimensionnelle sans faire de nombreux choix arbitraires qui tent souvent toute signification au rsultat. Il faut donc laide dune calculatrice souligne J.-P. Benzcri (lAnalyse des donnes , t.1, p.16-17).

16
Distribution des habilets.

Avant toute itration1, la premire phase de correction donne des habilets distribues comme suit : on lit en abscisse (horizontalement) les habilets reprsentes dans le groupe (entre -3.0 et +3.0, du minimum au maximum) sur une chelle en cart-type. Il y a 26 tranches d'habilets2. Une seule des tranches est remplie 100% avec ses 14 rpondants. Cest la plus proche de la moyenne du groupe en habilet. On peut voir ici une 14 | * 13 | * * courbe normale , en 12 | * ** 11 | * * *** forme de cloche. Elle est 10 | * ** *** * 9 | * ** *** * * assez bien reprsente 8 | * ** *** * ** 7 | * ** *** **** * mais elle a de fortes 6 | * * ** *** **** * 5 | * * * * ** *** ***** * irrgularits. Celles-ci 4 | * ** * * * ** *** ******* * * 3 | * * ** * * * ** *** ******* * * diminueraient sans doute 2 | * * * ** * * * ** *** ******* * * * * 1 | * * * ** * * * ** *** ******* * * * * * * si l'on augmentait le 0 +---------+---------+---------+---------+-------+--------+ nombre des rpondants. -3.0 -2.0 -1.0 0.0 1.0 2.0 3.0 Toutefois, pour amliorer l'chelle elle-mme, c'est la cl de correction, rvise, qu'il faut toucher. Voici ce que l'on obtient comme distribution pour le mme test aprs 89 itrations. Mentionnons tout d'abord que le nombre d'tudiants retenus n'a pas chang3. A-t-on fait 12 | * un gain, globalement, 11 | *** * en cohrence interne ? 10 | *** * * * 9 | *** * *** Le Cronbach est pass 8 | * *** * **** * 7 | ** *** * **** * 0.66. Augmentation 6 | * ** *** * **** * * * 5 | * ** *** * **** * * * dj notable (10%). 4 | * * ** *** * **** * * *** *
3 | * * * ** *** * **** * * *** * * * 2 | * * * * ** *** * **** * * *** * * * * 1 | * * * * * ** *** * **** * * *** * * * * ** 0----------+----------+---------+---------+---------+--------+ -3.0 -2.0 -1.0 0.0 1.0 2.0 3.0

1. Test EF111-114. Groupe LYCES. Itration -1. Nombre d'tudiants : 143. Nombre de questions : 85. Cronbach : 0.56. Note minimale : 23; moyenne : 35.37; maximale : 51. 2. Elles ont t mises sept centiles (sept centimes du nombre de rpondants). 3. Il est rarissime que les itrations cartent quelqu'un. Pour qu'un rpondant cesse d'avoir une note mesurable, il faudrait qu'il ait bien rpondu toutes les questions valides (ou qu'il se soit abstenu toutes celles-ci, ou qu'il les ait rejetes). Par contre, des hypothses permettant le regroupement des dviances restent dvelopper. Les groupes ne sont jamais totalement homognes et cela nuit la prcision des indices.

17 Les changements apports par la cl revue et radapte au groupe chaque itration entranent comme consquence quil ne reste que 62 Q.C.M. (au lieu de 85) contribuer ltablissement de lchelle des habilets. Ceci explique que la note minimale soit devenue 13. La moyenne est passe 25.66 (en nombre absolu, car pour la moyenne pondre, elle est toujours de 0, milieu entre -1 et +1; cela quivaut 50 ou 60 entre 0 et 100 dans les cotations courantes). La note maximale est maintenant de 42. Cette fois, le maximum par tranche d'habilet nest plus que de 12 rpondants1 bien quil y ait toujours 26 tranches dhabilet. On voit que les courbes se sont amliores puisqu'elles sont un peu plus semblables au modle, et plus rgulires; et que le Cronbach s'est lev. Toutefois, en s'approchant ainsi de lopinion des groupes (chacun a sa vrit), on risque de perdre la rigidit du conformisme et d'accrotre la multiplicit des positions possibles, selon la provenance, ltat de prparation et lhabilet des groupes. L'importance de la reprsentativit des chantillons par rapport la population vise (pour la recherche ou pour lenseignement) s'en trouve accrue.

Le choc des cultures.

Rien de tel qu'une bonne mise en situation historique pour clarifier la thorie. Dans quel cadre les rflexions ci-dessus se sont-elles mises natre et crotre2 ? Racontons-le brivement, en faisant un lger dtour dans le pass. En 1961, je fus charg d'un cours de rattrapage en langue crite l'Universit de Montral. cette poque, le frre Untel avait lanc son pamphlet, exacerbant les tensions entre le franais dit normatif, import, valoris par la partie internationaliste de la classe intellectuelle, et un franais qubcois, qui commenait s'affirmer en littrature, et qui se faisait vilipender sous le nom symbolique de joual. Il fallait oprer sur le vif, dlicatement, et le Belge d'origine qui sa Facult remettait le scalpel ne pouvait ni se fier lui-mme ou ses connaissances acquises Paris, ni trop cder aux revendications manant de son nouveau milieu.

1. Ouvrons ici une parenthse sur le dcentrement du sommet par rapport la moyenne (0.0). Il y a plus dtudiants droite du sommet quil ny en a gauche, donc trop ont bien rpondu. Avec la cl de correction du groupe, le test est devenu un peu trop facile. 2. Circonflexes superflus depuis la Rforme...

18 Quel franais enseigner ? O trouver la description d'une langue qui soit conforme aux pratiques effectives et aux vux des futurs crivants nord-amricains? Il fallut peser le pour et le contre, y aller cas par cas, chercher des critres qui rsistent aux critiques, contradictoires, de relchement ou de colonialisme (culturel). Je commenai comme tant d'autres par des tests d'orthographe sous forme de questions choix multiple. Des logiciels de correction de tests, rcemment venus des tats-Unis, firent bientt ouvrir des yeux ronds ma gendelettrerie. Par les indices fournis, il tait parfois quasiment possible de constater de visu ce qui se passait dans l'esprit des tudiants. Jamais, malgr des heures de discussions approfondies dans les classes, je n'avais pu saisir aussi nettement les causes et les conditions des difficults prouves. Des choses apparemment complexes taient bien assez connues, ne demandant pas plus ample commentaire. Des choses mme simples, au contraire, que ce soit cause de l'influence de l'anglais ou de l'isolement culturel d'avant la Rvolution tranquille, offraient des obstacles mes yeux inexplicables. Il devenait possible de se poser les questions relles. Et surtout, les cls de correction tant valides, je pouvais exposer avec conviction les points sur lesquels la tendance foncire du groupe me donnait davance un accord de principe, viter le risque daugmenter la confusion inhrente au conflit des langues en contact. Au dbut, ces indices me permirent de faire une mise au point de mon enseignement et de l'adapter aux besoins ressentis par le groupe. Peu peu, cependant, en adepte de la phnomnologie, je fus amen reformer et reformuler (comme dit Merleau-Ponty) cette perception. La relativit de la connaissance dans l'histoire des socits devenait autre chose qu'un sujet de discours : nous tions face face et elle tait mesurable. Elle prenait une dimension sociale, intersubjective , parfaitement tangible. Cela modifiait non seulement l'approche didactique mais la vision du phnomne de la langue. Il fallait y inclure les collectivits, leurs changes, leurs situations respectives, leur volution. Car les bonnes rponses valides par les groupes taient des synthses minimales bien partages, justifies dans leur cadre. travers les pineux problmes de langue, elles reconstituaient un franais correct d'ici (au Qubec), aussi conforme aux vux des enseignants, qui commenaient s'organiser (l'Association qubcoise des professeurs de franais), qu'aux proclamations du Ministre de l'ducation. Il ne s'agissait ni de joual ni du franais d'aujourd'hui, mais d'un sous-ensemble de la langue soigne, d'un systme cohrent aux yeux de Nord-Amricains fidles leurs origines du Grand Sicle, et dcids les prserver par dessus tout de l'anglicisation. Un exemple ? Le trappeur se demanda quelle pouvait tre l'impression produite par le monde des _______ sur les animaux. (hommes ? humains ?) Environ la moiti des personnes interroges ont opt pour humains, Montral comme Paris, mais Montral,

19 ce 50% se place parmi ceux qui ont le mieux rpondu au reste du test (discriminance1 de +0.16 contre 0.00 hommes) alors qu' Paris (et c'tait aussi notre avis personnel) les plus habiles rpondent hommes (discriminance de +0.35 contre -0.46 humains). Voici donc un point o les valeurs d'emploi de homme / humain ont boug au Qubec. Homme tant un substantif, humain un qualificatif, employ comme substantif, on peut avancer l'interprtation suivante : au Qubec, on voit dans ce qui caractrise notre espce une diffrence moins de nature (de substance) que de qualit; et ce glissement n'est pas peru comme un anglicisme (bien qu'il puisse venir, comme ide ou comme usage, du monde anglo-saxon).

Le C.A.F..

Avec les annes2, naquit le Cours autodidactique de franais crit (C.A.F..), qui se rpandit distance (par la poste) sur tout le territoire qubcois. Outre la validation des Q.C.M. que des milliers de secrtaires se mirent plucher dans les cahiers d'exercices, le cours comportait une graduation (tri sur difficult croissante) et une individualisation (chacun commenant au niveau d'habilet qui est le sien). La mthode pourrait se rsumer comme suit. Parmi les fautes corriger courantes, il y a un sous-ensemble de points sur lesquels le groupe en gnral est d'accord implicitement (ce sont les Q.C.M. valides). Ces points peuvent tre enseigns en priorit ceux qui ne les matrisent pas. Les exprimentations pralables permettent de les identifier, de leur donner un niveau sur une chelle progressive, de les prsenter dans un ordre d'apprentissage mesur. Un simple cahier d'exercices peut alors suffire assurer le progrs de celui qui est anim de la volont d'avancer par lui-mme3. Le processus de montage de tels ensembles didactiques, une fois les questions choix multiple exprimentes, tait le suivant. 1. Vrifier le Cronbach. 2. carter les Q.C.M. dont la bonne rponse prvue n'avait pas un taux positif de discriminance. (En effet, si la bonne rponse prvue est choisie par les moins habiles, elle forme une strate de comptence infrieure en ce qui regarde l'ensemble du test; elle ne peut plus tre une bonne rponse pour l'ensemble du groupe.) 3. Trier les Q.C.M. valides suivant leur difficult croissante (cet indice n'tait autre, aux dbuts, que le pourcentage de bonnes rponses). 4. Btir les cahiers gradus en rpartissant les Q.C.M. selon leur niveau de difficult et leur sujet. On fait normalement dix chapitres d'environ 100 Q.C.M. par cahier : orthographe, morphologie, accords, syntaxe et vocabulaire. 5. Rserver, dans chaque chapitre, dix Q.C.M.
1. La discriminance ou slectivit est leve quand ceux qui ont pris cette rponse-l sont en majorit parmi les meilleurs rpondants (et inversement). Une Q.C.M. est slective quand elle effectue peu prs le mme tri parmi ses rpondants que le test tout entier. Voir p.25. 2. Et sous la vigoureuse impulsion de M. Jacques D. Girard. 3. Il serait plus exact de dire celle qui est anime , les deux tiers des inscrits tant du sexe fminin.

20 reprsentatives du reste et trs discriminantes afin de constituer un test de cheminement. En passant le test ds son inscription, l'tudiant reoit une feuille de route imprime par l'ordinateur, qui lui indique o commencer, pour chaque chapitre, suivant son habilet au dpart. Tel fut le C.A.F.. des annes soixante-dix, encore achaland aprs vingt-cinq ans. Il reprsentait un progrs car les divergences entre cultures et subcultures avaient t prises en compte. Du franais, on n'enseignait plus aux Qubcois qu'un sous-ensemble appropri, selon leur comptence mesure; et, de ce sous-ensemble, chacun ne recevait que la partie ncessaire, c'est--dire le programme individuel compos par ordinateur la suite de son test de cheminement. Une synthse se faisait jour, identifiable dans les ractions collectives. Devenaient accessibles au grand public les points de langue (pas seulement l'orthographe) les plus valoriss dans la population vise. L'objectif tait limit, au dpart, mais la nouvelle approche ouvrait trop de possibilits. La linguistique avait donc affaire aux grands nombres... Eh bien, les grands nombres suivent des lois, qu'tudie le calcul des probabilits. Or les docimologues amricains venaient justement d'intgrer ce type de calcul leurs proccupations. La connaissance de la faon d'apprendre allait s'approfondir.

Le phnomne d'apprentissage.

La recherche de notre quipe1 se tourna vers les diverses formules docimologiques et explora surtout celles du trait latent . Il s'agissait de reprer dans la dispersion naturelle des rponses la ou les dimensions les plus caractristiques. Ce type de modlisation devait aider l'affinement des mesures de niveau (habilet ou difficult) et d'cart-type. Nos spcialistes essayrent la formule de Rash ( un paramtre) et celle de Birnbaum2 ( deux paramtres). Reprenons une vue densemble du problme. partir dici, ce sont les graphiques qui parsment le prsent ouvrage qui vont tre explicits. On cherche donc savoir comment un apprentissage se ralise. On examine selon les mthodes de l'analyse statistique le comportement d'chantillons reprsentatifs, suffisamment varis, d'une population . tant donn que les chances de bien rpondre croissent avec la comptence, il ne s'agit plus d'une distribution comme celle de la frquence des rsultats ou celle de donnes alatoires, avec la traditionnelle courbe en cloche. Les bonnes rponses , et mme les

1. V. p.5, note 3. 2. V. Lord et Novick, Statistical Theories of Mental Tests Scores , p.357 et sv.

21 autres ont quelque chose de commun avec la comptence mesure dans le groupe, elles portent sur des savoirs ou des habilets et vont former une courbe dite logistique. En docimologie, la distribution logistique donne les chances de bien rpondre (la probabilit des choix) en fonction des tranches successives d'habilet des rpondants. La courbe prend place dans un espace deux dimensions, qui sont les habilets en cart-type, comme prcdemment, en abscisse, et en ordonnes le pourcentage des adhrents au choix de rponse concern. Quand on parle ici de pourcentage des adhrents, soulignons bien que ce nest pas par rapport au grand total des rpondants mais seulement par rapport au sous-total des rpondants qui se situent dans la tranche dhabilet concerne. Pour la clart du dchiffrement de ces graphiques, nous avons carrment pris le numro du choix, ici 4, pour tracer la ligne. Ce nest que la reprsentation approximative, en caractres dimprimerie, dune courbe continue. De cette faon, chaque ligne est identifie immdiatement. On peut observer que sil y a plusieurs chiffres 4 de suite, horizontalement, ils ne forment pas un nombre : cest simplement d au fait que la courbe ne monte pas de faon raide et escarpe cet endroit (ce qui signifie que le choix a moins de discriminance ce niveau dhabilet-l, ce sera expliqu plus loin). Les habilets sont Probabilit de ce choix normalises de la mme 100%| | | | faon que dans les gra| | | | 44 phiques examins prc| | 444 | | 4444 demment : elles ont 0.0 | | 4444 | | 44444 (zro) pour centre (la | | 4444 | |444 moyenne du groupe) et 50%|-------------------------444---------------------------| 444 | vont de -3.0 (moins trois) | 444 | | 444 | +3.0 (plus trois) carts| 444 | | 4444 | types. Le pourcentage | 44 | | | des adhrents va de 0% | | | | (aucun) 100% (le maxi0%+--------+--------+--------+---------+---------+---------+ -3.0 -2.0 -1.0 0.0 1.0 2.0 3.0 mum pour chaque tranche dhabilet). Le moment intressant est le milieu de la courbe, lendroit o elle franchit la ligne de 50%. Cette ligne dlimite la moiti du groupe et donc le moment o la minorit devient une majorit. Sur la courbe ci-dessus, on voit que 50% environ des adeptes de la rponse 4 sont d'une habilet moyenne. En effet, la courbe du distracteur 4 franchit la ligne des 50% en abscisse prcisment au moment o elle atteint son degr moyen dhabilet, 0.0 en ordonne. La courbe monte, ce qui veut dire que les tudiants les plus faibles (niveau infrieur zro donc indice ngatif) sont moins de la moiti de leurs effectifs prendre la rponse 4. Mais comme la courbe monte, moins ils sont faibles, plus ils sont nombreux. Audel de la moyenne (0.0), les tudiants forts sont plus de la moiti prendre la rponse 4.

22 Plus ils sont forts, plus ils prennent cette rponse. Elle est donc plutt bonne. Elle reflte un savoir du groupe. Voici donc (pour le redire autrement) comment le trac de ces courbes, qui rvlent des strates de comportement collectif, est obtenu. On trie les tudiants suivant leur note au test et on les rpartit en sous-groupes, par tranche d'habilet. On regarde quelle proportion des effectifs de chaque tranche a pris chaque rponse (ici la rponse 4) et on place un point (ici le chiffre 4) sur le graphique, l'intersection correspondante. Si les points ainsi dfinis esquissent un mouvement ascendant ou descendant, on arrondit la courbe de faon que l'ensemble soit le plus cohrent possible. On doit faire cela parce que l'chantillon d'tudiants dont on dispose n'est pas ncessairement homogne en habilet. Mais aussi, il est normal de le faire parce qu'on est en droit de supposer quil y a une corrlation entre l'habilet et le nombre de ) relativement savantes ) rponses : cest la dfinition mme de l'apprentissage. Il est intressant de mentionner ici lanalogie de cette courbe et de celle d'Ebbinghaus, qui note le nombre de succs chaque nouvelle srie de tentatives. Il y a dans les deux cas une acclration rapide au moment de la dcouverte de la tche et un ralentissement progressif au moment o l'acquisition se rapproche du maximum possible. Ce qui distingue les deux courbes est que la courbe logistique prend le phnomne sous l'angle collectif alors que la courbe dite d'apprentissage dEbbinghaus relate les phases successives du travail d'un seul individu1. Remarquons que la courbe logistique peut concerner la bonne rponse mais aussi les distracteurs. Nous examinons les courbes de toutes les rponses possibles, au point de vue des chances de donner cette rponse selon le niveau d'habilet concern. Cest mthodologiquement essentiel pour plusieurs raisons, tant thoriques que pratiques. Les distracteurs, dans lapprentissage, ne sont des erreurs que si lon se place au point darrive, qui permet de les juger. Dans une perspective dacquisition progressive, ils sont des bauches successives, ils tendent vers une bonne rponse, qui est encore mais provisoirement hors datteinte. Ceci peut donc sanalyser dans le comportement du groupe. Il vaut la peine de laborder maintenant plus en dtail et mme techniquement. Pour qu'une rponse ait une courbe logistique qui rvlera un apprentissage, il faut (et il suffit) : primo, que ses adhrents soient plus rares dans les tranches d'habilet moindre (la gauche du graphique); secundo, que leur frquence relative augmente de faon significative un endroit donn de l'chelle des habilets; tertio, qu'une forte majorit se manifeste au-del de cet endroit o tout change , et qui est le niveau de difficult normalis de cette rponse.

1. Les deux approches convergent du fait que l'ontogense (ou formation individuelle) est habituellement un raccourci de la philogense (ou formation de la tribu, historiquement). Autrement dit, on trouve dans le groupe, simultanment, toutes les phases successives possibles de lapprentissage.

23 En pratique, il est rare que cette courbe soit quasi rectiligne comme dans le graphique ci-dessus. Elle est plutt lgrement incurve, ne prenant que progressivement son essor et ralentissant larrive au sommet. Ce que cette forme 100%| | | | 44444 illustre, c'est que le savoir | | 4444 | | 444 li au distracteur 4 de | | 44 | | 44 cette Q.C.M. ne s'obtient | | 44 | | 44 pas aussi aisment , dans | | 44 | | 44 le groupe, n'importe quel 50%|--------------------------+-4-------------------------| 44 niveau d'habilet. Il est | 4| | 44 | plus lent, ici, avant -1.0; | 44 | | 444 | plus rapide au moment o | 444 | | 444 | il atteint des effectifs de | 4444 | | 44 | 50% (une majorit de 0% +--------+--------+--------+--------+---------+---------+ -3.0 -2.0 -1.0 0.0 1.0 2.0 3.0 connaissants); plus lent nouveau quand l'habilet dpasse un seuil lev (prs de +2.00). L'explication de ce phnomne est assez simple. Il y a un degr d'habilet idal pour l'apprentissage de chaque rponse. La courbe dvoile ce point partir de l'habilet mesure de tous ceux qui ont fait le choix considr (qui n'est pas forcment le meilleur de tous mais qui doit tre au moins meilleur que lune des autres rponses donnes). C'est l'habilet correspondant 50%, la moiti des effectifs, qui marque le plus exactement le niveau idal d'apprentissage. Beaucoup plus bas (par exemple une distance de 1 en cart-type), on apprend mal parce que la chose doit apparatre comme trop difficile. Beaucoup plus haut, on rpugne s'intresser quelque chose qui apparat sans doute comme trop facile. Il s'agit donc d'une courbe lgrement incurve, appele courbe en S , qui se place grosso modo dans la diagonale du graphique. Elle se rapproche de la diagonale par son acclration (son raidissement, son escarpement) au moment de passer du bas (peu de rponses) vers le haut (beaucoup de rponses). La transition du bas vers le haut est acquise au moment o on atteint, parmi les rpondants du sous-groupe qui a opt pour un distracteur donn (et qui forme une strate) une quantit, en comptant partir des plus faibles, gale la moiti, c'est--dire au moment o la ligne horizontale marque 50% est franchie. Ce point correspond un niveau d'habilet (mesur en cart-type) qui est le niveau d'apprentissage . Le niveau d'apprentissage est d'une grande prcision. Il est extraordinairement utile la confection de cours puisquil indique quel moment lindividu apprendra le plus aisment (et durablement). Pour interprter les graphiques, il est bon d'avoir l'esprit cette forme : un S allong dans la diagonale. Il arrive que les habilets reprsentes dans le tableau ne soient pas exactement celles qui convenaient la question. N'apparat alors qu'une partie de la courbe en S : la base par exemple, ou le sommet. Il est ais de les identifier, cependant, puisque la courbe s'arrondit en creux dans le premier cas, en bosse dans le second.

24

Des trois courbes ci100%| | 22222 | | 22222222 contre, laquelle est com| | 22222 44 | | 2222 444 plte? laquelle est une base | |222 4444 | 222 444 du S? laquelle est un som| 22 | 444 33 | 22 | 44 33 met ? | 22 | 44 333 | 22 | 444 33 Le graphique est une 50%|--------------22----------+-44----------333-----------visualisation des indices. Il | 22 44 333 | 22 44| 33 donne une configuration | 22 44 | 33 | 22 44 | 333 tangible de la rpartition des | 44 |333 | 4444 333 rponses. On a ici une | 44444 3333 | | 444 33333333 | courbe complte de niveau | 333333 | 0% +--------+--------+--------+---------+--------+---------+ moyen (la rponse 4), une -3.0 -2.0 -1.0 0.0 1.0 2.0 3.0 courbe qui est plutt un dbut de S, une base et la moiti du reste (la 3, dont le niveau est 1.16) et une autre qui est un sommet avec la moiti de sa monte, car elle est de niveau faible (la 2, -1.46).

Normalisation du niveau d'habilet.

Y a-t-il un rapport entre cette courbe et celle des rsultats, en forme de cloche ? La courbe d'apprentissage ne va pas sans la courbe normale. Elle la prsuppose en quelque sorte. Si l'on devait prendre le nombre absolu de rponses chaque niveau, on ne pourrait jamais obtenir de courbe conforme la thorie : les tudiants moyens restent plus nombreux que les forts. C'est proportionnellement aux tudiants prsents qu'il faut dterminer le point reporter sur le graphique. Avec le temps, nous avons donc affin la mesure du niveau de difficult d'une Q.C.M., et ce deux reprises. Ce n'tait, d'abord, que le pourcentage des bonnes rponses. Par la suite, pour chaque rponse, nous avons eu la moyenne d'habilet de ses adeptes, mesure d'autant plus ajuste qu'elle pouvait tenir compte d'une chelle d'habilet mesure dans le groupe. Maintenant, avec la projection d'une courbe d'apprentissage, s'offre la possibilit de compenser en partie les alas de la varit des groupes censs reprsenter la population vise.

25
Verticalit.

Le niveau est un point central (comme la moyenne) et l'on aimera aussi savoir quelle est l'amplitude de la dispersion (comme l'cart-type tout l'heure) pour cet vnement collectif qu'est l'apprentissage. Voyons les choses de plus prs sur l'exemple des courbes suivantes. Laissons de ct la courbe 100%-| 444 | 1111144444333 de la rponse 1, qui est un | 11111111134444333 | 111111 333444 sommet, et comparons la 3 et | 1111 333 44 la 4. Cette dernire est trs | 11111 33 44 | 111 33 44 verticale. Sa discriminance est | 1111 33 4 | 11 33 4 de 0.93 c'est--dire qu'elle | 3 4 50%-| 33 44 dpartage presque parfai| 33 4 | 33 4 tement, verticalement, les | 33 4 | 33 4 faibles et les forts. Or plus une | 33 44 | 33 44 courbe est verticale, plus est | 33 4444 | 44444 significative dans le systme | 444 0%+-------+-------+--------+--------+--------+--------+ d'expression du groupe la -3.0 -2.0 -1.0 0.0 1.0 2.0 3.0 rponse qu'elle reprsente, mais aussi plus il importe de prsenter cette Q.C.M. un apprenant quand il a atteint et pas encore dpass le niveau indiqu. On a besoin d'une mesure de la marge de manuvre dont on dispose pour intresser l'tudiant et lui rendre vraiment service. Cette mesure n'est pas sans analogie avec l'cart-type. Elle en diffre toutefois parce qu'elle ne s'applique pas tous les rpondants : elle est prise sur la courbe et constitue donc une approximation vraisemblable de ce qui se passe ce niveau.
Questionnaire EF118-20. Q.C.M. 36. Groupe LYCES. Itration 17. Nombre Courbe Moyenne cart-type Niveau Slectivit Rponse 4* 98 57% B+ 0.40 0.93 -0.24 0.93 Rponse 3 21 12% B -0.41 0.50 -0.89 0.68 Rponse 1 25 14% B -0.51 0.83 -2.82 0.40 Rponse 2 24 14% P -0.57 0.90 Rponse 1 0% P Rponse + 1 0% P

On aurait pu mesurer la largeur de la tranche comprise entre les deux parties incurves du S, ou donner le niveau en habilet du dbut et de la fin de la partie rectiligne, la plus verticale, de la courbe. Il a paru plus simple, aux mathmaticiens, de prendre comme indice la pente de la courbe (l'angle form par la courbe et par l'horizontale, la moiti des effectifs). Tel est l'indice de slectivit. On l'appelle plus souvent indice de discriminance, mais ce mot peut passer pour pjoratif dans la langue courante.

26 Quand la partie centrale du S est proche dune diagonale (slectivit autour de 0.36), les tranches d'habilet concernes sont assez nombreuses. La Q.C.M. est accessible plus dun sous-groupes. Mais quand le segment rectiligne du S est plus vertical, les tranches d'habilet o l'on apprend (o l'on a le maximum de chances de faire l'apprentissage de faon consciente et durable) forment une bande plus troite. C'est le cas de la courbe 4 cidessus. Pour visualiser, on peut dire de l'indice de slectivit qu'il donne la raideur de la courbe (sa verticalit). Pour fixer les ides, on peut considrer le niveau comme une moyenne tenant compte d'une distribution sous-jacente qui soit normale ; et la slectivit comme une sorte dcart-type normalis, c'est--dire valable pour n'importe quel chantillon non biais.

Bonnes et mauvaises courbes.

Reprenons. Les courbes du graphique sont obtenues de la faon suivante. Pour chaque distracteur (choix de rponse), l'ordinateur va fouiller ses listes de rponses d'usagers (classs par tranche d'habilet) et il calcule combien (en pourcentage) l'ont choisi. On value daprs la pente quelle tranche dhabilet cette proportion atteindra 50% pour mesurer un niveau d'apprentissage . Alors que les habilets forment une courbe en cloche , la courbe d'apprentissage est une oblique, puisque ce sont normalement les tudiants forts qui ont appris en plus grand nombre. videmment, les courbes obtenues ne sont pas toujours incurves de la bonne faon. Supposons quon ait affaire un choix de rponse qui n'apprend rien et qui sert comme pige (distracteur au sens fort). Choisi par quelqu'un, il constituerait une faute dpourvue de toute signification (aux yeux du groupe). Il ne pourrait avoir un plus grand nombre dadeptes dans les tranches dhabilet suprieures. Il peut mme arriver que la courbe des points mesurs soit inverse celle des habilets mesures. Une telle rponse enseigne, pourrait-on dire, le contraire de ce que le reste du test enseigne. Le logiciel ANADIST l'indique (p.28) par la lettre M (mauvaise courbe), gauche des indices. Un B signale une bonne courbe, qui indique que l'on apprend normalement. Un B+ signale une bonne courbe qui a de plus servi tablir l'chelle des habilets1. L'absence de courbe est indiqu par P (pas de courbe).

1. l'itration prcdente, la rponse tait valide (elle avait une bonne courbe et sa moyenne tait la plus leve).

27
Niveaux hypothtiques.

La courbe d'apprentissage dessine est parfois trs peu incurve, presque rectiligne (voir p.20). En vrifiant le niveau calcul, on peut remarquer qu'il se situe trs en dehors du graphique : beaucoup plus haut ou beaucoup plus bas. Il arrive qu'il soit 7 ou mme 10 carts-types de la moyenne alors que ne sont traces que les portions de courbes qui vont de -3 +3. L'aspect rectiligne vient du fait qu'on ne voit que la partie infrieure ou suprieure de la courbe, qui dcrit la portion des strates o tout le monde ou presque ignore, ou connat. Il faudrait agrandir la fentre que dcoupe le graphique sur le phnomne d'apprentissage dans le groupe pour voir la raideur au point le plus caractristique, quand on franchit la ligne des 50%. Presque aucun de nos tudiants, d'ailleurs, ne se trouve des endroits aussi loigns de la moyenne que 3 carts-types. De telles courbes sont donc des artifices mathmatiques. Constatant que quelques tudiants dans le groupe peuvent esquisser un dbut ou une fin de courbe sigmode (en forme de S), l'algorithme (la formule mathmatique) est appliqu. En pratique, tout ce qu'on peut tirer comme renseignement sur ces courbes trop tales, c'est qu'il faudrait poser nouveau la question des groupes beaucoup plus forts ou beaucoup plus faibles, selon le cas.

Plusieurs bonnes courbes, donc plusieurs bonnes rponses ?

Comment se fait-il que certaines Q.C.M. ne tracent qu'une courbe, ou mme aucune, alors que d'autres en ont plusieurs ? Qu'il n'y en ait aucune vient probablement du fait que la Q.C.M., si elle mesure quelque chose, ne mesure pas la mme chose que le reste du test. Et pour ne pas fausser la recherche des meilleures chelles d'habilet, on retire ces Q.C.M. des donnes retenues pour le calcul du Cronbach. (On les rintroduit plus tard, quand il arrivera que les chelles nouvelles permettent de tracer une bonne courbe avec une de leurs rponses.) Qu'il n'y ait qu'une seule courbe, ce pourrait tre la rgle gnrale, bien y penser. Une fois que plus de 50% des plus habiles ont choisi une rponse, qui trouve ainsi sa bonne courbe , on voit mal comment une autre rponse pourrait rditer la performance. Or il fallait trouver le moyen de faire apparatre le phnomne d'apprentissage des niveaux d'habilet divers et pas seulement pour les meilleurs tudiants. Ce que nous avions pu observer, en effet, c'tait qu'une mauvaise rponse pouvait assez souvent reprsenter une approximation intressante. Par exemple, elle prenait, dans certains groupes, le comportement d'une bonne rponse si celle-ci tait retire des choix. La solution adopte fut, bien simplement, de simuler ce retrait. La rponse qui a obtenu une bonne courbe empchant les autres d'en recevoir une leur niveau, on la supprime provisoirement. Il nest mme pas ncessaire pour cela de soustraire du groupe les adeptes de cette rponse. Il suffit, en pratique, de mler les sous-groupes des deux distracteurs concerns. Sur le graphique, le rsultat est particulirement clair puisque la

28 seconde courbe vient se placer au-dessus de la premire, en sorte que les tudiants sont toujours reprsents sur des points diffrents de l'espace, sans laisser de vide. On procde ensuite de la mme faon pour les distracteurs suivants. La distance entre deux courbes, quelque niveau que ce soit, reprsente le nombre des tudiants qui ont fait le choix indiqu par le chiffre (1, 2, 3, 4, -, +) formant la courbe qui sajoute (la plus haute). Comme les Q.C.M. sont corriges dans l'ordre dcroissant de la moyenne des rponses, les courbes ne peuvent se croiser qu' leurs extrmits, ce qui ne drange ni la lisibilit ni la vraisemblance puisque ce sont probablement des projections ds qu'on s'carte l'excs (plus de 2 carts-types) de la moyenne gnrale. Disposer ainsi les sous-groupes de chaque choix prsente un intrt tout particulier quand on met en prsence plusieurs cultures ou subcultures, diversement valorises par le groupe. Les strates intermdiaires mettent en vidence la prsence de types de rponses qui pourraient parfaitement tre les meilleures si le groupe n'tait pas en train d'en valoriser d'autres (pour toutes sortes de raisons qu'il reste inventorier).

Examinons un graphique.

Ayant termin l'expos des grandes lignes de la mthode suivie pour obtenir des graphiques sur le comportement des sous-groupes, nous pouvons maintenant examiner les rsultats obtenus pour un certain nombre de Q.C.M. typiques. Voici les indices, le texte puis le graphique d'une question de linguistique qui prsente une distribution trs harmonieuse.
Questionnaire U0901, Q.C.M. 13, groupe Univ. de Montral-t.Fr. Nombre Courbe Moyenne cart-type Niveau Slectivit Rponse 4* 28 21% B+ 0.92 0.90 1.56 0.64 Rponse 2 17 13% B -0.16 0.73 1.13 0.40 Rponse 1 59 45% B -0.17 0.86 -2.58 0.34 Rponse 3 14 10% B -0.26 0.96 -3.53 0.38 Rponse + 10 7% P -0.89 0.80 Rponse 2 1% P

La phrase se dcoupe en groupes de mots (ou syntagmes) dots d'une fonction par rapport au verbe principal. Mais comment dcouper le syntagme ? Quels en sont les constituants immdiats ? 1 Les mots grammaticaux. 3 Les mots lexicaux. 2 Les mots phontiques. 4 Autre chose

29 C'est une Q.C.M. de thorie grammaticale qui fait appel des notions de linguistique dj pointues1. Syntagme quivaut groupe de mots ayant une 100%-| | 333333333333311111 | 333333333 11111111 fonction : la notion, sinon le | 33333 11111111 | 333333 111111 mot, est courante dans les | 33333 1111 | 333 111 grammaires. Constituant et | 1111 24 | 11111 2244 immdiat, en revanche, sont | 111 222244 50% | 222 4 rservs au linguiste. Ils | 222 44 | 222 44 relvent d'une mthode | 222 44 2 | 222 444 scientifique d'analyse . | 222 444 Comment aire sur le | 22222 444 | 22222222 444 graphique. Les plus habiles au | 222222 444 | 444444444 test (moyenne : 0.92) prennent 0% | 444444444444 +-------+-------+-------+-------+--------+--------+ le choix 4 parce qu'ils savent -3.0 -2.0 -1.0 0.0 1.0 2.0 3.0 que le syntagme est compos d'un mot lexical entour de mots grammaticaux. Ils sont 28 et nettement pris surtout dans la tranche suprieure (raideur de leur courbe, slectivit : 0.64). Vu que la Q.C.M. reoit comme niveau d'ensemble celui de sa bonne rponse valide, celle-ci est fort difficile (niveau : 1.56). Il est souvent intressant de se pencher aussi sur les scores des distracteurs. La rponse 2 a une bonne courbe, trs proche de celle de 4. Elle discrimine moins nettement (slectivit : 0.40), ce qui est heureux pour l'enseignant, qui la considrait comme fausse. Le mot phontique, en effet, est un segment dlimit par des critres de rythme. Aux yeux du groupe, toutefois, la rponse 2 est presque valide (peut-tre par le fait que le syntagme est souvent aussi un seul mot phontique, avec un accent de longueur sur sa dernire syllabe). L'intrt du traage de courbes d'apprentissage apparat aussi dans la diffrence de niveau obtenue ainsi : 1.13 donc quelque chose de presque aussi difficile que la bonne rponse (alors que la simple moyenne des habilets accuse, elle, une diffrence considrable : moyenne -0.16). La courbe de la rponse 1 est rvlatrice aussi mais un autre gard. C'est une rponse deux fois plus prise que la 4 (59 tudiants, 45%); sa moyenne est toute proche de celle
1. Voici le corrig. Rponse Autre chose. Les mots (tout court). Ou Les mots lexicaux, grammaticaux, syntaxiques, qui, le plus souvent, s'identifient des mots graphiques (dcoups par un espace typographique). Mais Les mots phontiques regroupent des syllabes et constituent une unit de rythme prosaque. Ex. : Tous les jours (1) la mme heure (2), le matre d'cole (3) ouvrait (4) les auvents (5) de sa maison (6). 2. On dcoupe des segments qui peuvent se runir immdiatement , constituant ainsi des segments tendus d'une nature distincte (les syllabes en mots, par exemple, ou les syntagmes en assertions).

30 de la 2 (-0.17) mais sa courbe place presque en dehors du tableau le niveau d'habilet requis de ses adeptes : -2.58! Ceux qui ont pris la rponse 2 ne savent pas grand-chose du syntagme, ils se doutent seulement que ce doit tre quelque chose de grammatical... Quant la rponse 3, elle offre les mmes caractristiques aggraves car elle semble impliquer une confusion entre grammaire et lexicologie.

Mme les abstentions peuvent tre valides.

Voici une autre Q.C.M. prise dans le mme test et qui se comporte de faon assez semblable1. Un code de transcription idal propose un son par lettre, et une lettre par son. O trouve-t-on un tel code ? 1 En franais. 3 En latin. 2 En anglais. 4 Autre chose.
Rponse Rponse Rponse Rponse Rponse Rponse 4* 3 1 2 + Nombre 55 42% 36 27% 18 13% 6 4% 7 5% 8 6% Courbe B+ B B B B P Moyenne 0.55 -0.17 -0.38 -0.38 -0.71 -1.23 cart-type 0.87 0.91 0.81 0.79 0.66 0.58 Niveau 0.41 -0.96 -1.70 -2.16 -3.30 Slectivit 0.71 0.64 0.70 0.60 0.44

Pas moins de cinq courbes! Mme les abstentions sont valides (-). Seuls les rejets (+) n'ont pas de courbe significative (P). La majorit a pris la bonne rponse cette fois, ce qui rend donc la Q.C.M. beaucoup moins difficile (niveau : +0.41). La rponse 3 appartient ceux qui savent combien le franais et l'anglais ont l'apanage des incohrences et des bizarreries dans les relations,

100%| 11111 | 222111111111111133333 | 222---111 33333333 44 | 22222---111 33333 44 | 22222 ----111 33 444 | 222 --- 111 33 44 | 2222 -- 11 33 44 | 22 -- 11 33 44 | -- 11 33 44 | -- 11 33 44 50%| -- 11 33 44 | -1 33 4 | 11 333 44 | 11 33 4 | 1 333 44 | 33 44 | 33 4444 | 444 | 444444 | 444444 0%+--------+--------+--------+--------+--------+--------+ -3.0 -2.0 -1.0 0.0 1.0 2.0 3.0

1. Questionnaire U0901, Q.C.M . 8. Groupes Univ. de Montral-t. Fr. 7 9 (dpartement d'tudes franaises, annes 1987, 1988 et 1989).

31 si archaques, qu'y entretiennent l'orthographe et la prononciation1. Ils supposent que le latin est plus logique, ce qui n'est pas entirement vrai, et ils ne songent pas des codes artificiels. Ceux qui optent pour l'anglais sont plus faibles encore que ceux qui croient la logique du franais; et de fait, l'anglais est pire encore dans ses divergences entre la graphie et les sonorits. Pourquoi les abstentions s'tablissent-elles un niveau intermdiaire entre 1 et 2 ? Ignorance vaut mieux que gourance . L'intrt de ces deux Q.C.M. est qu'elles ont de bonnes courbes pour chaque rponse, illustrant les strates de comptence. Chaque rponse est celle d'un sous-groupe dont le niveau est dlimit avec une certaine prcision (slectivits leves). Les distracteurs sont reprsentatifs de synthses embryonnaires ralises par les usagers avant l'apprentissage ultrieur2.

1. Corrig. Rponse Autre chose. Dans l'alphabet phontique international (A.P.I.) Ou En esperanto. Et En espagnol (depuis la rforme de l'orthographe ralise il y a une cinquantaine d'annes). En ancien franais (XIIe sicle), on a une graphie variable mais trs proche de ce qui tait prononc. Rgle En anglais, lettres et sons ne correspondent pas exactement. En franais, c'est dj mieux, mais on a deux i (i, y ), deux f (f, ph ), trois o (o , au , eau ), etc. 2. La relativit rciproque des performances individuelles et des normes linguistiques locales de lpoque est lexplication et la justification de lapproche adopte ici. Cette relativit avait t observe dj, notamment par J.-P. Benzcri et son quipe. Aprs avoir expos ses mthodes de similarit, quil juge plus puissantes que lanalyse factorielle, celui-ci se rend compte que les caractres peuvent avoir un poids diffrent, et que les individus peuvent valoriser ou non certains caractres. Il parle alors (dans lAnalyse des donnes , t.1, p.65) dune hirarchie des caractres. Hirarchie mais aussi interdpendance, comme lont soulign, dans le cas de caractres de nature linguistique, Saussure et le structuralisme ( Ibidem , p.66). Nos analyses dboucheront sur un schma qui inclut ces deux aspects, celui de la spirale (V.p.164).

32