Vous êtes sur la page 1sur 26

Cheminement du développement de la compétence

Connaissances déclaratives Connaissances procédurales et conditionnelles Connaître et Choisir Planifier
Connaissances
déclaratives
Connaissances procédurales et
conditionnelles
Connaître et
Choisir
Planifier
Élaborer
Utiliser
comprendre
Notions et vocabulaire

Objectifs d’évaluation et taxonomies

Planification de l’évaluation certificative
Planification
de
l’évaluation
certificative

Modalités et instruments d’évaluation

Activité intégratrice, épreuve synthèse et intégration des apprentissages
Activité intégratrice, épreuve synthèse
et intégration des apprentissages
Établissement d’un seuil de maîtrise x x x x Établissement d’un standard de compétences
Établissement d’un seuil de maîtrise
x
x
x
x
Établissement
d’un
standard
de
compétences

Politiques et règlements sur l’évaluation des apprentissages

Contrôle de la qualité Formation à l’évaluation des compétences
Contrôle de la qualité
Formation
à
l’évaluation
des
compétences

14.

compétence

Seuil

de

réussite,

seuil

de

maîtrise

14. compétence Seuil de réussite, seuil de maîtrise 14.1 Introduction et standard de A près avoir

14.1 Introduction

et

standard

de

Après avoir abordé dans les précédents chapitres diverses modalités d’évaluation, il est maintenant temps de s’attarder à diverses méthodes pour déterminer un seuil de réussite, de maîtrise ou de compétence.

Avant d’aborder formellement la détermination des seuils, nous reviendrons sur l’interprétation des résultats d’évaluation, qu’elle soit relative ou absolue. Cela nous permettra d’approfondir ce sujet déjà traité au chapitre 2. C’est aussi à cette section que seront décrits les différents types de seuil que nous rencontrons dans le contexte d’une évaluation à interprétation absolue.

Ensuite, nous traiterons des modèles déterministes et des modèles probabilistes qui provoquent la fixation des postulats derrière les choix faits quant à la détermination des seuils. Par la même occasion, la dimensionnalité des résultats d’évaluation sera aussi abordée.

La description des méthodes pour établir les seuils est ensuite présentée. Notons tout de suite que seules les méthodes pour établir un seuil de maîtrise et un seuil (standard) de compétence sont présentées, les méthodes de détermination d’un seuil de réussite étant de peu d’intérêt au regard des définitions des divers types de seuils. Beaucoup d’emphase sera mise sur la détermination des seuils de maîtrise, car ce sujet a été traité abondamment dans les écrits. Il s’agit aussi de méthodes qui sont à la portée de tout enseignant dans son collège ou dans sa classe.

Malheureusement, nous ne pourrons pas aller aussi loin que nous le désirons quant à la détermination d’un standard de compétence. Le sujet est encore trop chaud et a, ainsi, peu été traité d’une façon qui puisse produire des propositions vraiment utiles et efficaces. Beaucoup de développements sont à espérer à ce sujet.

Nous terminons ce chapitre en présentant la cote de rendement au collégial, dite cote R, et la cote Z. Il ne s’agit pas de résultats d’évaluation menant directement à la détermination de seuils, mais leur compréhension est importante dans le contexte de l’enseignement supérieur, car la cote R peut avoir des impacts sur nos pratiques évaluatives en classe. Elle pourrait aussi être utilisée pour déterminer un seuil de maîtrise par une des méthodes empiriques de détermination d’un seuil de maîtrise.

.Évaluation des compétences à l’enseignement supérieur (ch. 14)

Gilles Raîche 196

14.2 Interprétation de l’évaluation : absolue et relative

Dans une approche par compétences, il est important de bien saisir tous les sens associés à l’interprétation des résultats de l’évaluation. C’est pourquoi nous jugeons nécessaire de faire un rappel de notions abordées plus tôt dans ce manuel et de profiter de l’occasion pour pousser un peu plus loin la description des différentes façons d’interpréter les résultats d’évaluation en éducation.

Au départ, les utilisateurs de l’évaluation en éducation ont principalement adopté une interprétation de l’évaluation qui permettait de placer en rang, du plus faible au plus fort, les résultats d’évaluation et, par extension, les individus évalués. C’est une interprétation qualifiée traditionnellement de normative (norm-referenced). Ce qualificatif n’est toutefois pas très explicite et, pour cette raison, nous lui préférons l’appellation de relative.

L’interprétation relative des résultats d’évaluation a été la principale forme d’interprétation jusqu’à tout récemment. Qu’on pense à la façon d’attribuer les notes à l’intérieur des cours de sciences à l’université où on transformait ces notes en scores z ou encore en rangs centiles. Dans plusieurs cas, le professeur recevait la consigne très claire qu’il devait faire passer un certain nombre d’étudiants et, malheureusement, qu’il devait s’assurer qu’un certain nombre d’étudiants n’obtiennent pas la note de passage. Plusieurs d’entre nous ont aussi vécu la période où le conseiller d’orientation de notre école nous indiquait à quel rang centile nos résultats dans différentes disciplines se situaient par rapport à tous les résultats des étudiants de la province. L’interprétation était encore cette fois relative.

En fait, cette interprétation relative est tout à fait appropriée lorsqu’on désire retenir les meilleurs. C’est d’ailleurs ce qu’on fait lorsqu’on organise un concours et qu’on remet un prix. Par exemple, on ne retiendra que les meilleures productions écrites parmi les candidatures reçues au Prix du ministre de l’Éducation. C’est aussi l’utilisation qu’on fait de la cote R au collégial pour réaliser la sélection dans les universités à l’intérieur de certains programmes d’études. Une interprétation relative est toutefois peu appropriée dans la plupart des situations en éducation. C’est pourquoi on a tendance à l’abandonner.

Il serait ainsi peu approprié, dans plusieurs situations d’évaluation, de ne retenir que les moins pires candidats. Par exemple, il serait inquiétant que les candidats recommandés à la profession médicale ou à la profession infirmière soient les moins pires de leur cohorte. Cela équivaudrait à retenir ceux et celles qui oublient le moins fréquemment leurs outils dans le corps du patient suite à une chirurgie ou qui font le moins d’erreurs lors du calcul de la quantité de médicaments à injecter dans le sang. Laveault et Grégoire (1997, p. 171) donnent aussi l’exemple de l’administration des examens de conduite automobile où dans une interprétation relative les moins mauvais candidats obtiendraient leur permis de conduire.

.Évaluation des compétences à l’enseignement supérieur (ch. 14)

Gilles Raîche 197

Ces situations ont mené les chercheurs et les praticiens à rechercher une stratégie d’interprétation plus utile à la certification des étudiants. Ils ont alors développé des stratégies d’évaluation absolue des résultats d’évaluation en éducation. Ces travaux, débutés dans les années soixante principalement par Glaser (Glaser, 1963; Glaser et Klaus, 1962) et par Popham (Popham, 1980; Popham et Husek, 1969), ont mené au développement de ce que certains nomment l’évaluation critériée (criterion-referenced) ou critérielle. Même si la notion d’évaluation critériée est plus facile à communiquer, on lui a tellement donné de significations variées, souvent contradictoires, que nous lui préférons maintenant la dénomination d’évaluation à interprétation absolue.

Dans ses débuts, l’évaluation à interprétation absolue a été associée strictement à la représentativité d’un domaine de connaissances. La tâche des praticiens en évaluation consistait alors à définir de manière exhaustive un domaine de connaissances et à obtenir un échantillon au hasard des items ou des tâches représentatives de ce domaine de connaissances. Ce choix au hasard des items ou des tâches assurait une représentativité du domaine au sens probabiliste du terme. On s’assurait ainsi que des tests totalement différents, mais élaborés à partir de la même définition du domaine et par une sélection au hasard des items ou tâches à l’intérieur de ce domaine, seraient équivalents. Il ne restait qu’à fixer arbitrairement un seuil de réussite aux tests qui, à cause de la représentativité du domaine, serait le même pour tous les tests équivalents.

On a retenu de cette période les notes mythiques de passage de 50 % ou de 60 %. C’est ce que nous nommons, au plus, des seuils de réussite. Cette époque a été l’âge d’or des travaux sur la confection des tableaux de spécification. Elle a aussi été l’âge d’or du développement des taxonomies des objectifs d’apprentissage et des stratégies pour opérationnaliser, par des items ou des tâches d’examen, ces objectifs.

L’élaboration des tests et des examens à partir de cette conception de l’évaluation à interprétation absolue ne permettait toutefois pas de statuer sur le fait qu’un étudiant maîtrisait ou non un domaine de connaissances. C’est pourquoi l’interprétation absolue a évolué de façon à considérer la détermination d’un seuil de maîtrise (mastery-referenced, mastery-based, standard setting, cutoff score of masters and nonmasters). La détermination d’un seuil de maîtrise est toujours basée sur un jugement par des experts, généralement les professeurs du domaine, quant à ce qui est attendu d’un étudiant. Le seuil de maîtrise n’est alors plus fixé arbitrairement à 50 % ou à 60 %. Il est déterminé en fonction des items ou des tâches que les experts jugent qu’il est indispensable à un étudiant de réussir pour démontrer sa maîtrise.

La détermination d’un seuil de maîtrise ne présuppose pas la nécessité d’une sélection des items ou des tâches de façon aléatoire à l’intérieur du domaine de connaissances. Toutefois, il faut s’assurer que les tests soient équivalents pour rendre comparables les résultats à différents tests évaluant la maîtrise de ce domaine de connaissances par les étudiants. Il peut donc être possible que le seuil de maîtrise à un test donné soit égal à 75 % et à 87 % à un autre test. C’est de la responsabilité des praticiens de s’assurer que l’interprétation des résultats à ces tests soit comparable, par exemple en plaçant sur une

.Évaluation des compétences à l’enseignement supérieur (ch. 14)

Gilles Raîche 198

même échelle de mesure les deux tests. La détermination d’un seuil de maîtrise ne se limite donc plus à seulement s’assurer qu’un étudiant puisse réussir un certain pourcentage d’items ou de tâches représentatives d’un domaine de connaissances. La détermination d’un seuil de maîtrise a principalement connu d’importants développements dans la sélection dans les universités et les collèges, ainsi que dans les entreprises.

Il est intéressant de souligner que dans la pratique de l’évaluation en salle de classe, et fréquemment dans les évaluations nationales à grande échelle (large scale assessment), on n’applique que la détermination d’un seuil de réussite à nos examens et travaux. De plus, ce seuil de réussite n’est presque jamais représentatif d’un domaine de connaissances, pas plus que le domaine de connaissances n’a été formellement défini par des experts. C’est pourquoi, en empruntant le terme aux travaux sur les plans d’expérience, nous osons nommer ce type d’interprétation pseudo absolue.

De façon similaire, il arrive qu’un seuil de maîtrise soit déterminé sans qu’on ait formellement défini le domaine de connaissances. Nous qualifions ce type d’interprétation, encore en empruntant le terme aux travaux sur les plans d’expérience, de quasi absolue. Même ce dernier type d’interprétation est à peu près inutilisé actuellement dans nos salles de classe et dans les évaluations nationales à grande échelle.

La détermination d’un seuil de réussite ou d’un seuil de maîtrise ne permet toutefois pas de statuer sur la compétence d’un individu à occuper un emploi ou à réaliser des tâches professionnelles. Actuellement, l’engouement pour les approches par compétences en éducation exige que les évaluations effectuées dans nos institutions d’enseignement, surtout à l’enseignement supérieur, soient signifiantes et authentiques au regard des activités futures de nos étudiants. On espérerait alors déterminer des standards de performance, ou ce que nous préférons nommer des seuils ou des standards de compétence (competency-referenced, competency-based) pour ne pas interférer avec le sens donné à une performance dans ce manuel.

La détermination d’un standard de compétence est actuellement une pratique qui repose sur peu d’avancées scientifiques. À notre avis, elle est actuellement plutôt artisanale. Elle repose principalement sur la correction à partir d’échelles descriptives globales, qu’elles soient appréciatives ou vérificatives. La détermination d’un standard de compétence pose plusieurs problèmes de taille, comme on le verra plus loin dans ce chapitre lors de la description des principes utilisés aujourd’hui pour établir un standard de compétence.

Le tableau 14.1 offre une synthèse de la description que nous venons de présenter quant aux divers types d’interprétation des résultats d’évaluation en éducation.

.Évaluation des compétences à l’enseignement supérieur (ch. 14)

Gilles Raîche 199

Tableau 14.1 Interprétation des résultats d’évaluation en éducation

Interprétation

Résultat

Description

   

Référence

à

une

norme

de

groupe

(norm-

 

referenced)

 

Relative (normative, norm-referenced)

 

Rang

Du meilleur au pire, position relative

 

Modèle

généralement

probabiliste

et

 

unidimensionnalité

 
     

Note de passage artificiellement établie à 60 %, sans avoir préalablement défini un domaine de connaissances

Pseudo absolue

Seuil de réussite

 
   

Modèle probabiliste et unidimensionnalité

   

Seuil établi sans avoir vraiment échantillonné au hasard les items ou les tâches d’un domaine ou

Quasi absolue

Seuil de maîtrise

 

assuré l’équivalence entre des formes équivalentes

   

Modèle probabiliste et unidimensionnalité

   

Représentativité

du

domaine

(domain-

referenced)

 

Domaine clairement défini et items ou tâches sélectionnés au hasard

Seuil de réussite

 

Absolue

 

Seuil toutefois fixé arbitrairement, fréquemment à 60 %

(critériée,

criterion-

 

referenced)

Modèle probabiliste et unidimensionnalité

   

En

référence

à

un

niveau

de

maîtrise

du

domaine (mastery-referenced)

 

Absolue

Domaine clairement défini et items ou tâches qui ne sont pas nécessairement sélectionnés au hasard

 

Seuil de maîtrise

 
 

Seuil déterminé selon un ou des niveaux de maîtrise

Modèle probabiliste et unidimensionnalité

 

En

référence

à

un

standard

de

performance

(competency-based)

 

Seuil

(standard)

de

 

compétence

Modèle surtout déterministe actuellement (échelle descriptive globale) et fréquemment multidimensionnel

 

.Évaluation des compétences à l’enseignement supérieur (ch. 14)

Gilles Raîche 200

14.3 Modèles déterministes et probabilistes et dimensionnalité des scores

Il serait dangereux d’aborder les méthodes de détermination des seuils sans décrire certains postulats sous-jacents à ces méthodes. Ces postulats renvoient directement à des familles de modèles. Le premier de ces postulats est l’unidimensionnalité du résultat d’évaluation. Le second renvoie à la nature déterministe ou probabiliste du résultat obtenu à chacun des items d’un examen ou des tâches associées à une performance ou une production.

Premièrement, on doit statuer sur la dimensionnalité du construit qu’on désire évaluer. La plupart du temps, on émet implicitement l’hypothèse que le construit évalué est unidimensionnel. Par exemple, un examen en informatique ne mesurerait qu’une seule dimension, soit l’habileté en informatique d’un étudiant. Cette hypothèse ne signifie pas que l’examen n’évalue pas du tout d’autres habiletés, comme la compréhension en lecture, l’application d’habiletés de base en mathématiques, la propension à l’écriture ou l’aptitude à esquisser des plans. Ces dimensions doivent cependant avoir peu d’impact sur le résultat de l’étudiant. L’hypothèse d’unidimensionnalité exprime plutôt qu’on croît que l’examen mesure principalement une seule dimension, la dimension la plus importante, ici l’habileté en informatique. C’est ce que Nandakumar (1991) nomme l’unidimensionnalité essentielle.

Le postulat d’unidimensionnalité implique qu’un seul score est attribué à un résultat d’évaluation. C’est la situation qu’on retrouve actuellement la plupart du temps en évaluation des apprentissages. Cela simplifie beaucoup l’interprétation et la communication des résultats d’évaluation. On peut ainsi dire que si un étudiant obtient un score plus élevé qu’un autre étudiant, son niveau d’habileté est, lui aussi, plus élevé que celui de l’autre étudiant.

Il arrive que le résultat à une évaluation doive plutôt être considéré comme étant multidimensionnel. C’est le cas notamment avec les épreuves de personnalité utilisées pour évaluer les choix de carrière chez les étudiants. Ces épreuves reposent sur le postulat que la personnalité est constituée de plusieurs facettes (multidimensionnalité) et que le profil de ces constituantes prédispose l’étudiant à mieux réussir et à mieux se développer professionnellement à l’intérieur de métiers spécifiques.

La détermination de standards de compétences peut aussi poser le problème éventuel de l’existence de la multidimensionnalité du construit évalué. Pensons à l’évaluation de la compétence à enseigner au collégial qui serait évaluée à l’intérieur d’une épreuve synthèse administrée à la fin d’un programme de formation à l’enseignement supérieur. La compétence à enseigner exige des compétences à évaluer les apprentissages, à réaliser la prestation de cours, à rédiger du matériel de cours, à participer à des tâches administratives, etc. Il est alors difficile d’imaginer la compétence à enseigner comme étant unidimensionnelle.

.Évaluation des compétences à l’enseignement supérieur (ch. 14)

Gilles Raîche 201

Face à cette situation, la détermination de standards de compétence peut éventuellement poser de sérieux défis. Il est assez difficile d’interpréter le résultat obtenu à un construit multidimensionnel et de le communiquer clairement. En fait, on ne peut plus dire que si un étudiant obtient un score plus élevé qu’un autre étudiant, son niveau de compétence est, lui aussi, plus élevé que celui de l’autre étudiant. On peut alors être tenté de se contenter d’attribuer uniquement un succès ou un échec à l’évaluation. On abordera plus loin, de façon timide toutefois, la détermination d’un standard de compétence.

Le second postulat qui nous intéresse ici est la nature déterministe ou probabiliste du résultat obtenu à un item à un examen ou à une tâche associée à une production ou une performance. Pour pouvoir comprendre les implications de ce postulat, il faut tout d’abord accepter que les items d’un examen ou les tâches d’une production ou d’une performance soient de niveaux de difficulté variables. Bien sûr, on le comprendra, cela implique encore qu’il y a unidimensionnalité quant à l’ordonnancement du niveau de difficulté des items ou des tâches. Sans cela, il serait impossible de placer les items ou les tâches selon un ordre de difficulté.

On dit qu’un résultat est de nature déterministe (Guttman, 1944, 1952) lorsque la probabilité de réussir un item ou une tâche est nulle (p = 0) si le niveau d’habileté ou de compétence d’un étudiant est sous une valeur critère, associée au niveau de difficulté de l’item de la tâche, et que cette probabilité est certaine (p = 1) si le niveau d’habileté ou de compétence de l’étudiant est au-dessus de la valeur critère. La figure 14.1a illustre la probabilité d’obtenir une bonne réponse à trois items en fonction du niveau d’habileté d’un étudiant (thêta). Le niveau d’habileté est ici transformé en score z. On remarquera que les trois items sont en ordre de niveau de difficulté : le plus facile est celui qui est réussi par tous les étudiants dont le niveau d’habileté est égal ou supérieur à –1,00; le plus difficile est celui qui est réussi par tous les étudiants dont le niveau d’habileté est égal ou supérieur à 1,00.

Le postulat déterministe exprime l’hypothèse à l’effet que si un étudiant réussit l’item le plus difficile (b = 1,00), il réussira tous les items plus faciles (b = -1,00 et 0,00). C’est pourquoi on qualifie les modèles qui reposent sur ce postulat de déterministes. La figure 14.1a illustre cette caractéristique. Le tableau 14.2 présente aussi une illustration d’un modèle déterministe. On y remarque que lorsque les items sont placés par ordre ascendant du niveau de difficulté, tous les items sous un certain niveau de difficulté sont réussis sans exception.

Le postulat déterministe est toutefois quelque peu surréaliste la plupart du temps en éducation. Ce n’est pas parce qu’un étudiant a réussi un item ou une tâche d’un certain niveau de difficulté qu’il va réussir tous les autres plus faciles. Il peut échouer à un item ou à une tâche plus facile tout simplement suite à une erreur de sa part : il a lu les consignes trop rapidement, un événement incontrôlable s’est produit, son attention a été détournée momentanément, etc. C’est pourquoi on a proposé une explication dite probabiliste (Lord, 1952, 1980; Lord et Novick, 1968; Rasch, 1960) du succès ou de l’échec à un item ou à une tache.

.Évaluation des compétences à l’enseignement supérieur (ch. 14)

Gilles Raîche 202

La figure 14.1b illustre une conception probabiliste du succès ou de l’échec aux mêmes items, items qui ont encore le même niveau de difficulté. On y remarque que la probabilité de réussir chacun des items n’est pas limitée aux valeurs 0 et 1 : elle varie plutôt entre ces deux valeurs. La réussite de l’item est nulle lorsque le niveau d’habileté de l’étudiant est très faible et certaine lorsqu’il est très élevé. Le tableau 14.2 permet aussi de comparer les patrons de réponses prédits par les modèles de type déterministe et de type probabiliste. On remarque que dans le modèle probabiliste le patron de réponses n’implique pas qu’un étudiant qui a réussi un item d’un certain niveau de difficulté va réussir tous les autres plus faciles.

1,00 0,90 0,80 0,70 b = -1,00 0,60 0,50 b = 0,00 0,40 b =
1,00
0,90
0,80
0,70
b
= -1,00
0,60
0,50
b
= 0,00
0,40
b
= 1,00
0,30
0,20
0,10
0,00
-5,00
-3,00
-1,00
1,00
3,00
5,00
Thêta
P(u=1|Thêta, b)

14.1a

1,00 0,90 0,80 0,70 b = -1,00 0,60 0,50 b = 0,00 0,40 b =
1,00
0,90
0,80
0,70
b
= -1,00
0,60
0,50
b
= 0,00
0,40
b
= 1,00
0,30
0,20
0,10
0,00
-5,00
-3,00
-1,00
1,00
3,00
5,00
Thêta
P(u=1|Thêta, b)

14.1b

Figure 14.1 Modèles déterministes et probabilistes unidimensionnels

Tableau 14.2 Modèles déterministes et probabilistes unidimensionnels

Modèle

Patron de réponses 1

Déterministe

1 1 1 1 1 1 0 0 0 0 0 0 0 0 0 0 2 1 0 1 1 0 0 1 0 0 1 1 0 0 0 0 0

Probabiliste

1. Les items de chacun des patrons de réponses sont illustrés en plaçant les items en ordre de niveau de

difficulté : du plus facile au plus difficile.

2. 1 correspond à une bonne réponse à l’item et 0, à une mauvaise réponse.

.Évaluation des compétences à l’enseignement supérieur (ch. 14)

Gilles Raîche 203

14.4 Méthodes pour établir un seuil de maîtrise

Plusieurs méthodes ont été proposées pour établir un seuil de maîtrise. On doit noter que toutes ces méthodes ont été élaborées principalement en lien avec des items à réponse choisie et des items à réponse construite simple. Elles s’appliquent donc surtout à des examens. Les tentatives d’application à des items à réponse construite élaborée, qu’elle soit simple ou complexe, ont été peu nombreuses.

Hambleton (1980, p. 103-107) propose d’organiser ces méthodes selon trois catégories :

appréciative (judgmental), empirique (empirical) ou mixte (combination). Le tableau 14.3 présente les diverses méthodes qui ont été proposées par divers auteurs à l’intérieur de chacune de ces catégories. Nous allons décrire brièvement ce que visent ces méthodes en fonction de la catégorie à laquelle elles appartiennent. Par la suite, nous allons présenter des exemples pour chacune de ces catégories. Enfin, pour illustrer la variation des seuils selon la méthode utilisée, une comparaison de trois méthodes appréciatives sera présentée.

Tableau 14.3 Méthodes pour établir un seuil de maîtrise 1

Catégorie

Appréciative

Empirique

 

Mixte

Nedelsky (1954) Angoff (1971) Angoff modifiée (ETS, 1976) Ebel (1979) Jaeger (1978) Millman (1973) Méthode du signet (Lin, 2003) Jugement analytique (Abbon,

Livingston (1975)

 

Groupes contrastés (Zieky et Livingston, 1977) Groupes limites (Zieky et Livingston, 1977) Conséquences éducatives Block (1972) Bayésienne de Hambleton et Novick (1973) Bayésienne de Schoon, Gullion et Ferrara

Livingston (1976)

Van

der

Linden

et

mellenbergh (1977) Kriewall (1972)

 

(1978)

2003)

1 Adapté de Hambleton (1980).

14.4.1 Méthodes appréciatives

Les méthodes appréciatives exigent la participation de juges experts de la discipline ou du sujet à évaluer. Ces experts doivent évaluer, selon diverses approches, comment se comporteront les étudiants à chacun des items d’un test. Nous présenterons le détail de la procédure à suivre de quatre méthodes : celles d’Angoff (1971), de Jaeger (1978), d’Ebel (1979) et de Nedelsky (1954).

La méthode d’Angoff exige que chaque expert analyse chaque item et estime la proportion d’étudiants (p) minimalement compétents qui réussiraient l’item. La somme

.Évaluation des compétences à l’enseignement supérieur (ch. 14)

Gilles Raîche 204

des probabilités ainsi calculées à chaque item devient la valeur associée au seuil de maîtrise au test pour un étudiant minimalement compétent. La méthode d’Angoff a été améliorée à l’Educational testing service (ETS, 1976) par l’ajout de périodes (sessions) où les experts peuvent comparer leurs estimations. Après trois ou quatre périodes de comparaisons, un estimateur final de la proportion d’étudiants minimalement compétents qui réussiraient chacun des items est obtenu. On calcule alors la somme de ces probabilités aux n items pour obtenir la valeur du seuil de maîtrise au test :

Seuil

=

Angoff

n

i = 1

p

i

.

Équation 14.1

La méthode d’Angoff est fort simple à utiliser, peut facilement subir des modifications qui en améliorent la précision et est, pour ces raisons, très utilisée. Un peu plus loin dans ce chapitre, lors de la comparaison des méthodes appréciatives, on verra que c’est une des méthodes les plus appropriées à la détermination d’un seuil de maîtrise.

Jaeger a proposé une méthode encore plus simple que celle développée par Angoff. La procédure est simplifiée par rapport à la méthode d’Angoff en n’exigeant des experts que d’indiquer, pour chacun des items, si tous les étudiants minimalement compétents réussiraient ou non l’item. Comme la méthode modifiée d’Angoff, la méthode de Jaeger est itérative et exige que les experts reconsidèrent leur jugement à plusieurs reprises. Le seuil de maîtrise correspond au nombre total d’items dont la réussite serait assurée par des étudiants minimalement compétents :

Seuil

Jaeger

=

n

i = 1

x

i

,

Équation 14.2

x i prend la valeur de 1 si l’item i devrait être réussi par un étudiant minimalement compétent et la valeur de 0 dans le cas contraire. On calcule ensuite la moyenne de la valeur obtenue par chaque expert.

La méthode d’Ebel est probablement la plus complexe des méthodes appréciatives à utiliser. D’ailleurs, on semble la retrouver moins fréquemment dans les écrits. Elle présente toutefois l’avantage de susciter une analyse plus approfondie de chaque item d’un test et ainsi d’aborder la validité de contenu de chaque item.

Ebel propose de créer un tableau à double entrée où les colonnes sont constituées par différents niveaux de difficulté des items et les rangées par des niveaux de pertinence associés à chacun des items. Le tableau 14.4 est un exemple de ce type de grille où nous avons retenu trois niveaux de difficulté (d) et quatre niveaux de pertinence (p).

.Évaluation des compétences à l’enseignement supérieur (ch. 14)

Gilles Raîche 205

La tâche des experts est effectuée en trois étapes. En premier lieu, ils établissent la proportion d’étudiants (p) minimalement compétents qui réussiraient un item caractérisé par un niveau de difficulté et de pertinence spécifique. Dans une seconde étape, les experts identifient les items du test qui sont associés à chacune des cases de la grille. À la troisième et dernière étape, le seuil de maîtrise est obtenu par le calcul de la somme des proportions multipliées par le nombre d’items caractéristiques de chacune des cases :

Seuil

Ebel

=

p

d

∑∑

i =

1

j

=

1

(

n

ij

*

p

ij

)

.

Équation 14.3

Cette valeur est généralement reportée en pourcentage : au tableau 14.4, puisqu’il y a 33 items, le seuil de maîtrise du juge expert devient alors égal à 48,79 %. Comme pour la méthode d’Angoff, on calcule ensuite la moyenne de la valeur obtenue par chaque expert.

Tableau 14.4 Exemple d’application d’une grille d’appréciation utilisée avec la méthode d’Ebel (1979)

Niveau de difficulté (d)

Niveau de pertinence (p)

Facile

Intermédiaire

Difficile

Total

Essentiel

 

p

0,90 1

0,70

0,25

 
 

Items

 

01 2 , 02, 10, 29

07

09, 23, 24, 25

 

n

4

1

4

 

(

n

ij

* p

ij

)

4 * 0,90 = 3,60

0,70

1,00

5,30

Important

p

0,85

0,65

0,30

 

Items

 

04, 30

11

05, 18, 19

 

n

2

1

3

 

(

n

ij

* p

ij

)

1,70

0,65

0,90

3,25

Acceptable

p

0,70

0,50

0,20

 

Items

 

16, 17

06, 13, 22

20, 21

 

n

2

3

2

 

(

n

ij

* p

ij

)

1,40

1,50

0,40

3,30

Questionnable

p

0,60

0,50

0,15

 

Items

 

08, 15, 31, 32, 33

14

03, 12, 26, 27, 28

 
 

n

5

1

5

 

(

n

ij

* p

ij

)

3,00

0,50

0,75

4,25

 

Total

9,70

3,35

3,05

16,10

48,79 %

1. Proportion d’étudiants minimalement compétents qui réussiraient ce type d’item.

.Évaluation des compétences à l’enseignement supérieur (ch. 14)

Gilles Raîche 206

La méthode de Nedelsky (1954) est probablement la plus ancienne procédure qui ait été suggérée pour déterminer un seuil de maîtrise à un test (Jaeger, 1989, p. 495). Cette méthode présente la particularité de tenir compte de toutes les options de réponse proposées à un item à réponse choisie. Les experts doivent déterminer, pour chaque item, quelles options de réponse un étudiant minimalement compétent pourrait éliminer de ses choix de réponse. Une statistique que Nedelsky nomme le niveau de passage minimal (minimum pass level), npm, est ensuite calculée : la valeur inverse du nombre de choix de réponse restants,

npm

1

= 1

n

o

.

Équation 14.4

Le tableau 14.5 donne des exemples de la valeur du niveau minimum de passage pour des items dont le nombre de choix de réponse restants varie entre 1 et 5, des valeurs réalistes dans la pratique de l’élaboration d’items à réponse choisie.

Tableau 14.5 Niveau de passage minimal en fonction du nombre de choix de réponse restants 1

Nombre de choix de réponse restants

(1

n

o

)

Niveau de passage minimal (

1

1n

o

)

5

0,20

4

0,25

3

0,33

2

0,50

1

1,00

1. Adapté de Hambleton (1980, p. 106).

Comme pour les méthodes de Jaeger et d’Angoff, il ne reste plus qu’à calculer la somme de niveau de passage minimal de chaque item pour obtenir le seuil de maîtrise au test pour chacun des experts et, par la suite, calculer la moyenne de ces seuils.

Le seuil de maîtrise établi par chaque expert est égal à :

Seuil

=

Nedelsky

n

i = 1

npm

i

.

Équation 14.5

.Évaluation des compétences à l’enseignement supérieur (ch. 14)

Gilles Raîche 207

Nous terminons cette section sur les méthodes appréciatives en signalant que Jaeger (1989, p. 493) qualifie aussi ces méthodes d’appréciation, pour des raisons assez évidentes, de méthodes centrées sur le test. En fait, selon nous, il serait encore plus pertinent de dire que ce sont des méthodes centrées sur les items. Vous aurez aussi noté que ces méthodes sont aussi centrées sur la représentativité d’un domaine de connaissances et, par extension, sont de type probabiliste. Elles reposent aussi sur le postulat que l’habileté mesurée est unidimensionnelle.

14.4.2 Méthodes empiriques (critère externe)

Livingston (1975, 1976), van der Linden et Mellenbergh (1977), ainsi que Kriewall (1972) ont proposé des méthodes de détermination du seuil de maîtrise dites empiriques, car elles reposent sur l’observation du niveau de maîtrise en cours d’exercice. Il peut s’agir d’observations en cours d’emploi ou à une étape d’enseignement ultérieure. C’est pourquoi ces méthodes ont surtout été employées pour la sélection de personnel ou de candidats. On les utilise peu en évaluation des apprentissages, quoiqu’elles seraient de plus en plus intéressantes dans le contexte de certaines approches par compétences où on désire s’assurer que l’étudiant pourra satisfaire aux exigences des employeurs ou pourra réussir à l’université plus tard.

Nous n’aborderons pas ici ces méthodes, car elles sont actuellement difficiles à utiliser par un enseignant qui a habituellement peu de chances d’avoir accès à des informations sur les compétences de ses anciens étudiants en emploi ou sur le cheminement scolaire à un ordre d’enseignement supérieur. À titre indicatif, toutefois, nous désirons souligner qu’il est très facile d’utiliser les mêmes méthodes de détermination du seuil de maîtrise qui seront présentées à la section suivante concernant les méthodes mixtes.

14.4.3 Méthodes mixtes

Zieky et Livingston (1977 : voir Jaeger, 1989, p. 496-497) ont proposé une approche pour déterminer un seuil de maîtrise à un test qu’ils ont nommé la méthode du groupe limite. Le procédé diffère, comme celui des groupes contrastés que nous aborderons tout de suite après, principalement du fait qu’il est maintenant centré sur les étudiants plutôt que sur les items du test.

La première étape à effectuer par des experts consiste à définir, par des exemples et une description de comportements observables, trois catégories de compétences dans le domaine de connaissance à évaluer : incompétence, cas limite et compétence. Les experts identifient ensuite des étudiants qui, selon eux, sont représentatifs de ces catégories. Bien sûr, cette opération est réalisée avant d’administrer le test. Le test est alors administré uniquement aux étudiants identifiés comme étant représentatifs de la catégorie des cas limites. La moyenne du résultat obtenu au test par les étudiants identifiés comme appartenant à la catégorie des cas limites est alors utilisée en tant que seuil de maîtrise.

.Évaluation des compétences à l’enseignement supérieur (ch. 14)

Gilles Raîche 208

Zieky et Livingston (1977 : voir Jaeger, 1989, p. 497) ont aussi proposé une autre approche pour déterminer un seuil de maîtrise à un test : la méthode des groupes contrastés. Comme pour la méthode du groupe limite, la méthode des groupes contrastés est centrée sur les étudiants plutôt que sur les items d’un test. Dans cette méthode, des experts identifient encore les trois mêmes catégories d’étudiants : incompétence, cas limite et compétence. Ensuite, ils assignent les étudiants à ces trois catégories. Lorsque tous les étudiants ont été classifiés, le test est administré uniquement aux étudiants incompétents et compétents. Cette fois-ci, les cas limites ne sont pas utilisés. Le calcul du seuil de maîtrise est basé sur la distribution de probabilité du résultat obtenu au test par tous les étudiants, sauf les cas limites.

Plusieurs méthodes ont été suggérées pour établir le seuil de maîtrise à partir de cette distribution du résultat au test. Par exemple, Hambleton et Eignor (1980 : voir Jaeger, 1989, p. 497) proposent de déterminer le seuil à partir de l’intersection de la distribution du résultat dans l’échantillon appartenant à la catégorie des étudiants dits préalablement incompétents par les experts et de la distribution du résultat dans l’échantillon appartenant à la catégorie des étudiants dits compétents. Ainsi, si on suppose que les résultats au test se distribuent selon une loi normale, N (µ,σ ) , la probabilité qu’un résultat se situe entre (y - c) et (y + c), où c est une constante qui permet d’éviter que la probabilité d’obtenir le résultat x soit nulle, est égale à :

f ( x ) =

y c

+

y c

2  1  x − x   1 −    
2
1  x
x 
1
2
s
e
x
dx 
s
2
π
x

.

L’intersection entre les deux distributions de probabilité,

point où la probabilité d’un résultat est égale et, ainsi, au point où :

N ( a , s

a

)

et

f ( a ) f ( b ) = 0 .

Équation 14.6

N ( b , s

b

)

, est située au

Équation 14.7

La solution à cette fonction ne peut pas être obtenue directement et nécessite l’utilisation d’une approximation numérique. La fonction présentant un comportement assez régulier, une méthode d’analyse numérique assez simple permet d’obtenir la solution après seulement deux ou trois itérations en utilisant les moyennes des deux distributions de probabilité comme valeurs de départ. Nous avons utilisé ici la méthode de la sécante (Yakovitz et Szidarovszky, 1986, p. 199-203) où une solution approchée peut être obtenue à chaque itération par :

.Évaluation des compétences à l’enseignement supérieur (ch. 14)

x

n

=

a

f ( a

)

f ( b

)

f ( a

)

(

b

a

)

.

Gilles Raîche 209

Équation 14.8

La figure 14.2 présente un exemple où la moyenne des étudiants de la catégorie des incompétents a obtenu un résultat moyen de 60,00 avec un écart type de 10,00, tandis que la moyenne du groupe des étudiants dits compétents est égale à 80,00 avec un écart type de 7,00. Après seulement 3 itérations on obtient une valeur du seuil de maîtrise qui ne variera presque plus et qui se maintiendra à environ 70,44. Nous avons réalisé les calculs avec Excel, logiciel qui ajuste automatiquement la valeur de la constante c. On peut avoir accès à la feuille de calcul et effectuer des opérations avec d’autres valeurs à l’adresse

suivante : http://www.nobel.er.uqam.ca/r17165/ENSEIGNEMENT/FTP7550/MANUEL/Livinston_seuil.xls.

0,07 x 0,06 a 0,05 b 0,04 0,03 0,02 0,01 0,00 0,00 20,00 40,00 60,00
0,07
x
0,06
a
0,05
b
0,04
0,03
0,02
0,01
0,00
0,00
20,00
40,00
60,00
80,00
100,00
Probabilité

Habileté

N(60, 10) N(80, 7)
N(60, 10)
N(80, 7)

x1

x2

x3

a

80,00

60,00

68,60

b

60,00

68,60

72,63

f(a)

0,05

-0,04

-0,01

f(b)

-0,04

-0,01

0,01

x

68,60

72,63

70,44

Figure 14.2 Détermination du seuil de maîtrise par la méthode des groupes contrastés

.Évaluation des compétences à l’enseignement supérieur (ch. 14)

Gilles Raîche 210

14.4.4 Comparaison de diverses méthodes appréciatives

Certaines études ont été réalisées quant à l’efficacité comparée des diverses méthodes de détermination d’un seuil de maîtrise par les méthodes d’appréciation. Par exemple, Cross, Impara, Frary et Jaeger (1984) ont comparé les méthodes d’Angoff, Jaeger et Nedelsky. Ils ont demandé à des experts de déterminer un seuil à partir de ces trois méthodes. Ils leur ont aussi demandé de reconsidérer leur choix à deux autres occasions (sessions) suite à une discussion commune sur le résultat antérieur de leur travail.

L’analyse de leurs résultats, présentés au tableau 14.6, permet de constater que, pour un

même test, la valeur moyenne du seuil de maîtrise, x , varie considérablement en fonction de la méthode de détermination du seuil. Par exemple, la méthode de Jaeger amène constamment à une valeur supérieure du seuil par rapport aux méthodes d’Angoff et de Nedelsky. C’est la méthode de Nedelsky qui fournit la valeur moyenne la plus faible. Bien sûr, le pourcentage d’échecs ultérieurs au test varie en fonction du seuil de maîtrise retenu : plus le seuil est élevé, plus le pourcentage d’échecs est élevé. La détermination du seuil de maîtrise par ces trois méthodes ne doit donc pas être réalisée de manière interchangeable.

Le tableau 14.6 permet aussi de constater que la précision de la procédure de

détermination du seuil de maîtrise, telle que mesurée par le coefficient de fidélité,

constamment plus élevée avec la méthode d’Angoff. On atteint même des valeurs assez élevées à l’élémentaire aux 2 e et 3 e sessions (0,82 et 0,78).

r , est

xx

On peut aussi remarquer que le fait de recommencer la procédure de détermination du seuil de maîtrise, après discussion commune, n’augmente pas toujours beaucoup la précision de la valeur obtenue. Dans le cas de la méthode d’Angoff, d’ailleurs, il ne semble pas utile de faire de nouveau l’exercice de détermination du seuil à une 3 e session.

Selon une analyse comparative faite par Jaeger (1989, p. 498-499), la méthode d’Ebel a tendance à fournir une valeur du seuil de maîtrise plus élevée que celle fournie par la méthode d’Angoff. Selon ces résultats, il serait possible que la valeur du seuil de maîtrise calculée par la méthode d’Ebel soit comparable à celle obtenue par la méthode de Jaeger. À partir de cette analyse, nous n’avons toutefois pas d’information quant à la variabilité et à la fidélité de la méthode d’Ebel.

Suite aux résultats obtenus par Cross et collab. (1984), ainsi que par Jaeger (1989), il semble opportun de recommander l’utilisation de la méthode d’Angoff. C’est elle qui permet d’obtenir la plus grande précision après seulement deux sessions de travail de la part des experts.

.Évaluation des compétences à l’enseignement supérieur (ch. 14)

Gilles Raîche 211

Tableau 14.6 Comparaison des seuils de maîtrise obtenus à partir de trois méthodes appréciatives 1

Mathématiques

Élémentaire

Session

Session

Méthodes

1

2

3

1

2

3

Angoff

x

44,90

36,73

36,37

56,68

51,32

46,20

 

s

x

9,34

7,44

10,09

19,35

11,19

18,29

Échecs (%)

70,00

56,00

55,00

71,00

60,00

49,00

r

0,53

0,81

0,74

0,63

0,82

0,78

xx

Jaeger

x

60,33

57,00

47,00

70,91

70,67

58,67

 

s

x

13,94

12,21

14,11

10,52

13,17

16,68

Échecs (%)

93,00

88,00

76,00

95,00

95,00

75,00

r

0,52

0,63

0,53

0,38

0,61

0,62

xx

Nedelsky

x

37,87

28,41

27,65

27,54

29,54

25,42

 

s

x

19,15

10,50

12,66

21,23

18,49

14,01

Échecs (%)

57,00

42,00

39,00

17,00

19,00

14,00

r

0,45

0,62

0,53

0,38

0,38

0,51

xx

1 Adapté de Cross, Impara, Frary et Jaeger (1984, p. 120-124).

14.5 Standard de compétence

Comme nous l’avons souligné à la section traitant des seuils de réussite, des seuils de maîtrise et des standards de compétence, la détermination d’un standard de compétence est relativement récente et pose beaucoup de défis. Nous allons proposer ici quelques pistes qui sont, nous en sommes bien conscients, bien insuffisantes pour vraiment rendre compte de l’atteinte d’une compétence. Ce ne sera qu’un début.

Nous allons proposer ici une démarche de détermination d’un standard de compétence de nature déterministe, qui peut éventuellement reposer sur un construit multidimensionnel. Certains diraient que la démarche proposée est qualitative, plutôt que quantitative. C’est, en partie, vrai. Toutefois, nous espérons en arriver éventuellement à une démarche qui offre plus de potentiel quant à des opérations de nature quantitative. De plus, même si nous préconisons l’utilisation d’une correction objective, la démarche proposée pourra aussi, au besoin, être appliquée à une correction subjective.

La détermination d’un standard de compétence repose sur l’élaboration d’une échelle descriptive globale d’appréciation ou de vérification. L’utilisation d’une échelle descriptive globale de vérification permet toutefois d’appliquer une correction objective. Nous tenons à souligner que la démarche n’est toutefois pas linéaire, car on peut effectuer des allers retours et ainsi modifier ce qui a été fait à une étape antérieure.

.Évaluation des compétences à l’enseignement supérieur (ch. 14)

Gilles Raîche 212

Pour élaborer une échelle descriptive globale de vérification, il faut au départ élaborer une liste de vérification et/ou des échelles descriptives analytiques de vérification pour chacun des comportements observables qui sont des manifestations de la compétence à évaluer.

Ce matériel en main, il s’agit ensuite d’identifier des exemples (examplars de Gitomer, 1993) qui représentent les niveaux de compétence visés. Il s’agit d’une performance type, d’une copie type ou d’une production type de chacun des niveaux de la compétence. Il n’est pas toujours facile d’identifier plusieurs niveaux de compétences. C’est pourquoi on se limite souvent aux niveaux Incompétence – Compétence. On pourrait toutefois penser à la séquence suivante de niveaux : E) Incompétence – D) Compétence minimale – C) Compétence à former des pairs – B) Pensée réflexive sur la compétence – A) Développement alternatif autour de la compétence.

Il faut ensuite décrire chacun de ces niveaux de compétence pour ensuite élaborer une liste de vérification et/ou des échelles descriptives analytiques de vérification. On pourra, par la suite, élaborer une échelle descriptive globale de vérification.

Ce type de démarche de détermination d’un standard de compétence fait toutefois surgir de grands problèmes propre à notre notre système éducatif. Ainsi, il sera très difficile d’appliquer cette démarche à l’intérieur d’un cours puisque les systèmes d’information de nos institutions d’enseignement ne conservent que la note finale à un cours : toute la description est alors perdue. Un étudiant qui obtiendrait un D, pourtant compétent selon le paragraphe précédent, serait vu comme un étudiant très faible. En plus, le public et les employeurs n’auront pas accès à toutes ces informations : en quoi donc est-ce utile de déterminer un standard de compétence, si ce dernier n’est pas communiqué dans son entièreté à ses utilisateurs : étudiants, employeur ou autres institutions d’enseignement. Enfin, un standard de compétence n’aura de sens que s’il est intégré à l’ensemble de l’évaluation des compétences d’un étudiant à l’intérieur d’un programme d’études. Il ne peut s’agir d’un élément isolé dans un seul cours et il faut penser à une intégration totale des évaluations dans le programme d’études.

14.6 Cote de rendement au collégial et cote Z

Pendant de nombreuses années, les universités, à l’intérieur de certains programmes d’études contingentés, utilisaient le score z pour sélectionner les meilleurs étudiants en provenance des cégeps et collèges privés du Québec. La cote z calculée était une moyenne de tous les scores z obtenus par l’étudiant dans tous les groupes cours auxquels il avait été inscrit.

Cette méthode de sélection a été critiquée à plusieurs reprises. Le principal argument en sa défaveur était que si un étudiant généralement fort fréquentait un cégep, ou un collège privé, où il côtoyait des étudiants potentiellement forts aussi, sa cote z allait en souffrir. Il

.Évaluation des compétences à l’enseignement supérieur (ch. 14)

Gilles Raîche 213

aurait alors moins de chances d’être admis dans un programme contingenté à l’université par la suite.

Il fallait donc mettre au point une statistique qui pallierait cette lacune et qui tiendrait

ainsi compte des résultats scolaires à l’entrée du cégep ou du collège privé. C’est ce qui a amené le Service régional d’admission du Montréal métropolitain (SRAM), en collaboration avec les universités du Québec, à mettre au point la cote R (cote de

rendement au collégial).

La cote de rendement au collégial ne tient pas seulement compte de la position d’un élève

à l’intérieur de son propre groupe cours, mais aussi de la position des membres du groupe

cours par rapport à tous les élèves de la province. La formule utilisée est la suivante :

CRC = 5(Z + IFG + 5) .

Z correspond à la cote z traditionnelle :

Z =

X

X

gc

S

gc

,

Équation 14.9

Équation 14.10

où X est le résultat final de l’élève au cours,

élèves du groupe cours et cours.

est la moyenne des résultats de tous les

est l’écart type des résultats de tous les élèves du groupe

X gc

S gc

L’originalité de la cote de rendement au collégial tient à la correction effectuée par la variable IFG, soit l’indice de force du groupe, qui est calculé comme suit :

IFG =

M s

75

S

M

s

.

Équation 14.11

Dans cette formule,

secondaire de tous les élèves du groupe cours, tandis que

M

s

correspond à la moyenne de la moyenne des résultats au

est une approximation de

S

M

s

.Évaluation des compétences à l’enseignement supérieur (ch. 14)

Gilles Raîche 214

l’écart type de cette moyenne dans la population de tous les élèves du secondaire. Plus

précisément,

S

M

s

est obtenu comme suit :

S

S

S

M

s

M

s

M

s

=

10

si

M

s

>

88

=

14

si 75

<

M

s

88

=

18

si 75

M

s

Équation 14.12

L’indice de force du groupe correspond alors à une approximation d’une cote Z associée au groupe cours cette fois-ci.

À noter que les deux constantes de 5 utilisées dans l’équation 1 ne servent qu’à s’assurer que la cote de rendement variera entre 0 et 50. Il faut aussi souligner qu’au collégial, lorsqu’un élève obtient un résultat inférieur à 30 à l’intérieur d’un cours, on fixe arbitrairement son résultat à 30. C’est la pratique de la Direction responsable de l’enseignement collégial au ministère de l’Éducation du Québec.

Tableau 14.7 Exemple du calcul de la cote de rendement au collégial et comparaison avec la cote Z

Supposons un élève qui aurait obtenu un résultat de 75 % dans un cours de mathématiques. Si la moyenne des résultats des élèves du groupe cours est égale à 72 % et que l’écart type est de 10, la cote Z de l’élève serait de 0,30. Cela correspond à un élève somme toute assez moyen. Toutefois, supposons que la moyenne des moyennes des notes au secondaire des élèves de ce groupe cours est égale à 90 %, l’indice de force du groupe est alors égal à 2,5 et la cote de rendement atteint une valeur de 39, soit une valeur très élevée. De moyen, le résultat de cet élève passe à très élevé. C’est un bel exemple de l’impact que peut avoir la force du groupe sur le résultat d’un élève.

Pour terminer cette présentation de la cote de rendement au collégial, soulignons une fois de plus qu’il s’agit d’un bel exemple d’une interprétation relative des résultats d’évaluation d’un étudiant. On ne recherche pas à savoir si un étudiant atteint un seuil de maîtrise ou un standard de compétence. On ne s’intéresse qu’à sélectionner les étudiants dont la cote R est la plus élevée.

.Évaluation des compétences à l’enseignement supérieur (ch. 14)

14.7 Questions et exercices

14.8 Pistes de recherche

14.9 Lectures complémentaires

Gilles Raîche 215

Abbon, M. (2003). Standard setting for complex performance assessment: a critical examination of the analytic judgment method. Paper presented at the Canadian Society for the study in education, Halifax, NOVA SCOTIA.

Angoff, W. H. (1971). Scales, norms, and equivalent scores. Dans R. L. Thorndike (Éd.) :

Educational measurement. Washington, DC : American Council on education.

Berk, R. A. (1976). Determination of optimal cutting scores in criterion-referenced measurement. Journal of experimental education, 45, 4-9.

Berk, R. A. (1980). Criterion-referenced measurement : the state of the art. Baltimore,

MD : Johns Hopkins Press.

Berk, R. A. (1986). Performance assessment : methods and applications. Baltimore,

MD : Johns Hopkins Press.

Block, J. H. (1972). Student learning and the setting of mastery performance standards. Educational horizons, 50, 183-190.

Buckendahl, C. W., Lawrence, I., Feigenbaum, M., Jirele, T., Lewis, C. et van Essen, T. (2002). A comparison of Angoff and bookmark standard setting methods. Journal of educational measurement, 39(3), 253-263.

Chi, E. (2001). Comparing holistic and analytic scoring for performance assessment. Journal of applied measurement, 2(4), 379-388.

Cizek, G. J. (2001). Setting performance standards: concepts, methods, and perspectives. Mahwah, NJ : Lawrence Erlbaum Associates.

Clauser, B. E., Swanson, D. B. et Harik, P. (2002). Multivariate generalizabiliy analysis of the impact of training and examinee performance information on judgments made in an Angoff-style standard-setting procedure. Journal of educational measurement, 39(4), 269-290.

Comité de gestion des BEC (1996). La validation du modèle de la cote de rendement au collégial aux fins de l’admission dans les universités. Montréal, QUÉBEC : Comité de gestion des bulletins d’études collégiales.

.Évaluation des compétences à l’enseignement supérieur (ch. 14)

Gilles Raîche 216

Comité des sciences de la nature (1997). Le choix d’un collège a-t-il une influence sur la cote R finale d’un étudiant? Montréal, QUÉBEC : cégep du Vieux-Montréal.

Cross, L. H., Impara, J. C., Frary, R. B. et Jaeger, R. M. (1984). A comparison of three methods for establishing minimum standards on the National teacher examinations. Journal of educational measurement, 21(2), 1130129.

Ebel, R. L. (1979). Essential of educational measurement. Englewood Cliffs, NJ :

Prentice-Hall.

ETS (1976). Report on a study of the use of the National teacher’s examination by the state of South Carolina. Princeton, NJ : Educational testing service.

Gingras, M. (1996). La cote R réhabilitée. Montréal, QUÉBEC : cégep du Vieux- Montréal.

Gitomer, D. H. (1993). Performance assessment and educational measurement. Dans R. E. Bennett et W. C. Ward (Éds) : Construction versus choice in cognitive measurement – Issues in constructed response, performance testing, and portfolio assessment. Mahwah, NJ : Lawrence Erlbaum Associates.

Glaser, R. (1963). Instructional technology and the measurement of learning outcomes:

some questions. American psychologist, 18, 519-521.

Glaser,

R.

et

Klaus,

D. J.

(1962).

Proficiency

measurement:

assessing

human

performance.

Dans

R. M.

Gagné

(Éd.) :

Psychological

principles

in

system

development. New York, NJ : Holt, Rinehart and Winston.

Green, D. R., Trimble, C. S. et Lewis, D. M. (2003). Interpreting the results of three different standard-setting procedures. Educational measurement: issues and practice, 22(1), 22-32.

Guttman, G. (1944). A basis for scaling qualitative data. American sociological review, 9,

139-150.

Guttman, L. A. (1950). The basis for scalogram analysis. Dans S. A. Stoufer, F. A. Suchman, P. F. Lazarsfeld, S. A. Star et J. A. Clausen (Éds): Studies in social psychology in World War II : Vol. 4. Measurement and prediction. Princeton, NJ :

Princeton University Press.

Hambleton, R. K. (1980). Test score validity and standard-setting methods. Dans R. A. Berk (Éd.) : Criterion-referenced measurement : the state of the art. Baltimore, MD :

Johns Hopkins Press.

.Évaluation des compétences à l’enseignement supérieur (ch. 14)

Gilles Raîche 217

Hambleton, R. K. et Fennessy, L. M. (1994). Technical advances in credentialing examination development. Dans D. Laveault, B. D. Zumbo, M. E. Gesaroli et M. W. Boss (Éds) : Modern theories of measurement - Problems and issues. Ottawa, ONTARIO : University of Ottawa.

Hambleton, R. K. et Novick, M. R. (1973). Toward an integration of theory and method for criterion-referenced tests. Journal of educational measurement, 10, 159-170.

Hambleton, R. K. et Rogers, H. J. (1990). Advances in criterion-referenced measurement. Dans R. K. Hambleton et J. N. Zaal (Éds) : Advances in educational and psychological testing. Boston, MA : Kluwer.

Hurtz, G. M. et Auerbach, M. A. (2003). A meta-analysis of the effects of modificatons to the Angoff method on cutoff scores and judgment consensus. Educational and psychological measurement, 63(4), 584-601.

Jaeger, R. M. (1978). A proposal for setting a standard on the North Carolina high school competency test. Communication présentée au congrès annuel de la North Carolina Association for research in education tenu à Chapel Hill.

Jaeger, R. M. (1989). Certification of student competence. Dans R. L. Linn (Éd.) :

Educational measurement. New York, NY : Macmillan, 3 e édition.

Jaeger, R. M. (1994). The psychometric demands of testing for licensure and certification. Dans D. Laveault, B. D. Zumbo, M. E. Gesaroli et M. W. Boss (Éds) :

Modern theories of measurement - Problems and issues. Ottawa, ONTARIO :

University of Ottawa.

Kriewall, T. E. (1972). Aspects and applications of criterion-referenced tests. Communication présentée au congrès annuel de l’American educational research association tenu à Chicago.

Laveault, D. et Grégoire, J. (1997). Introduction aux théories des tests en sciences humaines. Paris, FRANCE : De Boeck.

Lin, J. (2003). The bookmark standard setting procedure : strengths and weekness. Paper presented at the Canadian Society for the study in education, Halifax, NOVA SCOTIA.

Livingston, S. A. (1975). A utility-based approach to the evaluation of pass/fail testing decision procedures. Report no. COPA-75-01. Princeton, NJ : Educational testing service.

Livingston, S. A. (1976). Choosing minimum passing scores by stochastic approximation techniques. Report no. COPA-76-02. Princeton, NJ : Educational testing service.

.Évaluation des compétences à l’enseignement supérieur (ch. 14)

Gilles Raîche 218

Lord, F. M. (1952). A theory of test scores. Psychometric monograph, 7.

Lord, F. M. (1980). Applications of item response theory to practical testing problems. Hillsdale, NJ : Lawrence Erlbaum Associates.

Lord, F. M. et Novick, M. R. (1968). Statistical theories of mental test scores. Reading, MA : Addison-Wesley.

Millman, J. (1973). Passing scores and test lengths for domain-referenced measures. Review of educational research, 43, 205-216.

Nandakumar, R. (1991). Traditional dimensionality vesrus essential dimensionality. Journal of educational measurement, 28(2), 99-117.

Nedelsky, L. (1954). Absolute grading standards for objective tests. Educational and psychological measurement, 14, 3-19.

Popham, W. J. (1980). Domain specification strategies. Dans R. A, Berk (Éd.) :

Criterion-referenced measurement - The state of the art. Baltimore, MD : Johns Hopkins Press.

Popham, W. J. et Husek, T. R. (1969). Implicatons of criterion-referenced measurement. Journal of educational measurement, 6, 1-9.

Rasch, G. (1960). Probabilistic models for some intelligence and attainment tests. Chicago : University of Chicago Press.

Schoon, C. G., Gullion, C. M. et Ferrara, P. (1978). Credentiating examinations, bayesian statistics, and the determination of passing points. Communication présentée au congrès annuel de l’American psychological association tenu à Toronto.

Shermis, M. D. et Daniels, K. E. (2004). Norming and scaling for automated essay scoring. Dans M. D. Shermis et J. C. Burstein (Éds) : Automated essay scoring - A cross-disciplinary perspective. Mahwah, NJ : Lawrence Erlbaum Associates.

van der Linden, W. J. et Mellenbergh, G. J. (1977). Optimal cutting scores using a linear loss function. Applied psychological measurement, 1, 593-599.

Wang, N. (2003). Use of the Rasch IRT model in standard setting: an item-mapping method. Journal of educational measurement, 40(3), 231-253.

Wiggins, G. (1996). Anchoring assessment with examplars: why students and teachers need models. Gifted children quaterley, 40(2), 66-69.

.Évaluation des compétences à l’enseignement supérieur (ch. 14)

Gilles Raîche 219

Wilson, M. (2004). Constructing measures : an item response modeling approach. Mahwah, NJ : Lawrence Erlbaum Associates.

Yakowitz, S. et Szidarovszky, F. (1986). An introduction to numerical computation. New York, NY : Macmillan.

Zieky, M. J. et Livingston, S. A. (1977). Manual for setting standards on the basic skills assessment tests. Princeton, NJ : Educational testing service.