Vous êtes sur la page 1sur 56

Cadre europen commun de rfrence pour les langues :

Apprendre, Enseigner, Evaluer

Evaluation de comptences en langues


et conception de tests

Prpar sous la direction de


M. Milanovic (A.L.T.E.)

Division des Politiques Linguistiques


Strasbourg, octobre 2002

-i-

TABLE DES MATIRES

1.0

2.0

INTRODUCTION GNRALE ................................................................................

1.1
1.2
1.3
1.4

Le but de ce guide .............................................................................................


Une approche communicative de la langue.......................................................
Un modle pour l'valuation de la langue .........................................................
Autres paramtres pour l'laboration de tests de langue ...................................

1
1
2
2

PROCESSUS D'LABORATION DE TESTS ..........................................................

2.1
2.2

La nature cyclique du processus d'laboration des tests ...................................


La dfinition des spcifications .........................................................................

4
6

2.2.1
2.2.2

6
7

2.3

Le processus d'laboration ................................................................................. 11


2.3.1
2.3.2

Appel d'offres et commande................................................................. 13


Contrle/rvision et mise en forme ...................................................... 17

2.4

Pr-test et exprimentation ............................................................................... 19

2.5

Elaboration des tests .......................................................................................... 20

2.6

Problmatique de la production des items......................................................... 22


2.6.1
2.6.2
2.6.3
2.6.4
2.6.5

3.0

Variables et contraintes ........................................................................


Problmes de contenu, de technique et de procdure ..........................

Planification de la tche .......................................................................


Choix du texte ......................................................................................
Choix des types d'items ........................................................................
Consignes .............................................................................................
Grilles de correction, barmes et chelles de notation.........................

22
23
26
27
29

VALUATION DES TESTS ....................................................................................... 31

Rfrences et autres sources ......................................................................................................... 33


Annexes :

Annexe 1
Annexe 2

Analyse d'items ....................................................................... 35


Glossaire .................................................................................. 43

1
1.0

INTRODUCTION GNRALE

1.1

Le but de ce guide

Ce guide a t conu pour aider tous ceux qui sont engags dans la prparation de tests de langue et,
notamment, s'ils veulent utiliser le Cadre europen commun de rfrence pour les langues : Apprendre,
Enseigner, Evaluer du Conseil de l'Europe. On a voulu faire de ce guide un outil appropri, non seulement
pour les laborateurs d'examens en situation officielle comme celle de prparation d'preuves nationales,
mais aussi pour les professeurs qui prparent des tests pour leur classe. Trouver un quilibre qui rponde aux
besoins de ces deux groupes a constitu un vritable dfi; c'est pourquoi nous encourageons les lecteurs qui
prparent du matriel d'valuation examiner et prendre en compte les conseils prodigus dans ce guide,
en fonction de leur propre but ainsi que du temps et des moyens dont ils disposent. On a plus mis l'accent sur
les questions de procdures que sur celles de produit, persuads que des principes clairs et des dmarches
bien planifies dbouchent sur des produits bien conus et non l'inverse.
1.2

Une approche communicative de la langue

De tout temps, les techniques d'valuation ont reflt la vision que l'on avait de la langue et de son usage
un moment donn. Ce que l'on teste, et le genre de tche ou de type d'item choisis pour tester, rvleront
l'influence de la pense dominante sur ce qu'est la capacit langagire et ce que nous faisons prcisment
quand nous utilisons la langue dans son usage quotidien. L'valuation de la langue comme outil de
communication s'est dveloppe partir d'un dplacement de la thorie de l'enseignement/apprentissage des
langues et de la mthodologie, d'une centration sur la structure vers une accentuation de l'importance du
discours, de la langue telle qu'elle est utilise.
Le Cadre de rfrence du Conseil de l'Europe est le dveloppement normal des travaux antrieurs du
Conseil. Il se fonde sur un certain nombre de recherches dont l'influence a t mondiale et qui ont t
adoptes dans les mtiers de l'enseignement des langues. On pense, bien videmment, au Threshold Level
(van Eck, 1975; van Eck et Trim, 1990), dmonstration de l'approche communicative dont l'effet sur la
pratique de classe et l'valuation a t tendu et durable. La Prface de l'dition de 1980 du Threshold Level
English recommande une approche fonctionnelle de l'enseignement de la langue afin de "transformer un
enseignement de la langue d'une strilit scolastique, domin par la grammaire, en un mdium vital pour un
change plus libre des personnes et des ides"; cette approche met l'accent sur la langue telle qu'elle est
utilise pour rpondre aux besoins quotidiens d'un adulte vivant dans un pays tranger.
Le Threshold Level ou, en franais, le Niveau seuil, n'est en aucune faon un cours, un programme ou une
liste exhaustive d'lments linguistiques qu'un apprenant devrait savoir un certain niveau; c'est une
dclaration d'objectifs ou encore une tentative "pour dfinir comment un apprenant devrait tre capable
d'utiliser une langue afin de se conduire de manire autonome dans un pays o cette langue est le moyen de
communication de la vie quotidienne". Cela signifie que l'on doit donner aux apprenants non seulement les
moyens de faire des choses comme acheter du lait ou faire rparer sa voiture mais aussi changer des
informations et des opinions avec autrui, parler de ce que l'on aime ou pas et raconter ses expriences.
L'accent est nettement mis sur la langue comme outil social ou comme moyen de permettre aux gens
d'interagir les uns avec les autres. Le point de dpart est l'ventail des situations dans lesquelles se trouvent
couramment des apprenants dans un pays tranger; le but est de les rendre capables d'utiliser la langue pour
faire ce qu'il est convenable de faire dans ces situations.

2
1.3

Un modle pour l'valuation de la langue

Depuis la publication initiale du Threshold Level, un certain nombre de modles de comptence


communicative ont t proposs. Le plus connu est peut-tre celui de Canale et Swain (1981) qui divise la
comptence communicative en quatre composantes: grammaticale, sociolinguistique, discursive et
stratgique. la fin des annes 80, Bachman (1990) a expos sa premire approche synthtique de la
comptence langagire (Communicative Language Ability - CLA) inspire, de manire vidente, des travaux
de Canale et Swain. Il postulait que la comptence langagire recouvre le savoir linguistique ou comptence,
combin la capacit de le mettre en uvre de manire approprie.
Pour l'valuateur en langues, un modle de comptence linguistique ou de comptence langagire est
important parce qu'il fournit une base utile la dfinition du champ de comptence valuer. Il est
ncessaire d'avoir tout d'abord une ide claire de ce que l'on teste pour dcider si un test est valide ou pas
(c'est--dire s'il value vraiment ce qu'il prtend valuer); cela permet galement de concevoir des outils pour
le rdacteur d'items ou l'laborateur de tests tels que des listes de contrle du contenu du test. Le but gnral
de toute forme d'valuation en langue est d'avoir un chantillon des comptences langagires des candidats
qui permette d'obtenir une reprsentation raliste de leur niveau de capacit utiliser la langue en situation
hors test.
Le Cadre de rfrence actuel contient galement un modle de comptence langagire. On peut le prsenter
essentiellement comme une dfinition de la comptence communicative: la comptence communicative
(sociolinguistique, linguistique, pragmatique) est une forme de comptence gnrale qui conduit des
activits langagires (interaction, production, rception, mdiation) mettant en uvre des tches, des textes
(ou discours) et des stratgies dans quatre domaines principaux (public, professionnel, ducationnel,
personnel) o se prsentent des situations caractrises par des lieux, des organismes (ou institutions) qui
structurent l'interaction, des acteurs avec des rles dfinis, des objets (anims et inanims) qui constituent
l'environnement, des vnements qui y ont lieu et des oprations qui y sont excutes (voir Chapitre 4 du
Cadre de rfrence).
Le Cadre de rfrence offre aux concepteurs de tests de langue, et tous ceux qui sont engags dans la
production d'examens, la possibilit d'aller d'un commun accord vers un systme commun d'valuation en
langues que justifient les valeurs fondamentales du Conseil de l'Europe dans la conception qu'il a de la
citoyennet europenne, tout en prservant la culture de l'valuation de chacun et leurs traditions dans ce
domaine et en mettant en valeur tout ce qui, dans leur pratique, rejoint les pratiques professionnelles
reconnues. Ce guide s'intresse directement la tche immdiate qui attend les examinateurs, savoir la
cration d'une gamme tendue de tests qui aient un lieu et une identit selon le Cadre de rfrence tout en se
conformant aux normes europennes et internationales de l'valuation.
1.4

Autres paramtres pour l'laboration de tests de langue

Il est important de souligner qu'il n'y a pas obligatoirement de rponse juste dans l'absolu en termes
d'valuation en langue. Aucun mode d'valuation n'est intrinsquement meilleur ou pire qu'un autre. Le
choix d'un mode d'valuation dpend d'un certain nombre de facteurs et se fait la lumire des rponses un
certain nombre de questions. Par exemple:
-

le test est-il un test de comptence gnrale ou value-t-il surtout ce qui a t appris en cours ?
quelle est sa dure ?
quel est le niveau de performance attendu ?
a-t-il pour but de classer les lves ?
les rsultats serviront-ils pour faire un diagnostic ?

3
On traitera certaines de ces questions ultrieurement dans ce guide.
Si l'on peut dire du Cadre de rfrence qu'il fournit l'approche thorique ncessaire la conception et la
production de tests, ce guide a pour but de proposer en rsum un tat synthtique des pratiques de
production des tests que tout concepteur doit identifier afin de produire un "bon" test au sens le plus large du
terme. Le Cadre de rfrence se focalise sur des questions de contenu; ce guide se concentre plus sur les
procdures mises en uvre pour la conception et la production de tests en utilisant les donnes du Cadre de
rfrence comme point de dpart. Rgulirement dans ce guide nous renverrons le lecteur certaines parties
du Cadre pour plus de dtails. En rgle gnrale, les examinateurs trouveront que les Chapitres 3 (Niveaux
communs de rfrence), 4 (Lutilisation de la langue et lapprenant/utilisateur), 7 (Les tches et leur rle
dans lenseignement des langues) et 9 (Evaluation) sont particulirement utiles.
En dfinitive, le but du producteur de test est d'assortir la mthode la plus approprie l'objectif dclar d'un
test donn. Pour ce faire, il faut essayer d'quilibrer les qualits essentielles d'un test, savoir: fidlit,
validit, faisabilit et impact. La faon d'allier ces qualits dpendra des raisons qu'il y a produire tel ou tel
test. Pour un concours officiel, par exemple, dont les rsultats ont une importance dcisive sur la vie des
gens, fidlit et validit seront les critres les plus importants. En revanche, s'il s'agit de l'valuation en
classe, on pensera la faisabilit et l'impact. Ce qui compte, c'est que le rdacteur du test soit pleinement
inform des variables que l'on peut manipuler lors de l'laboration du test et prenne les dcisions de manire
claire et rationnelle.
Les utilisateurs du Guide qui sont engags dans la conception de tests envisageront et expliciteront selon le
cas:
-

jusqu'o les approches de l'valuation en langue actuellement en vigueur dans leur systme
refltent une faon particulire de considrer la langue et son usage
jusqu'o ces approches sont centres sur le savoir linguistique et/ou sur la performance
communicative
dans quelle mesure ces approches ont un lien avec un modle explicite de capacit langagire
jusqu'o la spcification du Threshold ou du Niveau seuil, ainsi que celle du Cadre de rfrence
europen, offrent une approche thorique pour la conception et la production de tests
quelle est l'importance relative, dans la conception des tests de langue, de facteurs tels que la
culture pdagogique, l'impact social, la disponibilit des ressources, etc.
ce que pourrait tre un quilibre appropri des qualits essentielles des tests que sont la fidlit, la
validit, la faisabilit et l'impact.

4
2.0

PROCESSUS D'LABORATION DE TESTS

Il est utile et important d'envisager le processus d'laboration de tests comme cyclique et ritr. Cela
suppose que l'on rinjecte dans la dmarche la connaissance et l'exprience acquises aux diffrentes tapes
de la procdure pour la rvaluation continue d'un test donn et chacune de ses passations.
La Figure 1 est une tentative de schmatisation du processus qui montre sur un schma directeur les tapes
parcourir partir de la perception initiale du besoin d'un nouveau test.
perception du besoin d'un nouveau test
planification
conception
laboration
oprationalisation
contrle
Ces tapes ne sont pas toutes toujours ncessaires; qu'elles soient toutes respectes ou pas, elles relvent
galement d'une dcision rationnelle fonde sur les exigences particulires de la situation d'laboration du
test.
2.1

La nature cyclique du processus d'laboration des tests


La Figure 1 met en vidence la nature cyclique du processus d'laboration

Point de dpart

Besoin d'un nouveau test


Planification
Conception

Spcifications initiales
Rvision
Phase d'laboration
Exprimentation
Analyse
Evaluation/
rajustement
EXAMEN
(rel
ou en grandeur
nature)

Evaluation

Oprationalisation

Contrle
Evaluation/
Rajustement
Un modle du processus d'laboration d'un test
Figure 1 : Modle de dveloppement d'un test

5
Une fois reconnu le besoin d'un nouveau test, le modle suppose une phase de planification durant laquelle
on recueille les donnes sur les demandes prcises des candidats. En situation de classe, cette tape peut se
fonder sur la connaissance personnelle directe que l'on a des tudiants et du programme d'enseignement.
Dans des contextes plus larges, on peut collecter l'information l'aide de questionnaires, de consultation
officielle et ainsi de suite. Quelle que soit la situation, on visera se faire une image claire de ce que sont
vraisemblablement les candidats potentiels et savoir qui seront les utilisateurs des rsultats.
La phase de planification est suivie d'une phase de conception durant laquelle on essaiera de dfinir les
spcifications initiales d'un test convenable pour les candidats. Les spcifications dcrivent et commentent la
forme du test et tous les aspects de son contenu ainsi que toutes les variables et contraintes qui l'affectent.
Les premires dcisions peuvent tre prises ici en ce qui concerne la longueur de chaque partie du test, les
types d'items choisis et la gamme des sujets utilisables. C'est aussi ce niveau qu'il faut rdiger des
chantillons et les soumettre aux utilisateurs concerns pour ractions et commentaires. Mme pour un test
de classe, il est toujours bon de soumettre des chantillons un(e) collgue car une raction extrieure peut
constituer un feed-back inestimable pour le processus d'laboration.
Pendant la phase d'laboration, on exprimentera ou prtestera l'chantillon. Cela signifie qu'on fera une
simulation dans les conditions de l'examen avec des tudiants semblables aux candidats potentiels (en termes
d'ge, de formation, etc.) et au niveau appropri. Cette phase peut entraner l'analyse et l'interprtation des
donnes fournies par les notes des candidats; on peut aussi recueillir des informations utiles l'aide de
questionnaires proposs aux candidats et leurs enseignants, de comptes rendus ainsi que d'enregistrements
audio et vido et d'observations. On peut alors prendre des dcisions quant au niveau de difficult du
matriel et son adquation pour une utilisation dans l'examen dfinitif. L'exprimentation permet aussi de
mettre en place un barme et une chelle de notation assez complets. Mme une exprimentation petite
chelle de tests au niveau d'un tablissement scolaire ou d'une classe et qui n'utiliserait qu'une poigne de
candidats peut se rvler informative sur des points tels que la dure des preuves individuelles, la clart des
consignes, l'espace laiss pour la rponse, etc. ce niveau, on peut encore apporter des modifications
radicales aux spcifications, aux types d'items utiliss ou tout autre aspect du test qui pose problme.
Une fois acheves les phases de planification, conception et laboration, les spcifications trouvent leur
forme dfinitive, on rdige le contenu et l'on met le test en forme. On met alors en place la procdure de
passation et de notation du test. C'est la phase d'oprationalisation durant laquelle le test est administr aux
candidats (Les diffrentes tapes de cette phase sont prsentes en dtail dans la Figure 3; la procdure que
nous dcrivons trouve le mieux sa place dans les examens scolaires de fin d'anne, de fin de cours ailleurs et
pour ceux administrs sur une grande chelle).
Lorsque le test est oprationnel, la procdure d'laboration entre dans sa phase de contrle ou rvision
pendant laquelle il faut soigneusement vrifier les rsultats de la passation de l'examen. Cela suppose que
l'on ait un feed-back rgulier de la part des candidats et des enseignants des coles dans lesquelles l'examen
est pass; il faut aussi analyser la performance des candidats. On utilise ces donnes pour valuer l'efficacit
du test et envisager sa rvision, le cas chant. On peut conduire une recherche sur divers aspects de la
performance du candidat et de l'examinateur afin de voir quelles amliorations apporter au test ou son
administration. Il est probable que le test doive tre rvis ultrieurement et toute rvision majeure suppose
que l'on revienne la case dpart du cycle d'laboration.

Les utilisateurs du Guide qui sont engags dans la conception de tests envisageront et expliciteront
selon le cas:
-

2.2

si leur situation exige un test entirement nouveau ou si des rvisions appropries peuvent
tre apportes un test existant
qui sont les candidats potentiels, quel est leur niveau et quelles sont leurs demandes
comment les contraintes et variables locales affecteront le contenu et la forme du test
comment seront raliss une exprimentation ou un pr-test adquats pendant la phase
d'laboration
quelles seront les mthodes les plus appropries pour le contrle et l'valuation long terme
de l'examen
qui seront les utilisateurs des rsultats de l'examen et comment seront interprts les
rsultats.

La dfinition des spcifications

Lorsqu'on a planifi les spcifications d'un test nouveau (ou rvis), l'objectif sous-jacent est toujours de
produire un test qui
-

soit valide (c'est--dire qui propose une dmarche adquate pour mesurer ce qu'il prtend mesurer);
soit fidle (c'est--dire que les rsultats obtenus sont aussi exempts que possible d'erreurs de
mesure);
ait un impact (c'est--dire qui ait un effet positif sur les individus et la pratique de classe);
soit faisable (c'est--dire que ses exigences en matire de ressources sur le concepteur et
l'administrateur soient compatibles avec les ressources disponibles).

Il faut garder ces facteurs constamment l'esprit et maintenir entre eux un quilibre acceptable.
La premire tape de la planification suppose que l'on se mette en situation d'analyse. Cela signifie que l'on
considre le besoin de test dans le contexte des influences diverses qui affecteront sa forme dfinitive; le but
de l'analyse est d'identifier les principales contraintes et variables pertinentes pour le projet. Elles
concernent tous les aspects de ce que le test doit faire afin d'atteindre son but, ainsi que les restrictions
imposes au test par les circonstances dans lesquelles il sera utilis.
2.2.1

Variables et contraintes

En gros, on distingue deux sortes de variables que l'on peut qualifier de professionnelles et matrielles.
Les variables professionnelles se rapportent ce qu'il faut prcisment valuer et comprennent:
-

les situations de communication relles dans lesquelles les candidats auront besoin de la langue;
le niveau de performance attendu dans ces situations;
les vnements propres ces situations relles qui doivent se retrouver dans le contexte
l'valuation;
les informations donner aux utilisateurs du test avant et aprs.

Les variables matrielles sont les restrictions que font peser sur l'valuation :

de

7
-

le nombre de salles et le personnel disponible;


le nombre de candidats;
la dure du test;
la disponibilit d'examinateurs qualifis comptents;
le type d'preuves qu'il semble bon de proposer;
le moyen choisi pour communiquer les rsultats aux candidats;
les procdures de contrle de qualit adoptes.

Les contraintes peuvent tre:


-

l'acceptabilit de l'examen pour tous les utilisateurs: les candidats, leurs parents, les enseignants,
les directeurs d'cole, etc.
la faon dont l'examen s'accorde avec le systme en vigueur en termes d'objectifs de programme et
de pratique de classe;
le niveau de difficult requis;
les attentes extrieures de ce qu'un examen de ce type doit tre;
la disponibilit des ressources pour l'laboration du test, sa passation et la publication des rsultats.

Cette liste n'est en aucune faon ordonne ni exhaustive. Elle a ici pour but de souligner qu'une bonne
comprhension des variables et des contraintes est un pralable ncessaire une conception de test adquate
et raisonnable. Le Chapitre 4 du Cadre de rfrence expose une vue d'ensemble utile des nombreuses
caractristiques de l'utilisation de la langue et de l'utilisateur/apprenant qu'il faudra prendre en considration
ce moment de la conception du test. Elles comprennent le contexte de l'utilisation de la langue (la situation
de communication -Partie 4.1), la nature des tches et objectifs de communication (4.3) et le choix des
thmes ou sujets (4.2). Tandis que le contenu des Parties 4.1 4.4 du Cadre de rfrence facilitera l'analyse
situationnelle et l'identification de certaines des variables professionnelles qui s'y appliquent, les Parties 4.5,
4.6 et le Chapitre 5 posent des bases utiles pour dfinir plus en dtail les caractristiques du contenu d'un test
afin de dfinir des spcifications.
Comme le montre la Figure 1, une fois les spcifications bauches, on peut faire un premier essai de
conception d'un test et de production d'un chantillon. On peut alors l'exprimenter et en analyser les
rsultats. la lumire de l'exprimentation, il se peut que l'on rejette certains types d'items ou de supports et
que l'on change la longueur des diffrentes parties ou du mode d'administration. En consquence, les
spcifications pourront subir plusieurs rvisions avant de trouver leur forme dfinitive.
Il peut arriver (dans le cas d'un examen scolaire d'tablissement, par exemple) que la mme personne soit
responsable la fois de la dfinition des spcifications et de la rdaction du matriel pour l'examen.
Nanmoins, il doit aussi rester possible pour ceux qui n'ont particip ni la conception ni l'laboration du
test d'obtenir des informations dtailles son sujet au moyen des spcifications. Certains auront besoin de
cette information afin de dcider s'ils prsentent des candidats (par exemple, dans le cas d'un test disponible
pour tous). D'autres peuvent en avoir besoin pour rdiger des items pour le test; un rdacteur d'items qui n'a
jamais produit d'items auparavant pour un test donn et qui n'a pas particip aux diffrentes tapes de son
laboration a besoin d'un bon descriptif pour le guider; on doit s'attacher ce que les spcifications
rpondent ce besoin.
2.2.2

Problmes de contenu, de technique et de procdures

Les spcifications dfinitives (le cahier des charges, en quelque sorte) doivent fournir des informations
dtailles sur chaque partie du test ou chaque preuve, notamment au sujet d'au moins trois aspects du test. Il
s'agit des caractristiques du contenu du test (ou ce qui est dans le test), des caractristiques techniques

8
(telles que le nombre d'items, de parties, etc.) et de la procdure (o le test sera pass et comment il sera
not).
On trouvera ci-dessous des exemples de ces trois aspects.
Contenu
-

le but des tches; par exemple, prouver la comprhension dtaille d'un texte, etc. (voir Parties 4.4 et
4.5);
ce qui est test; par exemple, appliquer des rgles de grammaire (voir Chapitre 5);
les types de textes choisis comme supports (voir Partie 4.6);
l'origine des textes (voir Parties 4.1 et 4.6);
quelque information sur les centres d'intrt exploitables (voir Parties 4.1 et 4.2);
les types de dclencheurs des preuves de production orale (voir Parties 4.3 et 4.4);
les types de tches demandes pour les preuves de production crite (voir Parties 4.3 et 4.4);

Technique
-

dure du test;
nombre de parties;
nombre d'items dans chaque partie;
types d'items dans chaque partie;
nombre total de textes supports et longueur (en nombre de mots) de ces textes;
prsentation et dure des tches;
note attribue chaque item et note totale;
pondration, coefficients;
si la correction est assure par des examinateurs, dtail de l'laboration des barmes et de
l'organisation des quipes de correction;
critres de correction des productions orale et crite;
nombre d'examinateurs et de correcteurs, par exemple la double correction est-elle automatique ?;
dtail des procdures de notation et publication des rsultats.

Procdure
-

dates et lieux des sessions;


disponibilit d'annales ou de spcimens d'preuves (preuves banalises);
nombre approximatif d'heures d'enseignement/apprentissage ncessaires la prparation du test.

Toutes ces informations aident les utilisateurs des spcifications se faire une ide claire de la nature du
matriel.
Le Chapitre 4 du Cadre de rfrence fournit un ensemble de rfrences particulirement utiles auxquelles on
peut confronter, pour clarification, les traits caractristiques de tout test en cours de production. Pour ce faire,
il faut d'abord rdiger un rsum schmatique du test sur lequel on travaille. La Figure 2 montre comment on
peut prsenter, sous forme de tableau, l'information relative un examen compos de 5 parties (ou
"preuves"). Pour chaque partie de l'examen sont rsums les objectifs, les supports et la nature de la rponse
attendue.

9
Premire preuve Objectifs

Supports

- Comprendre le lexique
et les structures
- Comprendre
globalement un texte, sa
fonction et l'ide
gnrale
- Comprendre les points
essentiels malgr des
termes inconnus
- Slectionner des
informations
particulires dans un
texte crit
- Reconnatre une
opinion ou un point de
vue clairement exprims
- Prouver la
comprhension dtaille
d'un texte

Partie A - Phrases isoles

Forme

Comprhension
crite

Partie B - 3 ou 4 textes
crits reprsentant des
types discursifs
diffrents: narratif,
descriptif, informatif,
argumentatif, etc.

Partie A - 25 items
discrets sous forme de
QCM 4 options
Partie B - 15 QCM 4
options dans 3 ou 4 textes

Origine: textes littraires


de fiction ou autre,
journaux, magazines,
publicits, prospectus,
etc.

Deuxime preuve
Objectifs

Supports

Forme

- Utiliser naturellement
la langue qui convient
pour rpondre des
stimuli thmatiques ou
situationnels varis

4 stimuli situationnels ou
questions sur des sujets
quotidiens

Deux tches crites sur un


choix de 5; longueur
exige entre 120 et 180
mots chacune; types de
discours: lettres,
descriptions, rcits

Objectifs

Supports

Forme

- Utiliser la langue au
niveau du mot ou de la
phrase, y compris
l'usage de mots et de
formes structurellement
corrects et adquats;
reformulations;
drivation lexicale
- Rsumer une
information dans un
texte correct et de
longueur approprie

- Exercices en contexte et
hors contexte

-Production crite
(composition)

Troisime preuve
Utilisation de la
langue
- Textes lacunaires
- Transformations
- Drivation
- Supports visuels (cartes, - Construction de phrases
diagrammes, etc.) pour
- Ecrit guid
guider des questions
crites

10
Quatrime preuve
Objectifs

Supports

Forme

Comprhension
orale
- Comprendre
globalement un texte, sa
fonction et l'ide
gnrale
- Comprendre les points
essentiels malgr des
termes inconnus
- Slectionner des
informations
particulires dans un
discours oral
- Reconnatre l'humeur
et l'attitude quand ils
sont clairement
exprims
- Comprendre des
points de dtail dans un
discours oral.
Cinquime
preuve

3 ou 4 documents
- 3 ou 4 tches pour un
enregistrs authentiques ou total d'environ 30
fabriqus
questions
Origine: informations,
actualits, conversations,
exposs, annonces
publiques, etc.

- les types de tches


peuvent inclure des
QCM, des textes
lacunaires, de la prise de
notes, des vrai/faux,
oui/non, etc.

Objectifs

Supports

Forme

Participer une
conversation en langue
cible sur des thmes
allant du quotidien des
notions plus abstraites;
le faire avec aisance,
des interactions
appropries, une
prononciation correcte
au niveau du mot et de
la phrase, un
vocabulaire juste.

Stimuli visuels ou textuels


incluant des photographies
et des textes courts. Les
dclencheurs peuvent avoir
un lien avec des textes lus
facultativement.

Une conversation en 3
parties, sur un sujet
donn, entre le candidat
et l'examinateur:

Production orale

1) Parler d'une
photographie
2) Parler d'un texte court
3) Avoir un change.
L'entretien peut avoir
lieu seul(e) avec le
professeur ou 2, ou en
groupes de 3.

Figure 2: Tableau d'informations sur un examen

11

Les utilisateurs du Guide qui sont engags dans la rdaction de spcifications envisageront et
expliciteront selon le cas:
-

2.3

quels sont le type et le niveau des besoins de performance langagire valuer


quels sont les types de tches qui permettent d'y parvenir
quelles sont les ressources matrielles disponibles, par exemple locaux, personnel, etc.
quels problmes politiques, sociaux et/ou conomiques risquent d'influencer la production du
test
qui devrait-on demander de dfinir les spcifications des tests et d'laborer les chantillons,
par exemple en termes d'expertise, d'influence, d'autorit, etc.
comment seront dcrits dans les spcifications les dtails relatifs au contenu, la technique
et la procdure de passation
quelle sorte d'information sur les tests doit tre fournie aux usagers et sous quelle forme, par
exemple la publication des spcifications.

Le processus d'laboration

Les spcifications fournissent une dfinition de ce qui doit tre produit pour un examen. Cette partie met
l'accent sur le processus de production tel qu'il se droule, gnralement en cinq tapes:
-

appel d'offre, commande


contrle/rvision et mise en forme
exprimentation ou pr-test
analyse et mise en banque du matriel
production des preuves proprement dites

12
La Figure 3 ci-aprs illustre ce processus de production, mais le niveau de formalisation de ces tapes dans
un contexte donn dpendra du public cible et de l'utilisation des rsultats de l'valuation.

Appel d'offres pour


l'laboration d'preuves

Rvision et
mise en forme

Elaboration de
l'exprimentation

Exprimentation

Rapport
d'exprimentation

Elaboration du
pr-test

Rvision

Rejet

Passation
du pr-test

Analyse d'items

BANQUE DE MATRIEL*

PRODUCTION DES
EPREUVES

Figure 3: La phase oprationnelle de la production de tests


* banque informatise de matriel expriment, archivage de matriel non expriment

13
La Figure 3 montre comment toutes les preuves sous-traites passent d'abord par une tape de
rvision/contrle et de mise en forme. C'est ce niveau que le matriel peut suivre deux voies sensiblement
diffrentes - A ou B - avant d'arriver au point o on le considre acceptable pour la production des preuves
et la mise en banque.
Sur la voie A, le matriel est expriment avec un chantillon rduit de population. Bien que cette
exprimentation ne puisse dboucher que sur une analyse statistique limite, elle apporte nanmoins une
information tout fait valable sur l'efficacit de la tche, le degr de difficult et la qualit des rponses; elle
est donc particulirement utile en ce qui concerne les preuves "subjectives" du test, par exemple les tches
de production orale et crite.
En B, le matriel est pr-test sur une population plus large et offre ainsi de vraies possibilits d'analyse
statistique, y compris l'analyse des items. C'est pourquoi le pr-test est particulirement appropri pour les
preuves "objectives".
Quel que soit le nombre d'individus engags dans le processus, deux grands principes doivent tre retenus
toutes les tapes:
-

le calendrier (ce qui signifie que l'on planifie de manire raliste et que l'on respecte les chances);

l'enregistrement ou compte rendu (c'est--dire le rapport exact et dtaill de toutes les dcisions
prises et de toutes les modifications apportes au matriel lors des diffrentes tapes de la
production)

Etablir un calendrier convenable est essentiel pour s'assurer que le matriel passe par toutes les tapes du
processus de production et devient utilisable en fin de compte pour l'examen rel. L'enregistrement est vital
pour permettre rvisions et modifications et si l'on doit produire plusieurs versions du mme matriel.
2.3.1

Appel d'offres et commande

On appelle appel d'offres la dmarche qui consiste recruter des gens pour produire des tests. Comme on l'a
dit plus haut, la mme personne (que l'on peut appeler le coordinateur) peut avoir l'entire responsabilit de
tout le processus de production, y compris celle de la rdaction d'items; il en est souvent ainsi pour les
examens dans un tablissement scolaire. Toutefois, dans d'autres situations, le coordinateur peut dlguer
un certain nombre d'autres personnes la slection ou la production de textes ou d'items; il peut s'agir d'autres
membres de la mme institution ou de personnes extrieures mais ayant voir avec l'enseignement ou
l'valuation. Il arrive que le membre de l'institution qui produit un test donn ait la responsabilit d'organiser
l'appel d'offres et la commande, de suivre toutes les tapes de la production et d'utiliser les items produits
pour btir les preuves, tandis que d'autres s'occupent de l'exprimentation, de l'analyse et de la mise en
banque des donnes. La mme personne peut avoir la responsabilit de toutes les parties de l'examen ou
bien, dans le cas d'un examen comprenant diffrentes preuves de comprhension orale et crite et de
production orale et crite par exemple, chaque preuve peut tre prise en charge par une personne diffrente.
L'appel d'offres peut se faire des dates rgulires (deux fois par an, par exemple) ou avoir lieu lorsque le
coordinateur juge qu'il a besoin de matriel nouveau. On peut demander aux rdacteurs d'items soit un
examen complet, soit des items pour telle ou telle partie.
Le coordinateur a pour but d'obtenir une proportion aussi leve que possible de matriel qui, aprs
traitement, sera jug globalement acceptable et pourra tre finalement utilis pour des preuves relles. Une
partie de sa responsabilit consiste donc trouver et choisir des producteurs d'items comptents et leur
donner les consignes et la formation les plus claires et les plus facilitantes. Les producteurs extrieurs d'items

14
se recrutent souvent parmi des gens qui connaissent l'examen, soit qu'ils y prparent des tudiants, soit qu'ils
en sont correcteurs d'crit ou examinateurs d'oral. Que le coordinateur travaille seul ou en quipe ou dlgue
des rdacteurs extrieurs, les points ci-dessous doivent tre clairs:
-

Prcisions sur le matriel attendu


Cela comprend les prcisions sur le nombre de textes, de tches et d'items requis.
Dans le cas de textes, il faut savoir si les items doivent tre rdigs immdiatement ou seulement
aprs acceptation du texte. Le rdacteur d'items doit fournir la cl de tous les items, y compris les
autres solutions correctes possibles.
Pour la comprhension orale, il faut demander l'enregistrement avec sa transcription. Il ne s'agit pas
ncessairement d'un enregistrement professionnel; une cassette enregistre la maison peut s'avrer
trs utile lors de la mise en forme.
Dans le cas de la production orale, le producteur du test doit tre clairement inform s'il doit fournir
des dclencheurs visuels ou indiquer seulement quels types de dclencheurs seront ncessaires.

Prcisions sur la prsentation attendue du matriel


La meilleure prsentation est probablement celle d'un texte dactylographi et l'on peut demander la
disquette ainsi qu'une copie papier. Un manuscrit est toujours plus difficile mettre en forme et peut
ne pas tre accept
Si le rdacteur produit un examen complet, il doit savoir si les items doivent tre numrots en
continu et si les parties se suivent ou si chaque partie ou chaque tche sont prsentes sparment
sur une nouvelle feuille.
Il peut s'avrer utile que les producteurs d'items indiquent sur chaque feuille leur nom, la date et
l'intitul de l'examen.
(Toutes ces prcisions peuvent apparatre dans le guide du concepteur; elles sont par ailleurs traites
ultrieurement dans cette partie)

Prcisions sur les chances


Il est utile que tous les rdacteurs d'items sachent comment leur travail s'intgre au calendrier gnral
de production afin de mettre en vidence l'importance des chances qui leur sont imposes. Il est
bon de leur prciser, lors de la commande, quel moment la mise en forme aura lieu; on peut alors
leur dire si l'on attend d'eux qu'ils y participent ou leur demander s'ils veulent y participer.

Prcisions sur la rmunration


Les conditions financires du travail doivent tre claires ds le dbut. On peut ne rmunrer que le
matriel accept, sans aucune rtribution pour les items rejets; on peut aussi verser une avance la
commande, le solde tant pay ultrieurement pour tout matriel accept. On peut galement fixer
un tarif dtaill selon les diffrents types d'items ou donner simplement le montant global pour une
partie ou l'examen complet. Dans un tablissement scolaire, il faudra accorder du temps, dans le
cadre de leurs horaires, aux professeurs qui l'on a demand de produire des tests.

15
Lorsque la commande est passe, les rdacteurs recevront les documents suivants:
-

le cahier des charges ou spcifications;


des chantillons de matriel ou des preuves banalises;
des instructions pour le rdacteur d'items relatives au test ou l'preuve en question.

Pour une exprimentation grande chelle, il faudra fournir aux rdacteurs diffrents documents et une
information complmentaire, tels que:
-

un formulaire d'acceptation de la commande (contrat);


un formulaire rservant le droit de copyright l'organisme commanditaire;
un lexique ou un glossaire des mots et structures utilisables ainsi que des indications sur le niveau;
un livret d'informations gnrales sur l'organisme commanditaire.

Pour les tests qui sont diffuss commercialement, il faut prvoir un cahier des charges (ou spcifications)
usage gnral; il donnera des informations dtailles sur le contenu de l'examen mais n'entrera pas dans les
arcanes de la production ni des problmes qu'elle peut soulever. Il peut cependant y avoir une version plus
complte de ce document, en principe confidentielle, qui contienne des lignes directrices et des conseils
supplmentaires l'usage des rdacteurs d'items. Par exemple sur la slection et la prsentation du matriel;
c'est une faon d'viter une perte de temps aux rdacteurs d'items qui auraient tendance faire leur propres
hypothses, ventuellement errones, sur ce qui est acceptable.
Recommandations sur le choix des textes
Selon la dfinition donne dans le Chapitre 5 du Cadre de rfrence, on utilise ici le mot "texte" pour
dsigner toute manifestation langagire, qu'elle soit crite ou orale. En consquence, les recommandations
sur le choix des textes s'appliqueront non seulement aux textes crits mais aussi aux textes oraux utiliss
pour la comprhension orale.
Elles recouvriront vraisemblablement les points suivants:
-

les meilleures sources de textes (par exemple, articles de journaux de qualit, prospectus);
les sources qui ne fourniront pas ncessairement des textes acceptables (par exemple, publications
spcialises);
une mise en garde pour viter les drives culturelles;
une liste des raisons de rejet de textes dans le pass.

Parmi ces raisons:


-

un prsuppos trop important sur la culture gnrale ou spcifique des candidats ( moins que ce ne
soit l'objet de l'valuation);
des sujets inappropris tels que la guerre, la mort, la politique, la religion qui peuvent bloquer ou
choquer certains candidats;
des sujets qui ne correspondent pas l'ge des candidats;
un niveau trop lev de vocabulaire ou de notions;
des erreurs techniques ou de style ou des particularits de langue;
une mauvaise prsentation du texte original.

On peut galement donner une liste de sujets si souvent traits qu'il vaut mieux les viter.

16
En ce qui concerne la recherche de textes, les Chapitres 4 et 7 du Cadre de rfrence apportent une aide
considrable pour situer les textes proposs dans le cadre de la conception gnrale de l'apprentissage des
langues qui est celle du Conseil de l'Europe. La liste des supports de la Partie 4.6.2 (voix en direct,
tlphone, radio, etc.) ainsi que celle des types de textes crits en 4.6.3 fournissent des aide-mmoire utiles et
des occasions de varier les types d'items:
Recommandations pour la prsentation
Elles couvriront vraisemblablement les points suivants:
-

hauteur d'interligne des textes dactylographis;


informations donner en tte de chaque page;
photocopie ou original des textes;
rfrences des textes (par exemple, date de publication).

Recommandations dtailles pour chaque question


L'exemple ci-dessous peut illustrer ce point. La tche produire est un texte lacunaire sur des lments
grammaticaux plutt que lexicaux. On donnera les conseils suivants au rdacteur de l'preuve:
-

On trouvera un document authentique d'environ 200 mots avec un titre court. L'accent est mis sur les
mots grammaticaux isols. Le texte ne doit pas comporter trop de vocabulaire peu ou pas connu.

On produira un minimum de 16 items, plus si possible, afin d'oprer un choix aprs exprimentation.
Le premier item sera utilis comme exemple et numrot zro (0). Les items testeront des pronoms,
des prpositions, des conjonctions, des auxiliaires, etc. Ils seront rpartis rgulirement dans le texte
et l'on veillera ce que l'incapacit rpondre l'un d'entre eux n'entrane pas automatiquement une
erreur pour les autres (indpendance des items).

On vitera d'enlever le premier mot d'une phrase ou une locution fige pour laquelle les candidats ne
sauraient pas si elle compte pour un ou plusieurs mots. De mme, on vitera une lacune qui ne
change pas la grammaticalit d'une phrase (par exemple "tous" dans: On nous a dit que tous les
trains seraient en retard), ainsi que les items portant sur des structures trs peu courantes ou
idiomatiques.

On donne galement la consigne qui accompagne habituellement ce type de tche afin d'aider le rdacteur de
l'preuve.
En possession de tous les conseils et informations disponibles, le rdacteur n'a plus qu' produire le matriel
demand pour l'chance annonce. Les rdacteurs expriments d'items lis des textes prennent souvent
l'habitude de collecter constamment des textes dans des publications adquates en vue des commandes
futures; lorsque celles-ci arrivent, ils choisissent dans leur stock les textes les plus productifs. Il est
recommand d'avoir un dictionnaire et des ouvrages de rfrence sous la main pour rdiger certains types
d'items (par exemple, ceux qui portent sur la grammaire ou le vocabulaire). Pour produire des preuves de
comprhension orale, il faudra travailler avec un lecteur de cassettes afin de rdiger les items en fonction de
l'oral et non de la transcription crite.
De nombreux rdacteurs de tests trouvent utile de tester leur matriel sur un collgue ou un locuteur fiable
non impliqus dans l'valuation. C'est un moyen de reprer les coquilles, de relever les consignes opaques,

17
les cls et corrigs errons et les items trop difficiles ou ceux pour lesquels plusieurs rponses correctes sont
possibles.
Le cahier des charges devrait aussi comporter une liste de contrle que le rdacteur puisse utiliser pour
vrifier le texte, les items et la tche dans son ensemble avant de les soumettre. La liste de contrle
correspondant au texte lacunaire dcrit ci-dessus est propose ici comme exemple. On doit pouvoir rpondre
"oui" chaque question si le texte, les items et la tche sont adquats.

Texte:
Le texte est-il accessible et culturellement acceptable, etc. ?
Le texte est-il un niveau de difficult convenable ?
Est-il appropri pour une tche centre sur la structure ?
Est-il assez long pour permettre un minimum de 16 items ?
Lui a-t-on donn un titre convenable ?
Items:
A-t-on produit le nombre d'items exig ?
Couvrent-ils l'ensemble du texte ?
Leur varit est-elle suffisante ?
A-t-on vrifi que tous les items ont une fonction syntaxique ?
S'est-on assur qu'ils ne sont pas interdpendants ?
En a-t-on prvu deux ou trois de plus ?
A-t-on vit les items trop idiomatiques ?
Consigne et corrig:
La consigne a-t-elle t vrifie ?
A-t-on donn un exemple zro ?
A-t-on donn un corrig complet sur une feuille part ?

Avant de soumettre leur matriel, les rdacteurs de l'preuve devront en faire une copie complte; s'ils
remettent les originaux des articles de journaux ou de magazines au coordinateur, il serait judicieux qu'ils
en gardent une photocopie dment rfrence.
2.3.2

Contrle/rvision et mise en forme

Lorsque tous les rdacteurs ont soumis le matriel command, on doit d'abord dcider ce qui sera
immdiatement rejet, ce qui fera l'objet de rvisions et ce qui donnera lieu une suite. Cette tape est
celle du contrle. C'est souvent le coordinateur qui en est responsable, quelquefois assist d'un autre
producteur d'items expriment, et c'est ce niveau que les textes jugs vraiment inacceptables pour l'une
ou l'autre des raisons mentionnes plus haut seront rejets. Si l'on a command des textes sans items, c'est
le moment pour les rdacteurs d'items de se mettre au travail sur les textes accepts au contrle. Les
producteurs d'preuves qui l'on a demand de soumettre des textes sans items doivent tre encourags
proposer au moins une bauche des items qu'ils ont l'intention d'crire de sorte que, aussitt le texte
accept, ils puissent passer la production.

18
Le matriel prt pour la mise en forme peut tre tudi par un groupe de travail constitu de rdacteurs et
anim par le coordinateur ou un producteur d'preuves expriment. C'est le coordinateur qui dcidera:
-

de l'organisation des groupes de travail pour la mise en forme;


du matriel confi chaque groupe.

Idalement, le matriel en question sera soumis l'avance chaque membre du groupe qui pourra ainsi en
prendre connaissance avant la runion. Lorsqu'il s'agit d'items qui s'appuient sur des textes, on
recommande de lire les items avant le texte; on reprera ainsi ceux auxquels on peut rpondre sans se
rfrer au texte (c'est--dire par simple bon sens ou culture gnrale). Ensuite, on travaillera sur les items
comme si on passait le test, ce qui permet d'identifier ceux pour lesquels il y a plus d'une rponse juste
possible, ou ceux pour lesquels elle est mal formule et peu claire, ou encore si l'un des distracteurs est si
improbable qu'aucun candidat qui le comprendra ne le choisira ou enfin ceux qui sont difficiles ou
opaques mme pour un locuteur comptent. Pour les tests de comprhension orale ou crite, on vrifiera
leur dure ou leur longueur et que le sujet, le style et le niveau de langue sont convenables. Ce matriel,
distribu pour prparation avant la runion est, de toute vidence, confidentiel.
Au cours de la runion elle-mme, tout problme relev dans le matriel sera pos et discut en dtail par
le groupe. Il est rare que le matriel soumis soit accept tel quel et, mme retenu, il subira probablement
des modifications durant la runion de mise en forme. On portera aussi une attention toute particulire
l'adquation des consignes et des cls ou corrigs. Le matriel fait gnralement l'objet d'une discussion
nourrie et il faut que les rdacteurs puissent accepter et formuler des critiques constructives, ce qui s'avre
quelquefois difficile. Lorsqu'un producteur d'items se trouve dans la position de dfendre et d'expliquer
certaines de ses propositions des collgues expriments, il est probable qu'elles ont quelque faiblesse.
Lorsque la discussion a t suffisante, il est utile que le coordinateur, ou toute autre personne ayant de
l'autorit sur le groupe, soit en mesure de trancher en fin de compte. Chaque groupe de travail doit avoir
un rapporteur qui note toutes les dcisions prises avec prcision et de manire dtaille et rende clairement
compte de toute modification. On peut former des rdacteurs nouveaux au travail de rvision et mise en
forme en les plaant dans un groupe expriment. Un groupe de plus de quatre ou cinq personnes risque
d'tre assez lent; en revanche, moins de trois, la varit des points de vue sera peut-tre insuffisante.
l'issue de la runion, il ne saurait subsister aucun doute quant aux changements dcids. C'est pourquoi
on doit garder un compte rendu clair des modifications apportes au matriel accept. Il arrive que des
propositions initiales soient potentiellement intressantes mais les modifications y apporter sont trop
importantes pour tre faites en runion. On peut alors les rendre leur rdacteur ou les confier un
producteur d'preuves expriment pour rvision et mise en forme. Pour raisons de scurit, aprs la
runion, on dtruira toutes les copies de travail et les exemplaires supplmentaires du matriel prpar.
C'est le coordinateur qui garde les exemplaires rviss du matriel accept.
Les producteurs d'preuves sont en droit d'attendre du coordinateur une explication sur le matriel refus,
notamment s'ils n'ont pas particip la rvision ou taient absents lors du traitement de leur propre
matriel. C'est un moyen d'viter le renouvellement des mmes erreurs.

19

Les utilisateurs du Guide qui sont engags dans l'organisation du processus d'laboration
envisageront et expliciteront selon le cas:
-

2.4

comment le processus d'laboration sera organis dans leur situation propre, c'est--dire
les horaires et le calendrier, le personnel, la procdure, etc.
qui seront commandes les preuves
quel niveau de connaissance du contenu et d'exprience est exig
quelle formation et/ou quels conseils recevront les rdacteurs
qui participera au processus de contrle/rvision et de mise en forme des preuves
comment sera organis le processus de contrle/rvision/mise en forme

Pr-test et exprimentation

Le pr-test et l'exprimentation supposent galement que l'on essaie le matriel d'valuation sur un
chantillon reprsentatif du groupe de candidats afin de recueillir diverses informations sur leur
performance et les caractristiques de la mesure. Le pr-testage (ou pr-testing) est la dnomination
courante de cette activit mais on utilise aussi ce mot plus particulirement pour dsigner les cas o le
matriel d'valuation est administr un groupe important de candidats afin de mener bien un ensemble
d'tudes statistiques sur les rsultats obtenus. L'exprimentation correspond souvent une forme de prtestage qui n'implique que de petits groupes de candidats mais peut renvoyer un feed-back utile sur
diffrents aspects de la performance du matriel d'valuation.
Les types d'items normalement pr-tests sont les plus objectifs tels que QCM et textes lacunaires. la
suite des tapes de rvision/contrle et de mise en forme, le pr-testage permet un contrle supplmentaire
plus objectif pour vrifier qu'un item fonctionne assez bien pour entrer dans un examen en grandeur
nature. On teste les items en tant que tels et non le test dans son ensemble; ainsi un pr-test n'a pas
ressembler trait pour trait l'examen rel pour lequel le matriel a t produit, ni dans sa longueur ni dans
sa composition.
Les preuves soumises exprimentation sont prsentes comme examen blanc dans une simulation
d'examen des tudiants dont les enseignants estiment qu'ils se trouvent au niveau convenable pour s'y
prsenter. En le passant, ils bnficient d'une pratique des preuves et d'un feed-back sur leur performance
fond sur les rsultats qu'ils obtiennent. Afin de raliser les tudes statistiques ncessaires et d'avoir des
rsultats fiables, on recommande une population de 100 150 candidats ou plus. L'exprimentation
constitue une alternative convenable au pr-testage lorsque ce dernier est irralisable.
On ne peut pr-tester de la mme faon des tests de production orale ou crite nots subjectivement car il
n'y a pas une seule (ou un nombre limit de) rponse(s) juste(s). Malgr tout, on peut vrifier le
fonctionnement des tches avant de les inclure dans un examen. On peut galement les exprimenter
auprs d'tudiants qui sont au niveau adquat et les rponses obtenues peuvent tre notes par les
examinateurs suivant les critres qui seront appliqus l'examen rel. Ce type d'exprimentation rvlera
au coordinateur si les tudiants ont compris la tche, si elle convenait leur niveau d'exprience et leur
groupe d'ge, s'ils avaient assez d'information pour l'excuter convenablement et si elle leur a donn
l'occasion de manifester les connaissances discursives, syntaxiques et lexicales attendues d'un candidat se
prsentant un examen ce niveau.

20
Le pr-testage grande chelle et l'exprimentation petite chelle permettent galement de recueillir des
informations importantes sur les aspects pratiques de la passation ainsi que sur les ractions des candidats
au matriel d'valuation.
L'analyse statistique des rsultats apporte au coordinateur des informations extrmement utiles sur la
productivit des items et peut viter que l'on n'inclue des items errons ou de qualit mdiocre dans un
examen en grandeur nature. Toutefois il ne faut pas oublier qu'un item de qualit mdiocre peut toujours
avoir un rendement statistique acceptable; c'est pourquoi on ne considrera les rsultats de ce type
d'analyse que comme un facteur parmi d'autres dterminant ce qui sera utilis en fin de compte. L'Annexe
1 prsente les rsultats d'une analyse d'items accompagne d'un commentaire explicatif.

Les utilisateurs du Guide qui sont engags dans l'laboration de tests envisageront et
expliciteront selon le cas:

2.5

dans quelle mesure ils sont en situation de pr-tester ou d'exprimenter leur matriel
d'valuation

quelles peuvent tre les consquences d'une absence d'exprimentation et comment y


remdier

quel type d'analyse subiront les donnes sur la performance recueillies par le prtestage et/ou l'exprimentation

comment seront utiliss les rsultats de toute analyse, par exemple en vue de
l'laboration de matriel, pour la formation des rdacteurs, etc.

Elaboration des tests

De toute vidence, la production du matriel est une activit cl dans l'laboration des preuves pour
s'assurer qu'elles sont conformes aux normes de difficult, de contenu et de couverture (linguistique et/ou
culturelle). La manire d'aborder la production, la nature de l'information recueillie et le niveau de dtail,
ainsi que la faon d'enregistrer cette information, peuvent varier d'un test l'autre. Une seule personne
dans une institution donne peut entreprendre la production de certains tests; d'autres tests exigeront la
mobilisation d'une quipe constitue de membres de l'institution et de gens de l'extrieur dont certains
peuvent jouer le rle de consultants.
L'tape de production suppose que l'on prenne en compte un certain nombre de variables diffrentes qui
doivent s'quilibrer pour que soit produit un test au niveau et au contenu exigs et couvrant ce que l'on
veut valuer. On peut fixer certaines caractristiques d'un test (par exemple, le nombre d'items et de
tches) tandis que d'autres resteront souples (par exemple, le thme ou des accents diffrents). Si l'on
dispose de donnes exprimentales, elles seront naturellement verses dans le processus d'laboration. On
veillera, dans la plupart des tests, l'quilibre entre:
-

le niveau de difficult (en termes de difficult moyenne des items et des tches du test et de
l'tendue de la difficult couverte);
le contenu (en termes de sujets ou de domaines):
la couverture (en termes de reprsentativit des tches et de la centration du test);

21
-

la progression (en termes de progression de la difficult du test);


de types d'items ou de tches (en termes de fonctionnements cognitifs varis demands aux
candidats).

Des rflexions particulires s'appliquent certains tests. Par exemple, pour un test de comprhension
crite qui comprend plusieurs textes et items, il faudra ventuellement vrifier que le mme sujet ne soit
pas trait plusieurs fois ou viter que les textes ne soient trop longs en nombre total de mots. De mme,
pour un test de comprhension orale, on veillera l'quilibre des voix d'homme et de femme et celui des
accents rgionaux.
Lorsque l'laboration du test est acheve, il est bon d'en faire faire un contrle indpendant. Il peut tre
assur par un consultant extrieur qui connaisse la forme gnrale de ce type de test mais qui n'ait pas t
impliqu dans l'laboration de celui en question; on peut solliciter ses commentaires sur des points relatifs
l'adquation du contenu, la cohrence de la prsentation, etc. Si l'on soumet le test un lecteur
extrieur, ce dernier pourra donner un feed-back utile sur la clart des consignes, la mise en page, etc.
Il est important d'enregistrer prcisment toutes les dcisions prises pendant l'tape d'laboration du test;
on peut utiliser une grille d'analyse pour saisir l'information descriptive, les donnes pertinentes du prtest, la nature de toute modification du matriel et la justification de toutes les dcisions prises. ce
niveau, il faut aussi regarder de trs prs les consignes et la numrotation ainsi que l'tablissement d'un
corrig complet et d'un barme.
Lorsque les tests appartiennent un examen plus important ou une srie d'examens, la phase
d'laboration doit prendre l'ensemble en compte et pas seulement les preuves ou parties isoles. Il est
important d'avoir une vue exacte de l'ensemble d'un examen donn et d'avoir les moyens de comparer des
versions parallles au mme niveau ainsi qu' des niveaux diffrents et travers des passations diffrentes.
Une runion de synthse donnera une bonne occasion d'changer des informations transversales sur les
preuves et les examens et permettra d'avoir une vue d'ensemble cohrente de la qualit de l'examen
suffisamment tt pour apporter les modification de forme ou de contenu qui s'avreraient ncessaires.

Les utilisateurs du Guide qui sont engags dans l'laboration de tests envisageront et expliciteront
selon le cas:
-

2.6

qui, dans leur propre situation, sera impliqu dans l'laboration des tests
quelles sont les variables prendre en compte et quilibrer (par exemple, le niveau de
difficult, le contenu thmatique, la gamme de types d'items, etc.)
quel rle aura l'analyse statistique, par exemple pour la dfinition de l'indice moyen de
difficult et de l'tendue du test
quelle sera l'importance de l'analyse statistique par rapport aux autres considrations
si le test labor devra faire l'objet d'un contrle indpendant
comment le test labor sera appari des versions parallles du mme test ou s'intgrera
dans une srie plus importante de tests
comment sera saisi le profil descriptif du test labor, par exemple relev du contenu
thmatique, types d'items et de tches, caractristiques de mesure, etc. transversalement
dans l'ensemble du test.

Problmatique de la production des items

22
Dans cette partie, nous traiteront certains des problmes qui surgissent lors de la rdaction des items et
nous proposerons quelques lignes directrices afin d'aider concrtement les rdacteurs de tests. Les
problmes considrs ici sont:
-

la planification de la tche;
le choix des textes (authenticit, difficult, etc.);
le choix des types d'items;
les consignes;
les grilles ou cls de correction et corrigs, les barmes et les chelles de notation.

Une fois encore, on trouvera dans les Chapitres 4 et 7 du Cadre de rfrence de prcieuses indications sur
ces points.
2.6.1

Planification de la tche

Il est important de noter tout d'abord que le type de tche doit tre conu en fonction du type de capacit
langagire que l'on teste et du but du test.
Lorsqu'on produit du matriel d'valuation, il est essentiel de relier de faon approprie le stimulus et la
rponse, sinon il est probable que des difficults surgiront. Par exemple, il est possible de rdiger des
items qui s'appuient sur un texte et auxquels on puisse apporter une rponse correcte sans avoir compris le
texte. Un stimulus peut provoquer une rponse "correcte" sans que l'on ait test quoi que ce soit d'utile. De
mme, il se peut qu'un stimulus se prte facilement un certain item mais que cet item ne corresponde pas
l'objectif du test.
On ne peut pas prsumer simplement que la difficult d'un item rsulte de la relation linguistique entre le
texte et la rponse. Le stimulus et la rponse ont aussi leurs caractristiques linguistiques et la tche qui les
relie peut, outre la demande en langue, entraner des oprations cognitives complexes. La culture gnrale
(ou connaissance du monde) aura aussi un rle jouer ainsi que d'autres aspects du modle d'utilisation de
la langue propos dans le Cadre de rfrence. Quand il aborde la rdaction d'items, le rdacteur doit avoir
une ide claire de l'objectif d'un item, de la raison pour laquelle ce type d'item a t choisi et des domaines
de la comptence du candidat que teste chaque item. Les Parties 7.2 et 7.3 du Cadre de rfrence
examinent relativement en dtail de quelle manire les comptences, les caractristiques et les stratgies
de l'apprenant interagissent avec les conditions et les contraintes pour affecter la productivit de la tche
et, notamment, la difficult de la tche.
Un test doit comprendre un certain nombre de tches. Les types de tches le plus troitement contrls
(ceux, par exemple, utiliss pour tester la comprhension crite, la comptence grammaticale, la
comprhension orale et la production crite au niveau de la phrase) se composent des lments suivants:
-

une consigne (ou instructions pour raliser la tche);


un support qui sert d'appui un stimulus (un texte, par exemple);
la rponse du candidat aux items de types diffrents (qu'ils soient choisis ou produits);
un corrig, une cl ou un barme de notation.

On peut distinguer les types de tches fondes sur les items de celles mises en uvre dans les preuves de
production orale ou crite qui comprennent une consigne, un support et une rponse value sur une
chelle de notation ou un ensemble de critres et non sur une cl ou un barme.

23
2.6.2

Choix du texte

Dans la prparation d'un matriel d'valuation, les producteurs d'items doivent affronter la tche de
slection des textes, notamment pour les preuves de comprhension orale ou crite, et nous examinerons
ici un certain nombre de points importants qui gouvernent ces choix. Lorsqu'on slectionne des textes
pour une tche donne, il est essentiel en premier lieu d'utiliser des textes convenables pour l'objectif de
l'valuation et la population de candidats concerne. Le niveau de difficult de la langue doit tre adquat
et le thme appropri pour le groupe d'ge prvu et la formation antrieure des candidats. En rgle
gnrale, il vaut mieux viter les sujets qui n'appartiennent pas l'exprience des candidats ou qui, pour
une raison quelconque, peuvent les perturber ou les blesser. Le Cadre de rfrence apporte une
contribution inestimable tout examen de ce sujet car il sera de plus en plus difficile que les tests vitent
le dbat qui progresse sur une valuation au niveau europen, et ceci malgr le souci de s'adapter aux
conditions locales. On trouvera dans les Chapitres 4 et 7 du Cadre de rfrence les parties les plus
pertinentes sur le choix des textes. La Partie 4.6 propose une liste utile d'exemples de types de textes et de
leurs supports; la Partie 4.6.4 traite plus troitement de la nature et de la fonction des textes en relation
avec les activits et le support.
Deux points relatifs au choix des textes mritent qu'on s'y arrte. Il s'agit d'une part de l'authenticit et,
d'autre part, de ce qui rend un texte difficile.
Authenticit
C'est un point sur lequel on dbat depuis les annes 70 lorsqu'il s'agit de choisir des textes, que ce soit
pour l'enseignement ou pour l'valuation. Dans un examen qui comporte un texte (en comprhension
crite par exemple) rpond-on mieux aux besoins du candidat en utilisant un document authentique tir
d'un journal ou d'un magazine, ou un texte fabriqu par le concepteur du test ou le rdacteur d'items ? A
priori, le document authentique est plus appropri. Il reflte l'usage courant de la langue et a t crit pour
le locuteur natif et non dans un but d'valuation. On peut avancer que l'interprtation des textes qu'un
locuteur natif est capable de faire constitue le but de l'apprenant en langue cible et que c'est donc le type
de discours auquel il doit tre expos et sur lequel il sera test. On peut ajouter qu'un texte crit dans le
seul but de tester certains points de langue ne ressemble en rien la langue utilise par les locuteurs natifs
qui ne se proccupent pas d'valuation.
Cependant, la dfinition de l'authenticit peut tre plus large que cela. On a pu affirmer que l'authenticit
est la rsultante de l'interaction entre le lecteur et le texte et pas seulement une caractristique du texte. Si
l'on tient compte de cette vision des choses, mme un coup d'il rapide la grande varit de discours
utiliss dans la presse conduit conclure que tous les textes crits ne sont pas authentiques pour tous les
lecteurs. L'identit du lecteur, son projet de lecture, l'intention du scripteur et le degr de proximit sociale
et culturelle entre le lecteur et le texte ont une incidence sur la nature de l'interaction entre un lecteur et un
texte donn. S'il y a peu de points communs entre le contenu factuel et culturel du texte et les
connaissances du lecteur (imaginer un vieil amateur d'opra essayant de lire un magazine de rock pour
adolescents !), il n'y aura gure d'interaction possible. En tant que locuteurs natifs, nous choisissons plus
volontiers les textes qui rpondent nos besoins et nos intrts et vitons les autres.
Comment le rdacteur d'items peut-il puiser des textes dans les sources courantes que sont les journaux et
magazines, en tant sr qu'ils conviennent aux apprenants d'une langue qui ne sont peut-tre jamais alls
dans aucun des pays o on la parle et dont on ne sait pas s'ils partagent le moindre savoir culturel ou social
avec les locuteurs natifs pour qui l'article a t crit ? De toute vidence, il ne suffit pas de dcouper des
articles ou des publicits dans des journaux et de considrer qu'ils seront utiles pour l'enseignement de la
langue, simplement parce qu'ils proviennent de sources authentiques au lieu d'avoir t crs par les

24
valuateurs. Parce qu'il ne dispose pas du savoir partag que l'on supposait chez le lecteur cible originel,
l'apprenant en langue est renvoy une interprtation du texte au mot mot; l'exprience de la lecture
risque alors d'tre fausse et artificielle. Cependant, il faut un lien entre les activits d'valuation et les
situations communicatives d'une part et, d'autre part, les tches langagires relles dans lesquelles le
candidat compte tre capable d'utiliser la langue et que l'valuateur souhaite gnraliser. Se pose aussi la
question de la validit apparente, le degr auquel le matriel d'valuation parat convaincant aux
utilisateurs du test comme illustration du type de discours auquel ils veulent accder.
Depuis la fin des annes 70, la notion d'authenticit a t largement explore afin de mettre en place une
approche argumente de l'utilisation des textes pour l'enseignement et l'valuation des capacits
langagires. Widdowson (1978) et Bachman (1990) ont mis en vidence deux niveaux d'authenticit:
situationnelle et interactionnelle.
i.

authenticit situationnelle

L'authenticit situationnelle peut se dfinir comme le degr auquel les caractristiques d'un mode
d'valuation d'une activit langagire refltent celles des situations de la vie relle dans lesquelles la
langue est utilise.
Pour concevoir une activit authentique en termes situationnels, il faut d'abord identifier les traits
significatifs qui dfinissent la tche dans le domaine d'utilisation de la langue cible. On est alors en mesure
de produire les activits d'valuation qui incluent ces traits significatifs.
ii.

authenticit interactionnelle

L'authenticit interactionnelle peut se dfinir comme l'interaction entre l'activit d'valuation (la tche) et
le candidat; elle suppose que les rdacteurs et les concepteurs de tests devraient:
-

proposer des textes, des situations et des tches qui simulent la "vraie vie" sans essayer de la
reproduire l'identique;
essayer de proposer des situations et des tches qui ont des chances d'tre pertinentes pour le
candidat potentiel un niveau donn;
clarifier la finalit de chaque tche ainsi que le public cible en mettant en contexte adquat;
expliciter les critres de russite de la tche.

Il est donc important, au moment du choix des textes et de la conception des items, de se pencher sur
l'authenticit situationnelle des tches et de voir si les oprations sur les textes que l'on demande aux
candidats d'excuter correspondent ce que l'on ferait naturellement de ces textes. On ne sait
gnralement pas assez comment les gens lisent ou coutent pour tre sr de l'authenticit d'un test dans ce
sens. Nanmoins, il est souvent possible de distinguer si l'appariement du texte et des items est inadquat
ou trompeur pour les candidats. Il faut que les rdacteurs de tests soient sensibiliss aux ventuels
problmes et en aient conscience au moment de la prparation du matriel. Le traitement de cette question
en Partie 7.3 du Cadre de rfrence est particulirement pertinent.
La difficult des textes
Le second point important prendre en considration est la difficult du texte et les divers caractres qui
peuvent en influencer la difficult. Que l'on parle de textes crits ou de document oraux, diffrents
facteurs peuvent affecter le degr de difficult que le lecteur ou l'auditeur rencontre en les traitant; et il en
est ainsi pour tous les lecteurs ou auditeurs, qu'ils soient ou non dans la situation de candidat un examen.

25
Il est clair qu'une partie de la difficult provient de la structure linguistique. Par exemple, on entrera plus
aisment dans un texte compos de courtes phrases simples la forme active que dans un texte compos
de phrases longues et complexes avec une utilisation frquente du passif.
Au-del des traits de la structure linguistique, d'autres facteurs qui concernent le contexte dans lequel le
texte se trouve ont une incidence sur son degr de difficult. Que le texte soit crit ou parl, il sera plus
facile comprendre s'il s'adresse directement au lecteur ou l'auditeur plutt que de le mettre en position
de troisime partie, de spectateur qui observe les changes entre les personnages principaux. Le support
visuel fourni par des dessins ou des schmas (ou par la vido dans un test de comprhension orale) peut
faciliter la comprhension, de mme que l'absence de pression traiter le texte en temps limit. Si le texte
est en contexte de "rupture d'information" et donne ainsi aux candidats une raison imprative d'en extraire
des informations, la situation en sera sans doute facilite; autrement dit, la stimulation de l'intrt du
lecteur ou de l'auditeur peut en augmenter l'accessibilit.
Certains traits du contenu d'un texte peuvent aussi avoir un effet sur sa difficult. On comprendra mieux
un rcit si les personnages sont peu nombreux et clairement diffrencis. Par exemple, l'histoire de deux
femmes et de deux hommes, d'ge diffrent, avec des noms diffrents et une personnalit nettement
marque sera perue comme plus facile que celle qui prsenterait un plus grand nombre de personnages
moins distincts et moins typs. La suite des vnements dans un rcit est d'autant plus facile saisir qu'elle
est chronologique et sans retours en arrire; si, en outre, ils sont relis entre eux (dans un rapport de
causalit, par exemple), le texte sera plus comprhensible que s'ils n'ont aucun lien. L'auditeur ou le
lecteur qui connat dj la structure narrative du rcit le trouvera moins difficile que celui qui l'ignore.
Enfin, le type d'interaction et la relation qu'il cre entre le texte et l'auditeur ou le lecteur affecte le degr
de difficult du texte. Des textes trs officiels, avec un haut degr de formalisme ou, au contraire, trs
informels, voire familiers, risquent de poser plus de problmes aux auditeurs ou aux lecteurs que ne le
ferait un style relativement neutre ou modrment informel.
Les difficults mentionnes ci-dessus ont d'autant plus d'importance pour le producteur de tests de
comprhension orale; en effet, la relation entre les diffrentes parties du document, la possibilit d'y
revenir et celle de voir le document dans son ensemble comme ont peut le faire l'crit, sont ici
impossibles. En plus de tenir compte du niveau de difficult linguistique en termes de complexit de la
structure et du lexique, un producteur d'preuves de comprhension orale devra tre attentif aux facteurs
suivants pour crire ou choisir des textes; tous ces facteurs ont un effet sur l'interprtation que l'on
demande au-del du niveau de comprhension simple, et cela a alors un impact sur le niveau de difficult
du texte.
-

Le type de discours oral le plus facile comprendre est le monologue, notamment dans le cas o
le locuteur semble s'adresser directement l'auditeur. Deux voix diffrentes (homme/femme ou
adulte/enfant) viennent ensuite comme facilitateurs. Une conversation entre deux personnes du
mme ge ou entre plus de deux personnes est souvent plus difficile. Le texte est plus facile
comprendre si les locuteurs jouent des rles clairement distincts tels que parent/enfant; l'inverse,
une conversation entre des locuteurs ayant un statut semblable comme, par exemple, des
collgues de mme sexe et de statut proche discutant au sujet du travail est, en gnral, plus
difficile.

Un texte qui comporte des changements de lieu, de temps et un grand nombre d'vnements sera
plus difficile que celui dans lequel n'est rapport qu'un petit nombre d'vnements, dans un mme
lieu et au mme moment.

26
-

Si la situation est claire ds le dbut, le texte sera plus facile suivre.

Un texte court et dense, accompagn d'un nombre relativement lev d'items, est difficile traiter
mme si le niveau de langue est adapt.

L'ajout de matriel redondant tel que explications, reformulations et rptitions aide baisser le
niveau de difficult.

La langue familire, avec son dbit, ses ellipses et ses formes propres, son absence apparente
d'une organisation cohrente et les changements frquents de tours de parole exige souvent une
activit d'coute plus soutenue qu'une langue plus soigne, en gnral plus lente, moins hache et
plus proche de l'crit.

Un locuteur au dbit naturellement lent et la voix expressive est plus facile comprendre que
celui qui parle vite ou sur un ton monocorde. Un dbit rgulier ou en relation directe avec la
densit d'information du texte est aussi un lment facilitateur.

La Partie 7.3 du Cadre de rfrence commente dans le dtail certaines des caractristiques d'un texte et des
tches qui l'accompagnent qui peuvent conduire une difficult accrue.
2.6.3

Choix des types d'items

L'un des points les plus importants relatif aux types d'items est de savoir lequel est le mieux adapt pour
tester une capacit donn dans un test donn. La dcision est gnralement prise au moment de la
conception du test.
On peut classer de diffrentes faons le grand nombre de types d'items diffrents utiliss en valuation des
langues. Certains sont considrs comme objectifs en ce sens qu'aucun jugement n'est ncessaire pour les
corriger, tandis que d'autres demandent une rponse labore et des mthodes subjectives de correction.
Certains contrlent la comprhension, d'autres la production. Certains s'appuient sur un texte, d'autres sont
indpendants ou discrets. Mme si certains types d'items sont plus utiliss que d'autres, il ne faut pas
croire qu'ils sont meilleurs pour autant. Le meilleur critre de mesure de la qualit d'un type d'item est sa
pertinence valuer la langue dans un but prcis et une situation donne. Le type d'item qu'il faut retenir
est celui qui donne le moyen le plus direct de mesurer la rponse voulue.
Il existe quelques rgles gnrales suivre lors de la production d'un item quel qu'il soit:
-

un item doit toujours viser contrler une information significative plutt qu'une information
secondaire ou priphrique

les conventions grammaticales courantes doivent y tre respectes

quand on utilise un nouveau type d'item, il faut toujours l'accompagner d'un exemple, moins que
sa simplicit ne le rende inutile

lorsque les items s'appuient sur un texte, il ne doit pas tre possible d'y apporter une rponse juste
seulement fonde sur la culture gnrale sans avoir lu et compris le texte

27
-

un item qui s'appuie sur un texte devrait tre rdig clairement et simplement afin que ceux qui
comprennent le texte n'chouent pas sur une incomprhension de l'item

les items qui s'appuient sur un texte peuvent tre placs avant ou aprs; on placera plutt avant
ceux qui testent un traitement superficiel du texte, tandis que ceux placs aprs peuvent exiger
une lecture dtaille ou dboucher sur des conclusions.

Un classement possible des types d'items en deux grands groupes consiste distinguer ceux pour lesquels
le candidat doit choisir une rponse et ceux pour lesquels il doit fournir la rponse. On les appellera items
slection de rponse et items rponse libre. La forme la plus courante de l'item slection de rponse
est la question choix multiple (QCM), bien que d'autres types d'items tels que vrai/faux et diffrentes
sortes d'appariements puissent tre regroups avec les QCM car ils demandent au candidat le mme type
d'activit. En rgle gnrale, du point de vue de la notation, les tests qui reposent sur des QCM sont
considrs comme plus objectifs que ceux pour lesquels le candidat doit fournir la rponse. Dans l'idal,
on ne devrait pas utiliser de QCM sans les pr-tester et les analyser. La Partie 7.3 du Cadre de rfrence
traite de nombreux points prendre en compte lorsqu'on choisit des modalits de rponse diffrentes pour
des activits d'valuation.
Il est important de raffirmer qu'aucun type d'item n'est, en soi, plus ou moins utile qu'un autre. Le choix
d'un item appropri dpend de l'objectif particulier du concepteur de test et de ses priorits. Par exemple
on peut, pour l'valuation de la production crite et orale, mettre en place des tests bass sur des items ou
des tches plus globales. La production orale et la production crite peuvent tre divises en sous-savoirfaire intituls "grammaire", "vocabulaire", "orthographe", "prononciation", etc. Considre au niveau de
ces lments discrets, la comptence de production orale ou crite pourrait se mesurer l'aide d'preuves
fondes sur des items et intitules soit "crit", soit encore "grammaire et usage" ou "comptence
structurale". En revanche, la production orale ou crite qui suppose l'organisation des ides et des
arguments, l'articulation, le plan et la construction d'un rcit cohrent doit tre contrle par des tches qui
ne reposent pas sur des items discontinus. L'analyse de la comptence gnrale et langagire des
utilisateurs/apprenants dans le Chapitre 5 du Cadre de rfrence, ainsi que la prsentation du processus de
la comptence communicative en 4.5, proposent un paradigme utile dans le cadre duquel on peut replacer
l'analyse de l'adquation des types d'items.
2.6.4

Consignes

On peut dfinir la consigne comme "les instructions donnes aux candidats pour ragir devant un support
donn". Ces instructions doivent prciser o et comment la rponse sera enregistre, par exemple: cocher
la rponse qui vous parat approprie ou crire quelques mots, et si cela doit tre fait sur la copie ellemme ou sur une feuille de rponse part. Les consignes sont importantes car elles disent au candidat ce
qu'il doit faire et comment; c'est pourquoi elles doivent tre rdiges avec soin. La Partie 7.3 du Cadre de
rfrence examine l'importance de l'aide donne pour excuter une tche, en fonction des conditions et des
contraintes que l'on peut manipuler pour les tches productives comme pour les tches rceptives.
La consigne doit prsenter le plus clairement possible la tche que l'examinateur donne au candidat. Il ne
doit y avoir ni ambigut ni besoin de clarification qui pourrait perturber le candidat: l'angoisse d'un
candidat peut porter atteint sa performance et affecter la fidlit et la validit du test. Souvent, pour les
preuves de comprhension orale, la consigne est non seulement imprime sur la feuille de rponse mais
galement enregistre sur la cassette. Dans les preuves de production orale en situation d'entretien en face
face, les conditions de passation sont assez diffrentes des autres; en effet, plutt qu'une consigne, c'est
l'examinateur/interlocuteur/interviewer qui donne des instructions orales. Le candidat peut mme solliciter
une clarification de la tche excuter, demande que l'on peut valuer comme faisant partie des changes.

28
Voici, par exemple, la consigne d'une preuve de transfert d'information:

Pour les items 1 8, lisez la note officieuse qu'un(e) collgue vous a communique. En utilisant
les renseignements qu'elle donne, compltez l'annonce officielle en crivant les mots manquants
sur votre feuille de rponse. Les mots dont vous avez besoin n'apparaissent pas dans la note
officieuse. L'exercice commence par un exemple (0). N'utilisez pas plus de deux mots dans
chaque espace.

Les questions cls se poser pour rdiger des consignes sont:


-

est-ce clair ? (c'est--dire, est-il possible de faire un contresens sur la nature de la tche ?);
est-ce facilement comprhensible ? (c'est--dire, la langue utilise est-elle au niveau convenable ?
Ceci est particulirement important pour les tests de dbutants);
est-ce adquat ? (c'est--dire, toute l'information ncessaire est-elle donne?);
est-ce pertinent ? (c'est--dire, ne donne-t-on que l'information ncessaire ?);
les consignes sont-elles consquentes ?

En ce qui concerne ce dernier point on recommandera que la langue utilise dans les consignes soit
normalise pour un test donn afin que le candidat puisse, autant que faire se peut, suivre des consignes
donnes sur le mme modle.
La consigne est une partie importante de la production d'preuves et il faut encourager les rdacteurs
mettre autant de soin la rdaction des consignes qu' celle des items. Un aide-mmoire semblable au
suivant peut s'avrer utile:
-

la consigne et les instructions gnrales pour l'examen sont-elles cohrentes?


si la consigne est nouvelle pour le candidat, est-elle accompagne d'un exemple?
la langue utilise est-elle grammaticalement correcte et adapte au niveau de l'examen ? (cela
signifie que le niveau de langue de la consigne doit tre infrieur celui de la langue value dans
le test);
le vocabulaire appartient-il aux ressources du candidat ?
la langue est-elle simple et claire ?
y a-t-il un discours superflu ?
y a-t-il des doubles ngations ?
peut-il y avoir malentendu ou quivoque ?
la consigne contient-elle toute l'information ncessaire et prcise-t-elle les contraintes ?

Il est souvent difficile pour un rdacteur de prendre une distance qui lui permette de reprer les difficults;
c'est pourquoi il est utile de demander un collgue d'exprimenter l'item ou la tche.
Des dtails importants inclure dans les consignes sont:
-

prcisment o trouver le support (par exemple, numro de page);


le nombre de mots attendus dans la rponse;
si la mme rponse peut tre utilise plusieurs fois;
si les rponses peuvent tre donnes dans n'importe quel ordre;
le nombre approximatif de mots pour une production crite;

29
-

des indications claires sur l'tendue des choix possibles de tches;


le nombre d'auditions d'un document sonore;
les contraintes d'utilisation du texte support;
l'indication des critres de succs.

2.6.5

Grilles de correction, barmes et chelles de notation

Toute activit d'valuation qui utilise des types d'items objectifs doit tre accompagne non seulement
d'une consigne convenable mais aussi d'une grille de correction ou cl (c'est--dire des rponses correctes)
ou d'un barme; dans le cas d'une tche value plus subjectivement, il faut avoir une chelle de
correction, une liste des tches exiges et des critres de notation.
Le rdacteur fournira toujours une grille de correction lorsqu'il n'y a qu'une rponse possible comme dans
les QCM et autres items de ce type. Pour les types de tches qui demandent de la production plutt que de
la slection, le rdacteur du test doit fournir un barme et donner une liste aussi exhaustive que possible de
rponses acceptables. L'tablissement du barme est un moment essentiel de la production de tests car
c'est souvent ce niveau qu'apparat la solidit ou la faiblesse d'un item et qu'on doit le rejeter ou le rcrire
alors qu'il avait paru acceptable.
L'aide-mmoire du producteur de tests comportera les questions suivantes;
-

a-t-on produit une rponse type approprie?


s'il y a plus d'une rponse possible, a-t-on donn toutes les possibilits dans le corrig?
la grille ou cl de correction est-elle facile utiliser?
le nombre de points pour les rponses justes par item ou par tche est-il clairement indiqu?
le nombre de rponses possibles est-il assez rduit?
toutes les contraintes sont-elles prcises? (par exemple, les candidats doivent choisir 2 options
sur 5; l'preuve ne sera pas note s'ils en proposent plus de 2).

Il faut aussi savoir si l'orthographe et la grammaire compteront dans une rponse au demeurant correcte. Il
ne faut pas oublier qu'un test peut tre not par un non spcialiste de langue; s'il y a trop peu de
contraintes sur les rponses possibles, la notation risque de devenir problmatique parce que le correcteur
ne saura plus ce qui est acceptable ou pas.
Il existe des mthodes de notation diffrentes pour la production crite longue ou la production orale. En
rgle gnrale, elles mettent en uvre un barme qui dissocie les capacits testes lors d'un test de
production orale en domaines tels que prononciation, aisance et utilisation correcte des structures et note
chacune sur une chelle. Pour aider l'examinateur, on lui fournit l'exemple d'une performance type
chaque niveau. La note finale pour une preuve de production orale ou pour une composition crite sera
obtenue en attribuant une note sur chaque chelle de telle sorte que la note totale de la tche sera la somme
des notes clates. Le Chapitre 3 du Cadre de rfrence et les annexes proposent une information utile sur
les diffrentes approches d'laboration des chelles de correction et sur la formulation des descripteurs; le
Chapitre 9 examine quelques-uns des problmes soulevs par l'valuation subjective, parmi lesquels celui
du besoin d'accompagner les descripteurs de performance d'exemples de travaux de candidats qui
correspondent l'chelle des notes et des descripteurs. L'Annexe B du Cadre de rfrence Les chelles
de dmonstration - fournit un premier exemple de la faon de dcrire diffrents niveaux de performance
dans des activits communicatives et des capacits langagires, et les Annexes E et D dcrivent des
projets pour llaboration de descripteurs, y compris les Can Do du projet ALTE.

30
Il est bon qu'un rdacteur d'items crive un chantillon de rponse pour tout item, que ce soit exig ou pas.
Mme si le producteur ne donne rien d'autre qu'un titre pour la composition crite, il est important de
vrifier que le sujet peut tre trait convenablement dans le nombre de mots indiqu et au niveau de
langue des candidats. On peut relever les erreurs de ce type d'preuve au moment de l'exprimentation
mais il vaut mieux faire tout son possible pour les liminer plus tt.

Les utilisateurs du Guide engags dans la conception des preuves envisageront et expliciteront
selon le cas:
-

quelle est la nature, dans leur situation, de la relation entre l'objectif du test et la
conception de la tche
quels types d'items et de tches seront les plus adquats pour valuer les capacits
langagires en question
quelle sorte de conseils donner aux rdacteurs d'items sur la slection des textes, par
exemple: sources probables, thmes inappropris, etc.
quelles sont les caractristiques des textes qui peuvent provoquer des difficults
quelles sont les oprations cognitives exiges par les types d'items et de tches choisis
pour atteindre l'objectif du test
jusqu' quel point est-il souhaitable de normaliser le discours de consigne
quels sont les types de barme et/ou d'chelle de notation les plus appropris
comment ces barmes seront-ils labors

31
3.0

VALUATION DES TESTS

La validation de l'valuation fait partie intgrante du modle de processus d'laboration de tests. Le cycle
d'laboration commence par une rflexion sur la fonction du produit (c'est--dire le but du test); cela doit
comporter des rflexions sur la manire d'utiliser le test, sur sa pertinence et son utilit en termes de
consquences sociales et de rentabilit et les effets possibles qu'il risque de provoquer (y compris des
retombes imprvues).
Afin d'laborer et de fournir un test de qualit, il faut mettre en place des systmes et des procdures, non
seulement pour le produire, mais galement pour l'valuer; ces systmes et procdures doivent entrer en
jeu dans les phases d'laboration comme d'oprationalisation et ont essentiellement pour but de:
-

valider le test;
mesurer l'impact du test;
fournir une information pertinente aux utilisateurs du test;
assurer un service suivi de grande qualit.

On s'accorde gnralement dire que l'valuation a un effet sur le processus ducatif et sur la socit en
gnral. Cet effet fonctionne sur deux niveaux au moins en termes de:
i)
ii)

ducation et socit en gnral;


individus directement concerns par les tests et leurs rsultats.

Par principe, les valuateurs devraient avoir pour but de faire que leurs tests n'aient pas un effet ngatif et,
autant que possible, de s'efforcer qu'ils aient un effet positif. En termes gnraux, on peut y parvenir par
l'laboration et la prsentation de spcifications et d'un projet dtaill de programme, ainsi que par l'apport
de programmes professionnels d'assistance pour des institutions comme pour des professeurs/tudiants
individuellement.
L'effet positif sur l'enseignement et l'apprentissage est un impact important qui fonctionne aussi bien au
niveau gnral que particulier. On peut parvenir un impact ducationnel positif par les pratiques
suivantes:
-

l'identification d'experts comptents dans tous les domaines pour travailler sur tous les aspects de
l'laboration de tests;
la formation et le recrutement d'experts comptents qui deviendront des rdacteurs d'items au
cours de l'laboration d'items;
la formation et le recrutement d'experts pour jouer le rle d'examinateurs.

Il est important d'tre en mesure d'valuer l'impact ducationnel que les tests ont dans les situations dans
lesquelles ils sont utiliss, et le recueil rgulier de donnes fournit l'essentiel de l'information ncessaire
pour analyser l'impact et l'utilit d'un test donn. Il pourrait tre souhaitable de recueillir des donnes
relatives :
-

qui se prsente au test (c'est--dire le profil des candidats);


qui utilise les rsultats du test et dans quel but;
qui enseigne pour la prparation du test et dans quelles conditions;
quelles sortes de cours et de matriels sont conus et utiliss pour prparer les candidats;
quel est l'effet du test sur la perception du public en gnral (par exemple en ce qui concerne les
normes scolaires);

32
-

comment le test est-il peru par ceux qui sont directement engags dans le processus ducatif (par
exemple, les tudiants, les candidats, les enseignants, les parents, etc.);
comment le test est-il peru par ceux qui n'appartiennent pas au systme ducatif (par exemple,
les politiques, les hommes d'affaires, etc.)

En rsum, une bonne pratique de l'valuation repose sur l'adoption d'un modle de processus
d'laboration de tests puisque c'est ce qui donne les conditions ncessaires l'laboration de tests utiles et
permet leur validation.

Les utilisateurs du Guide engags dans l'valuation envisageront et expliciteront selon le cas:
-

quels seront les systmes et les procdures ncessaires dans leur situation pour
contrler et valuer la performance du test une fois qu'il est mis en service
quelles seront les procdures particulires d'analyse les plus appropries
comment sera valu l'impact social et ducatif de leur test
quels seront les systmes et les procdures ncessaires pour maintenir un service de
grande qualit, par exemple l'laboration d'une charte (ou code de dontologie)
comment les utilisateurs des tests recevront-ils l'information pertinente, par exemple,
la documentation, les programmes professionnels d'assistance), etc.

33
RFRENCES

ALTE Code of Practice in ALTE Handbook of European Language Examinations and Examination
Systems: ALTE 1998
Bachman, L.F.: Fundamental Considerations in Language Testing. Oxford University Press, Oxford, 1990.
Canale, M. et Swain, M.: A theoratical framework for communicative competence. In A.S. Palmer, P.J.
Groot et S.A. Trosper (sous la direction de) The Construct Validation of Tests of Communicative
Competence. TESOL,Washington, DC, 1981.
Cadre europen commun de rfrence pour les langues: Apprendre, Enseigner, Evaluer Editions DIDIER
ISBN 227805075-3
van Eck, J.A.: The Treshold Level in a European unit/credit system for modern language learning by adults.
Conseil de l'Europe, Strasbourg, 1975.
van Eck, J.A.: Threshold Level English. Pergamon Press, Londres, 1980.
van Eck, J.A. et Trim, J.L.M.: Threshold Level 1990. Conseil de l'Europe, Strasbourg, 1990.
Widdowson, H.G.: Language Teaching as Communication. Oxford University Press, Oxford, 1978.

AUTRES SOURCES

Alderson, J.C., Clapham, C. et Wall, D.: Language Test Construction and Evaluation. Cambridge University
Press, Cambridge, 1995.
Alderson, J.C. et Hughes, A. (sous la direction de) : Issues in Language Testing. ELT Documents 111,
British Council, Londres, 1981.
Alderson, J.C. et North, B. (sous la direction de) : Language Testing in the 1990s: The Communicative
Legacy. Modern English Publications et le British Council, Londres, 1991.
Alderson, J.C,, Krahnke, K. et Stansfield, C. (sous la direction de): Reviews of English Language Proficiency
Tests. TESOL, Washington, DC, 1987.
Bachman, L.F. et Palmer, A.: Language Testing in Practice. Oxford University Press, Oxford, 1996.
Barlow, M.: Formuler et valuer ses objectifs en formation. Chronique sociale, 3e tirage, Lyon, 1989.
Bolton, S.: valuation de la comptence communicative en langue trangre. CREDIF-Hatier, Coll. LAL,
Paris, 1987.
Carroll, B.J.:Testing Communicative Performance. Pergamon, Londres, 1980.

34
Delorme, C.: L'valuation en questions. ESF diteur, 2e dition, Paris, 1987.
Henning, G.: A Guide to Language Testing. Newbury House, Cambridge, Mass.,1987.
Hill, C. et Parry, K.: From Testing to Assessment. Longman, 1994.
Lienert, G.A. et Raatz, U.: Testaufbau und Testanalyse (5. neubearb. und erw. Auflage). Beltz, Psychologie
Velags Union, Weinheim, 1994.
Luissier, D.: Evaluer les apprentissages dans une approche communicative. Hachette, Paris, 1992.
Mager, R.F.: Comment mesurer les rsultats de l'enseignement. Bordas, Paris, 1986.
Underhill, N.: Testing Spoken Language. Cambridge University Press, Cambridge, 1987.
Weir, C.: Communicative Language Testing. Prectice Hall, 1990.
Weir, C.: Understanding and Developping Language Tests. Prenctice Hall, 1993.

35

ANNEXE 1: ANALYSE D'ITEMS

L'analyse statistique des notes d'un test fournit au concepteur/laborateur du test des informations utiles sur
la productivit des items isols et permet d'viter l'utilisation d'items errons ou de mdiocre qualit dans la
version finale de l'examen. Toutefois, il est important de se rendre compte qu'un item mdiocre peut produire
des statistiques acceptables; c'est pourquoi les rsultats de ce type d'analyse ne sont que l'un des facteurs
parmi d'autres qui permettent de dterminer quels matriels utiliser dans les preuves d'examen.
Les donnes recueillies lors du pr-testage peuvent tre analyses selon des mthodes statistiques classiques
ainsi que selon la mthode de Rasch. Pour une analyse statistique classique, on utilise un logiciel comme
MicroCAT. Ce type d'analyse fournit des informations sur la productivit des items traits individuellement,
telles que l'indice de facilit de l'item, sa valeur discriminante et le pointage des distracteurs.
Facilit de l'item
Le fait de connatre l'indice de facilit des items permet au concepteur/laborateur de s'assurer que le
matriel d'valuation est au niveau convenable de difficult pour les candidats concerns. La facilit est la
proportion de rponses correctes un item, transcrite sur une chelle de 0 1 ou exprime en pourcentage.
Sur le listage prsent dans la Figure 4, l'indice de facilit de chaque item figure dans la colonne "Proportion
de rponses correctes". L'item 8, par exemple, a un indice de facilit de 0.38 (ce qui signifie que 38% des
candidats au pr-test ont obtenu la note attribue cet item). Le niveau convenable pour un test se situe au
point milieu de l'amplitude de difficult mais on peut situer une amplitude acceptable de facilit d'un item de
33 67 ou de 20 80. En fait, le niveau convenable peut varier d'un test l'autre en fonction du but du test;
un test de niveau de capacit donn la fin d'un cycle d'tudes peut exiger un niveau de facilit diffrent de
celui qu'il faut pour un test d'aptitude.
Un test devrait contenir quelques items aux deux extrmits de l'amplitude. Dans certains tests on place
quelques items faciles au dbut pour permettre aux candidats de "s'chauffer"; il arrive que l'on ne compte
pas ces items dans la note finale.
Les items qui n'entrent pas dans l'amplitude acceptable sont rejets ce niveau; il ne s'agit pas de les
gaspiller pour autant. Si une banque d'items existe, on les y dposera et ils pourront servir pour un autre test
un autre niveau.

36
Figure 4
Feuille de rsultats de MicroCAT Analysis
(Statistiques d'items)
MicroCAT (TM) Testing System
Copyright: Assessment System Corporation, 1982, 1984, 1986, 1988, 1993
Programme d'analyse d'items et de test - ITEMAN (TM) Version 3.50
Statistiques d'items
Autres statistiques
___________________________________________________________________________________
NumcheProIndice
Coef.
OpProBas
Haut
Coef.
ro
lonpor-tion de
de cotions
porde cod'ornage
de rp.
discrirlation
rladre
de
corminatotale
tion
tion
l'item
rectes
tion
bisbisriale
riale
de
de
point
point

2-1

2-2

.38

.71

.52

.42

.48

.42

A
B
C
D
Autre

.00
.38
.12
.49
.01

.00
.13
.11
.74
.00

.00
.66
.12
.23
.00

.48
-.01
-.44
-.11

A
B
C
D
Autre

.07
.11
.10
.71
.01

.11
.18
.16
.53
.00

.01
.04
.00
.95
.00

-.16
-.22
-.22
.42
-.13

10

2-3

.68

.56

.56

A
B
C
D
Autre

.68
.21
.03
.07
.01

.39
.36
.08
.14
.00

.96
.04
.00
.00
.00

.56
-.37
-.24
-.22
-.13

11

2-4

.57

.49

.49

A
B
C
D
Autre

.18
.15
.08
.57
.01

.28
.19
.16
.33
.00

.08
.09
.01
.83
.00

-.27
-.12
-.31
.49
-.13

A
B
C
D
Autre

.09
.20
.61
.09
.02

.18
.28
.32
.18
.00

.00
.03
.96
.01
.00

-.22
-.27
.54
-.28
-.09

A
B
C
D
Autre

.11
.01
.81
.07
.00

.20
.03
.61
.17
.00

.04
.00
.96
.00
.00

-.29
-.11
48
-.34

A
B
Autre

.93
.07
.01

.81
.18
.00

1.00
.00
.00

.39
-.39
-.03

12

13

14

2-5

2-6

3-1

.61

.81

.93

.63

.35

.19

.54

.48

.39

Cl

37
Valeur discriminante de l'item
Ces statistiques traitent de la capacit de l'item distinguer les candidats forts des faibles. Ceux dont la note
finale est leve devraient rpondre correctement n'importe lequel des items dans une proportion plus
leve que ceux dont la note est faible. On utilise couramment deux mthodes pour mesurer la valeur
discriminante de l'item:
i)
ii)

l'indice de discrimination;
le coefficient de corrlation bisriale de point.

On peut les trouver dans les colonnes intitules Indice de discrimination et Coefficient de corrlation
bisriale de point dans la Figure 4 (MicroCAT).
i.

Indice de discrimination

Une fois qu'un certain nombre de candidats ont pass un test on peut les classer (ou les placer en ordre) selon
les notes qu'ils ont obtenues. On peut alors distinguer deux groupes dans l'chantillon: les premiers 30% qui
reprsentent le groupe de capacit leve, et les derniers 30% qui reprsentent le groupe de faible capacit.
Le nombre de candidats dans chacun de ces deux groupes est identique et on le reprsentera par N. On
compte le nombre de candidats qui ont russi l'item dans chaque groupe pour obtenir:
nH

(nombre des candidats appartenant au groupe de capacit leve qui ont rpondu correctement
l'item);

nL

(nombre des candidats appartenant au groupe de faible capacit qui ont rpondu correctement
l'item).

et

On peut alors dfinir comme suit l'indice de discrimination di:

di=nH-nL
N
di peut prendre n'importe quelle valeur entre -1 et +1.
Un indice de discrimination di de +1 indique que tous les "bons" tudiants rpondent correctement cet item
et que tous les candidats "faibles" y chouent.
Un indice de discrimination di de -1 indique que tous les "bons" tudiants chouent cet item et que tous les
candidats "faibles" y rpondent correctement.
Les items dont le di est gal ou suprieur 0.30 sont, en principe, considrs comme appropris pour ce
groupe particulier. Il faut souligner que l'indice de discrimination est en rapport aux capacits de ce groupe
donn. Par exemple, l'item 8 a un indice de discrimination de 0.52 ce qui permet de penser qu'il distingue les
candidats forts des faibles dans ce groupe, tandis que l'item 14 ne fait qu'une distinction mdiocre.

38
ii.

Coefficient de corrlation bisriale de point

La corrlation bisriale de point, rpb, est donne par la formule suivante:

x -x
p

r pb = ________________ pq
sX
dans laquelle

est la note moyenne totale de tous les candidats qui ont rpondu correctement cet item.

est la note moyenne totale de tous les candidats qui n'ont pu rpondre cet item

est la proportion du nombre total de candidats qui ont rpondu correctement cet item

est la proportion du nombre total de candidats qui n'ont pu rpondre cet item

sX

est l'cart standard des notes du test pour tous les candidats.

En rgle gnrale, les items dont la valeur du coefficient de corrlation bisriale de point est gale ou
suprieure 0.30 sont considrs comme acceptables. Lorsqu'une corrlation bisriale de point apparat avec
une valeur ngative, cela signifie que les candidats forts n'ont pas su choisir la bonne rponse cet item. Cela
peut faire penser qu'une option autre que celle prvue comme correcte peut apparatre trs lgitimement
comme juste; on appelle distracteur positif une option de ce type. On ne peut pas utiliser un tel item dans un
test mais il est possible de le rviser en enlevant le distracteur positif et en pr-testant de nouveau.
Pointage du distracteur
L'analyse statistique des items choix multiple indiquera si les distracteurs fonctionnent ou non de manire
adquate, autrement dit, si chacun est assez plausible pour attirer quelques candidats mais pas si prs de la
rponse juste qu'un plus grand nombre de candidats le choisissent au lieu de choisir la cl (la rponse juste)
La feuille de rsultats du traitement MicroCAT montrera la proportion de candidats qui choisissent chacun
des distracteurs dans la colonne "Proportion totale". Regardons, par exemple, l'analyse suivante d'un item
choix multiple 4 options dont la cl est C:
A
B
C
D

.15
.10
.63
.12

Dans ce cas prcis, les statistiques rvlent un item o la cl et les autres distracteurs fonctionnent tous de
manire satisfaisante. Dans l'idal, chaque distracteur pour un item devrait attirer au moins 5% des candidats
(c'est--dire que chaque distracteur devrait avoir une valeur gale ou suprieure 0.05).

39
Dans un autre cas, cependant, la cl de l'item est A et les indications de la colonne "Proportion totale" sont
les suivantes:
A
B
C
D

.95
.04
.01
.00

Il apparat l'vidence que cet item tait si facile que presque tous les candidats y ont rpondu correctement
et que le distracteur D tait si faible que personne ne l'a choisi.
Les colonnes intitules "Numro d'ordre" et chelonnage de l'item" apparaissent aussi sur la feuille du
traitement MicroCAT. "Numro d'ordre" indique le numro d'ordre de l'item dans l'ensemble des donnes;
"chelonnage des donnes" indique le numro de l'chelle sur laquelle l'item a t plac et sa position sur
cette chelle. Par exemple l'item 8 , dans l'ordre gnral des items de cet ensemble de donnes, est le premier
dans un sous-ensemble de 6 items avoir t plac sur l'Echelle 2
On peut aussi tirer des informations sur la productivit du pr-test dans son ensemble avec ce groupe
particulier de candidats. La Figure 5 en donne un exemple. Le sens des termes utiliss sous "Statistiques
d'chelle" est donn ci-dessous:
Nombre d'items
Nombre de candidats
Moyenne

Variance
Dviation standard
Distribution symtrique
Voussure
Minimum
Maximum
Mdiane (ou Mdian Md)
Alpha

Erreur standard de mesure

Nombre d'items traits dans l'analyse


Nombre de candidats inclus dans l'analyse
Pour la notation dichotomique d'items - le nombre moyens d'items qui ont
fait l'objet d'une rponse juste; pour des items choix multiple - la note
moyenne des candidats de l'chantillon
Mesure de la dispersion des notes autour de la moyenne
Racine carre de la variance
Forme d'une distribution
Sommet de la distribution
Note du candidat le plus faible
Note du candidat le plus fort
Note du candidat moyen
Coefficient alpha de fidlit pour chaque chelle allant de 0.0 1.0; c'est un
indice de l'homognit d'une chelle et, dans l'idal, la valeur devrait tre
aussi prs que possible de 1.
Indique "l'erreur" prvisible dans une note donne.
ESM = DS (l-r(test))
DS = dviation (cart) standard
f (test) = fidlit du test
Nous pouvons tre srs que 70% des notes se situeront l'intrieur d'une
dviation standard de la moyenne (+- 1 ESM) et srs 95% que les notes se
situeront l'intrieur de 2 dviations standard (+- 2 ESM).
Exemple: un tudiant obtient une note de 67 un test avec une dviation
standard de 9 et un coefficient de fidlit de 0.9

40
SEM = 9(1-0.9) = 2.8
Nous pouvons tre srs 70% que la note du candidat se situe entre 64.2 et
69.8.
Nous pouvons tre srs 90% que la note du candidat se situe entre 61.4 et
72.6.
Indice moyen de difficult
un item (moyenne P)

Proportion moyenne de rponses justes un item


(pour les items dichotomiques seulement)

Item moyen - total

Moyenne de corrlation bisriale de point transversalement tous les items


de l'chelle (pour les items dichotomiques seulement)

Corrlation bisriale moyenne


de point

Moyenne de corrlation bisriale transversalement tous les items de


l'chelle

Note maximum (groupe


faible)

Note maximum qu'un candidat plac dans le groupe


faible peut obtenir (les derniers 27%)

N (groupe faible)

Nombre de candidats du groupe faible (les derniers 27%)

Note minimum (groupe fort)

Note minimum qu'un candidat plac dans le groupe


fort peut obtenir (les premiers 27%)

N (groupe fort)

Nombre de candidats du groupe fort (les premiers 27%)

41
Figure 5
Feuille de rsultats de MicroCAT Analysis
Statistiques d'chelles

MicroCAT (TM) Testing System


Copyright: Assessment System Corporation, 1982, 1984, 1986, 1988, 1993.
Programme d'analyse d'items et de test - ITEMAN (TM) Version 3.50
15 heures 59
Option de donnes absentes: traitement informatique des statistiques sur toutes les donnes disponibles
Il y avait 270 candidats pour ces donnes.
Statistiques d'chelles
Echelle
1
2
3
4
---------------------------------------------------------------------------------Nombre d'items
5
10
10
10
Nombre de candidats
270
270
270
270
Moyenne
3.230
6.633
8.422
8.163
Variance
0.725
3.321
1.755
2.588
Dviation standard
0.851
1.822
1.325
1.609
Distribution
0.047
-0.348
-0.361 -0.709
symtrique
Voussure
-0.491
-0.202
3.043 -0.148
Minimum
1.000
1.000
2.000
3.000
Maximum
5.000
10.000 10.000 10.000
Mdiane (ou Mdian
3.000
7.000
9.000
8.000
Md)
Alpha
0.091
0.431
0.318
0.499
Erreur standard de
0.812
1.375
1.094
1.138
mesure (ESM)
Indice moyen de
0.646
0.663
0.842
0.816
difficult un item
(moyenne P)
Item moyen - total
0.428
0.406
0.378
0.415
Corrlation bisriale
0.676
0.547
0.602
0.621
moyenne de point
Note maximum
3
6
8
7
(groupe faible)
N (groupe faible)
168
116
115
89
Note minimum
4
8
9
9
(groupe fort)
N (groupe fort)
102
85
155
132

42

43
ANNEXE 2: GLOSSAIRE
administration
Date ou priode durant laquelle un examen a lieu. Certains examens sont administrs dates fixes plusieurs
fois par an, d'autres ont lieu la demande.
analyse de contenu
Moyen permettant de dcrire et d'analyser le contenu du matriel d'un test. L'objet de cette analyse est de
s'assurer que le contenu du test est pertinent par rapport ses spcifications. Elle est essentielle dans
l'tablissement de la validit de contenus et de la validit de construct.
analyse d'items
Description de la performance des items de tests individuels, employant gnralement des indices
statistiques classiques tels que la facilit ou la discrimination. On utilise pour cette analyse des logiciels tels
que MicroCAT Iteman.
appariement
Type d'preuve o le candidat doit relier entre eux des lments apparaissant dans deux listes spares. Une
preuve d'appariement consiste slectionner la phrase correcte qui compltera chacune des phrases
tronques proposes. Lors des preuves de comprhension crite on peut, par exemple, faire choisir dans une
liste le type de vacances ou de livres correspondant la description des gots ou des besoins d'un personnage
prcis.
attribut
Caractristique physique ou psychologique d'un individu (comme la capacit langagire, par exemple) ou
chelle de mesure servant dcrire cette caractristique.
banque d'items; syn.: itmothque
Gestion des items qui permet de stocker des informations afin de pouvoir laborer des tests aux contenu et
difficults connus. Une base de donnes informatise est gnralement utilise cet effet. Elle met en uvre
la thorie de l'attribut latent, ce qui signifie que les items peuvent tre mis en relation les uns avec les autres
au moyen d'une chelle de difficult commune.
barme de notation
Liste de toutes les rponses acceptables aux items d'un test. Le barme permet au correcteur d'accorder la
note approprie.
calibrage
Dtermination de l'chelle pour un ou plusieurs tests. Le calibrage peut impliquer des items d'ancrage de
diffrents tests sur une sur une chelle de difficult commune (chelle thta). Quand un test est labor
partir d'items calibrs, les notes, en fonction de leur localisation sur l'chelle thta, indiquent la capacit du
candidat.
calibrer
Dans la thorie item-rponse: estimer la difficult d'un ensemble questions.
candidat
Individu qui prend part un examen ou un test. Appel aussi sujet.

44
caractristiques des mthodes de test
Caractristiques prcises des diffrentes mthodes de test. Elles peuvent inclure l'environnement, la
consigne, la langue dans laquelle sont donnes les instructions, la forme, etc.
classement
Conversion des notes obtenues en niveaux.
comptence structurale
Connaissance qu'un individu a des structures grammaticales d'une langue et sa capacit les utiliser.
composante
Partie d'un examen souvent prsente comme un test part entire, comportant un livret de consignes et une
limite de temps. Les composantes sont souvent des preuves bases sur les aptitudes langagires telles que la
comprhension ou la production orale. Egalement appel sous-test.
composition discursive
Tche crite dans laquelle le candidat doit, soit produire un discours propos d'un sujet sur lequel il peut y
avoir diffrentes prises de position, soit argumenter pour dfendre son propre point de vue.
consigne
Instructions donnes aux candidats afin de guider leurs rponses une tche prcise.
correcteur
Personne qui attribue une note aux rponses d'un candidat un test crit. Cette activit peut demander un
jugement expert ou, dans le cas d'une notation mcanique, la simple application d'un barme de notation.
correction d'preuves
Tche o le candidat doit relire un texte en cherchant des erreurs, par exemple d'orthographe ou de
structures. On peut galement lui demander de noter les erreurs et de fournir les formes correctes.
correction collective
Mthode de correction des preuves qui consiste runir tous les correcteurs pendant un temps limit, plutt
que de leur envoyer les tests corriger chez eux.
dclencheur
Support graphique ou crit qui permet d'obtenir une rponse du candidat dans les tests d'expression orale ou
crite.
descripteur
Brve description accompagnant un graphique en bande sur une chelle de notation. Elle rsume le degr de
comptence ou le type de performance attendu pour qu'un candidat atteigne une note prcise.
descripteur d'chelle
Se rfre la dfinition de descripteur.
discrimination
Le fait qu'un item puisse tablir une distinction entre des candidats en les classant selon un degr allant du
plus faible au plus fort. On utilise plusieurs indices de discrimination. Certains (comme le point bisrial) sont
bass sur la corrlation entre la note obtenue un item et un critre. Celui-ci peut tre la note totale obtenue
ce test ou une autre mesure externe de niveau de capacit. D'autres critres sont bass sur la diffrence de

45
difficult de l'item pour des groupes de capacit faible et leve. Dans la thorie item-rponse, les modles
de paramtre 2 et 3 dsignent l'item de discrimination comme paramtre-A.
document semi-authentique
Texte authentique dont le vocabulaire ou la grammaire a t adapt au niveau des candidats pour les besoins
de l'valuation.
double notation
Mthode d'valuation o la performance du candidat est valide de faon indpendante par deux personnes.
chelle
Ensemble de catgories destines mesurer quelque chose. On en distingue quatre sortes: chelle nominale,
ordinale, d'intervalle et de rapport.
chelle commune
Faon de reporter les notes obtenues deux ou plusieurs tests sur une chelle commune, permettant une
comparaison directe des rsultats. Cela est faisable si les notes brutes ont t au pralable transformes par
une procdure statistique comme, par exemple, le calibrage.
chelle de notation; syn.: chelle d'valuation
Echelle compose de plusieurs catgories qui permettent d'exercer un jugement subjectif. Ce type d'chelle
est frquemment accompagn de descripteurs qui permettent d'interprter les catgories.
laborateur
Personne qui conoit un nouveau test.
laboration
L'ensemble du processus de production de matriel d'valuation et de rdaction d'preuves.
laboration de test
Action de slectionner des items ou des tches en vue de la production d'un test. Souvent prcde du prtestage ou de l'exprimentation du matriel. Les tches ou les items ncessaires l'laboration du test
peuvent tre slectionns dans une banque de matriel.
entre; syn. : apport
Matriel donn dans un test afin que le candidat produise une annonce approprie. Dans une preuve de
comprhension orale par exemple, le texte enregistr pourra tre accompagn d'un questionnaire crit.
erreur standard de mesure
Dans la thorie de la note vraie, l'erreur standard de mesure (Se) indique l'imprcision de la mesure. La
grandeur de l'erreur standard de mesure dpend de la fidlit (f) et de la dviation standard des notes (Sx).
Pour calculer Se, la formule est:
Se = Sx l-f
Si, par exemple, un candidat obtient une note vraie T, et si une dviation standard de mesure de Se revient
frquemment dans le test, cela signifie que, 68% des fois, la note observe sera dans le rang T+-Se, et que
95% du temps elle sera dans le rang T+-2Se.

46
essai; syn.: exprimentation
Etape de l'laboration des tches d'un test servant vrifier que le test fonctionne de la faon attendue.
Souvent utilis dans le cas de tches notation subjective telles que la composition ou l'essai et administr
une population limite.
examen rel (en grandeur nature)
Un test prt tre utilis et qui, pour cette raison doit tre gard en scurit.
examinateur; syn: valuateur.
Personne charge de noter, de faon subjective, la performance du candidat un test donn. Les valuateurs
sont gnralement qualifis dans leur domaine. On attend d'eux qu'ils se soumettent un processus de
formation et de standardisation. l'oral, on distingue parfois les rles d'examinateur et d'interlocuteur.
fidlit
Uniformit, constance ou stabilit des mesures. Plus un test est fidle, moins il contient d'erreurs
accidentelles. Un test prsentant une erreur systmatique, par exemple une distorsion qui dsavantagerait
certains groupes, peut tre fidle mais pas valide.
formes quivalentes; syn.: formes parallles, formes alternes
Diffrentes versions du mme test considres comme quivalentes car bases sur les mmes spcifications
et mesurant la mme comptence. Dans la thorie classique du test, pour rpondre aux exigences d'une
vritable quivalence, les diffrentes formes du test doivent avoir le mme type de difficult, la mme
variance, la mme covariance et avoir un critre concordant lorsqu'ils sont administrs aux mmes
personnes. Dans la pratique, l'quivalence est trs difficile atteindre.
impact
Effet produit par un examen, la fois en termes d'influence sur le processus ducatif en gnral et pour les
individus intresss par les rsultats de cet examen.
indice de facilit
Proportions de rponses correctes un item, transcrite sur une chelle de 0 1. Egalement appele valeur-p.
item; syn.: question
Chaque point particulier d'un test auquel on attribue une ou plusieurs notes spares. Exemples: un "blanc"
dans un test de closure, une des questions dans un questionnaire choix multiple quatre options, une
phrase donne pour une transformation grammaticale, une question dont la rponse attendue est une phrase
complte.
item choix multiple; syn.: question choix multiple (QCM)
Type d'item qui consiste en une question ou une phrase incomplte, accompagne d'un choix de rponses ou
de propositions pour complter la phrase (options). Le candidat devra choisir l'option correcte (cl) parmi
trois, quatre ou cinq possibilits. Aucune production langagire ne lui est demande. C'est pour cette raison
qu'on utilise habituellement les items choix multiples dans les tests de comprhension crite et orale. Ils
peuvent tre discrets ou bass sur du texte.
item bas sur un texte
Item qui s'appuie sur un discours suivi par exemple items choix multiple bass sur une comprhension de
texte.

47
item discret
Item contenant en lui-mme tous les lments de la question. Il n'est li ni un texte, ni d'autres items, ni
un quelconque matriel complmentaire. Le choix multiple est un exemple de ce type d'item.
item discret spcifique
Item discret valuant un point spcifique, par exemple une structure ou du lexique, et n'ayant aucune relation
avec d'autres items. La vulgarisation de ce type d'item dans les tests de langue est due Robert Lado dans les
annes 60.
item de construction de mots
Type d'item dans lequel le candidat doit produire une forme d'un mot partir d'un mot de la mme famille
qui lui est donn comme entre.
item de liaison
Renvoie la dfinition d'item d'ancrage ou de rfrence.
item de rfrence ou d'ancrage
Item intgr deux ou plusieurs tests et permettant d'estimer soit la diffrence du degr de difficult entre les
tests, soit la diffrence de performance entre les diffrents groupes de candidats.
item de transformation
Se rfre la dfinition de transformation de phrase.
jeu de rle
Type de tche parfois utilise dans les tests d'expression orale et dans laquelle les candidats doivent se
projeter dans une situation de communication prcise ou jouer un rle particulier.
langue sur objectifs spcifiques
Enseignement ou valuation de la langue centr sur un domaine particulier de la langue utilise dans des
activits ou une profession particulire; par exemple, anglais des contrleurs ariens, espagnol du commerce.
lecteur optique; syn.: scanner
Appareil optique utilis pour scanner l'information directement recueillie partir des feuilles de notes ou des
feuilles de rponse. Les candidats ou les examinateurs marquent les rponses aux items sur une feuille de
notes et cette information est automatiquement lue par l'ordinateur.
lexique
Terme utilis pour dsigner le vocabulaire.
mesure
D'une faon gnrale, il s'agit du processus qui permet de trouver la somme de quelque chose par
comparaison avec une unit fixe, comme lorsqu'on utilise une rgle pour mesurer la longueur. En sciences
sociales, la mesure se rfre souvent la quantification des caractristiques des individus comme, par
exemple, la comptence langagire.
mise en forme
Procdure qui consiste modifier le matriel d'valuation soumis par des producteurs d'items et le mettre
dans la forme dfinitive qu'il aura pour l'examen.
modle de Rasch

48
Modle mathmatique, connu galement comme le modle de la logistique simple, qui postule qu'il existe
une relation entre la probabilit qu'un individu ralise une tche et la diffrence entre la capacit de l'individu
et la difficult de la tche. Equivalant mathmatiquement au modle paramtre unique dans la thorie de
l'item rponse. Le modle de Rasch a t appliqu de diffrentes faons, par exemple pour traiter les
rponses chelonnes ou les diffrentes facettes prendre en compte dans la "difficult" d'une tche.
moyenne
La moyenne est la mesure de la tendance centrale. On obtient la note moyenne un test en additionnant
toutes les notes obtenues et en divisant ce total par le nombre de candidats.
niveau
a) La note obtenue un test peut tre communique au candidat sous forme de niveau, par exemple sur une
chelle de A E, o A reprsente le niveau le plus lev, B un bon niveau, C un niveau passable et D et E
des niveaux insuffisants.
b) On fait souvent rfrence une srie de niveaux pour dsigner le niveau de capacit requis pour qu'un
tudiant soit class dans tel ou tel groupe ou lorsqu'il a russi un test donn. Les termes les plus utiliss
pour dsigner ces niveaux sont "lmentaire", "intermdiaire", "avanc", etc.
niveau de survie (Waystage Level)
Rfrentiel d'un niveau lmentaire de comptence en langue trangre, publi pour l'anglais en 1977 par le
Conseil de l'Europe et revu en 1990. Moins exigent que le Niveau seuil, il ne couvre qu'environ la moiti des
apprentissages dfinis par ce dernier.
notation
a)Attribution d'une note aux rponses d'un candidat un test. Cette activit peut demander un jugement
professionnel ou l'application d'un barme o sont indiques toutes les rponses acceptables
b)Note accorde et qui reprsente le rsultat du processus d'valuation.
notation par ordinateur
Diffrentes mthodes utilisent l'informatique afin de minimiser les erreurs dans les notations des tests
objectifs. On peut, par exemple, scanner les feuilles de notes des candidats l'aide d'un lecteur optique afin
d'analyser les donnes.
notation standardise (mcanique)
Mthode de notation dans laquelle on n'attend pas des valuateurs qu'ils exercent quelque comptence ou
jugement subjectif que ce soit. La bote est tablie d'aprs un relev de toutes les rponses acceptables pour
chaque question du test.
notes
Le rsultat d'un examen, souvent exprim en pourcentage. cause des rajustements dus au jeu des
coefficients, la note ne correspond pas toujours au total des points.
phrase complter
Type d'item dans lequel seule une moiti de la phrase est donne. La tche du candidat consiste complter
la phrase, soit en fournissant les mots convenables (ventuellement d'aprs un texte), soit en choisissant ces
mots parmi diffrentes possibilits.

pondration; syn.: coefficient

49
Action d'assigner un nombre maximum diffrent de points un item, une tche ou une preuve afin de
changer sa contribution relative au total des points en fonction des autres parties du test. Si, par exemple, on
attribue une note double tous les items de la tche n 1 d'un test, la tche n 1 sera proportionnellement plus
importante que les autres tches dans le total des points obtenus.
pr-testing; syn.: pr-testage
Etape de l'laboration du matriel des tests pendant laquelle on essaie les items sur des chantillons
reprsentatifs de la population cible afin de dterminer leur niveau de difficult. Suivant une analyse
statistique, les items considrs comme satisfaisants pourront tre utiliss dans des tests rels.
production de tests
Procdure de slection des items qui figureront dans la version finale de l'examen auxquels on ajoute les
consignes et la grille de correction.
question
Parfois utilis pour dsigner une tche ou un item dans un test.
question intgre
Se rfre des questions ou des tches raliser qui mettent en jeu plus d'une habilet ou sous-habilet.
Exemple: complter un test de closure, participer un entretien oral, lire une lettre et y rpondre.
question lacunaire
Tout type d'item qui demande au candidat d'insrer du matriel crit - des lettres, des chiffres, un mot isol,
plusieurs mots, des phrases ou des paragraphes - dans les espaces blancs amnags dans un texte. La rponse
peut tre produite par le candidat ou bien slectionne dans une liste.
question ouverte; syn.: question rponse construite, question rponse libre
Type d'item ou de tche dans un test crit qui demande au candidat de produire une rponse (et non de la
slectionner). L'objectif de ce type d'item est de faire produire une rponse relativement libre et dont la
longueur peut aller de quelques mots un grand nombre de phrases. Le barme proposera alors tout un choix
de rponses acceptables.
registre
Diffrentes varits de langue correspondant des activits particulires ou un formalisme plus ou moins
grand.
rponse
Comportement du candidat manifest par les entres donnes dans un test. Par exemple, la rponse donne
un item choix multiple ou le travail produit dans un test d'expression crite.
rponse cl
a) Choix correct dans un item choix multiple ( voir: item choix multiple)
b) Plus gnralement, un ensemble de rponses correctes ou acceptables.
rvision; syn.: contrle
Etape de l'laboration d'un test pendant laquelle les laborateurs valuent le matriel produit et dcident de
rejeter ce qui ne convient pas aux spcifications du test et de poursuivre la mise en forme de ce qui convient.

script

50
Feuille contenant les rponses du candidat un test, dans les tches de type rponse ouverte.
situation de communication relle
Point de vue selon lequel les tests devraient inclure des tches ressemblant le plus possible des activits
relles. Le contenu d'un test valuant si un candidat est capable de suivre un cours de langue trangre
devrait, par exemple, tre bas sur une analyse de la langue et des activits langagires particulires ce
cours.
spcification
Description des caractristiques d'un examen indiquant ce qui est test, comment ainsi que le nombre et la
longueur des preuves, les types d'item utiliss, etc.
spcifications du Threshold Level ou du Niveau seuil
Description dtaille d'un niveau de langue en anglais ou en franais conue par le Conseil de l'Europe. On
estime qu'un dbutant a besoin d'environ 375 heures d'apprentissage pour l'atteindre.
syllabus
Document dtaill o sont lists tous les domaines d'un programme d'tudes particulier et l'ordre dans lequel
le contenu est prsent.
tche
Combinaison de consignes, d'entres et de rponses. Exemple: texte lire accompagn d'items choix
multiple auxquels on peut rpondre en suivant une seule consigne.
tche d'appariement multiple
On propose au candidat un certain nombre d'items complter sous forme de questions ou de phrases,
gnralement partir d'un texte crit. Les rponses sont fournies dans une banque de mots ou de phrases qui
peuvent tre utiliss plusieurs fois. L'avantage de cette prsentation est que les options ne disparaissent pas
au fur et mesure que le candidat progresse dans le test (comme c'est le cas dans d'autres formes
d'appariement); l'exercice ne devient donc pas de plus en plus facile.
tche d'criture dirige
Se rfre la dfinition de production crite guide, savoir 311: le candidat doit produire un texte crit,
dans lequel des informations graphiques ou textuelles, telles que des images, des lettres, des cartes postales
ou des modes d'emploi, sont utiliss pour contrler et standardiser la rponse attendue.
test de closure
Type de tche lacunaire dans laquelle des mots entiers sont supprims d'un texte. Dans un test de closure
traditionnel, on supprime un mot tous les x mots. On appelle galement test de closure l'exercice dans lequel
des phrases courtes sont supprimes d'un texte, ou lorsque l'laborateur choisit les mots qui seront
supprims, comme c'est le cas dans le test de closure rationnel. Les candidats devront fournir les mots
manquants (test ouvert) ou les choisir dans une liste (choix multiple ou test de closure lacunes slectives).
Le corrig d'un test ouvert peut comporter soit le mot exact (le mot supprim du texte original tant seul
accept comme rponse correcte), soit les mots acceptables (dans ce cas une liste de mots acceptables est
donne au correcteur).
test lacunaire choix multiple
Type d'item d'un test pour lequel le candidat doit choisir parmi plusieurs options la phrase ou le mot correct
insrer dans une lacune du texte.

51
test objectif
Test auquel on peut appliquer un barme de notation et qui ne fait pas appel une opinion d'expert ou un
jugement subjectif.
texte
Discours suivi, crit ou oral, utilis pour laborer un ensemble d'items dans un test.
thorie de l'item-rponse TQR
Groupe de modles mathmatiques permettant de mettre en rapport la performance d'un candidat un test
avec son niveau de capacit. Ces modles se fondent sur la thorie fondamentale qui spcifie que la
performance attendue d'un individu une question ou un item donn d'un test est fonction la fois du
niveau de difficult de la question et du niveau de capacit de l'individu.
transfert d'information
Technique d'valuation qui implique qu'une information donne sous une certaine forme soit prsente d'une
faon diffrente. Par exemple, reporter les informations d'un texte sur un diagramme; transformer une note
informelle en annonce officielle.
transformation de phrases
Type d'item dans lequel l'amorce donne est une phrase complte, suivie par le premier ou les deux premiers
mots d'une seconde phrase qui reprend le contenu de la premire mais sous une forme grammaticale
diffrente. La premire phrase peut tre, par exemple, la forme active et le candidat devra la prsenter la
forme passive.
validit
Degr auquel les notes d'un test permettent de tirer des conclusions appropries, significatives et utiles, en
relation avec l'objet du test. On distingue diffrents aspects de la validit tels que la validit de contenu, la
validit critrielle et la validit de construct; elles donnent diffrentes sortes de preuves permettant de juger
la validit globale d'un test en fonction de ses objectifs.
validit apparente
Qualit d'un test ou de toute autre mesure qui semble correcte et adquate l'objet mesur. Il s'agit l d'un
jugement subjectif plus que d'un jugement bas sur une analyse objective du test. La validit apparente est
souvent considr comme une fausse forme de validit. On l'appelle galement attrait d'un test (test appeal).
validit concourante
On dit d'un test qu'il a une validit concourante si les notes obtenues sont en corrlation leve avec un
critre externe reconnu qui mesure le mme domaine de connaissance ou de capacit.
validit convergente
On dit d'un test qu'il a une validit convergente lorsqu'il y a une corrlation leve entre les notes obtenues
ce test et celles obtenues un autre test mesurant le mme construct (indpendamment de la mthode). Il
s'agit l d'un autre aspect de la validit de construct.
validit critrielle
On dit d'un test qu'il a une validit critrielle si on peut dmontrer le rapport entre les notes obtenues et un
critre externe qui est cens mesurer la mme capacit. Lors de l'absence de critre, l'information fournie
indique jusqu' quel point le test peut prdire le comportement futur.
validit de construct; syn.: validit hypothtico-dductive; validit conceptuelle.

52
On dit d'un test qu'il a une validit de construct si les notes obtenues peuvent tre interprtes comme une
thorie sur la nature d'un construct ou sur le rapport de ce construct avec d'autres. On pourrait prdire, par
exemple, que deux tests valides de comprhension orale classent les apprenants de la mme faon, mais
chacun d'eux aurait un rapport plus loign avec les notes obtenues un test de comptence grammaticale.
validit de contenu
On dit d'un test qu'il a une validit de contenu si les items ou les tches dont il est compos constituent un
chantillon reprsentatif des items ou des tches pour une capacit ou un domaine de connaissances prcis.
validit discriminante
On dit d'un test qu'il a une validit discriminante si la corrlation qu'il entretient avec des tests valuant
diffrents attributs est plus faible que celle qu'il a avec des tests valuant le mme attribut, sans tenir compte
de la mthode d'valuation. Cela peut tre considr comme un aspect de la validit de construct.
validit prdictive
Indique la faon dont un test peut prdire la future performance dans une aptitude donne.

(Ce glossaire est extrait du glossaire multilingue de l'valuation produit par ALTE - Association of
Language Testers in Europe et publi par Cambridge University Press dans la srie Cambridge
Studies in Language Testing) :
Reliure cartonne 0 521 65099 2
Reliure papier glac 0 521 65877 2
CD-ROM 0521 658241