Vous êtes sur la page 1sur 16

Comparaisons internationales

La mesure de la littératie dans PISA :


la méthodologie est la réponse,
mais quelle était la question ?
Ce texte reprend celui d’un article paru dans la Revue française de Pédagogie, INRP, 2006.

L’objectif de cet article est de montrer Pierre Vrignaud


l’interaction entre les aspects vrignaud.pierre@wanadoo.fr
méthodologiques et la manière dont est Université Paris X Nanterre
conceptualisée et définie la littératie EA 39 84 - Laboratoire « Travail et évolution professionnelle »
dans l’enquête PISA. Pour introduire le
thème on évoque d’abord les changements
conceptuels dont a été l’objet l’évaluation Descripteurs (TEE) :
des acquis des élèves dans les enquêtes Mots-clés : Littératie, comparaisons internationales, psychométrie, MRI
internationales depuis les premières
enquêtes de l’IEA jusqu’à l’enquête PISA.
Les enquêtes internationales sur par l’IEA à partir des années 1950 -, en
Après avoir rappelé que toute mesure
est un construit, on expose les théories l’évaluation des acquis des élèves et faisant glisser la mesure du contenu
psychométriques qui fondent les modèles de parmi elles, l’enquête PISA témoi- des enseignements vers une compé-
mesure utilisés pour l’évaluation des acquis gnent des changements conceptuels tence suffisamment large pour consi-
des élèves. La présentation des approches
profonds qui ont modifié l’objet de dérer que tous les systèmes scolaires
classiques permet d’introduire les concepts
de difficulté et de discrimination des items ces enquêtes au cours de la dernière ont pour objectif de l’enseigner.
ainsi que le concept de consistance globale décennie. À la différence des enquê- Dans cette optique, on argumente
d’une épreuve. On insiste sur les conditions tes internationales conduites pendant l’intérêt des enquêtes internationales
de validité des modèles psychométriques
un demi-siècle par l’IEA1, principale- en général et de l’enquête PISA en par-
qui posent des contraintes fortes sur
la façon dont la variable mesurée est ment centrées sur les acquis définis ticulier par le fait qu’elles fournissent
construite. On présente ensuite le modèle à partir des curricula, PISA (OECD, des informations sur des compétences
de mesure utilisé dans PISA qui appartient 1999) a introduit l’idée qu’il est plus très générales – transversales – qui
à la famille des modèles de réponse à pertinent d’évaluer les compétences interviennent dans la plupart des si-
l’item (MRI). PISA a privilégié le modèle
dit de Rasch, on discute des conséquences
pour travailler et vivre dans une so- tuations de la vie quotidienne et plus
de ce choix. On aborde ensuite un point ciété post-industrielle, compétences particulièrement de la vie profession-
très technique peu souvent abordé : celui considérées comme devant être le nelle. Telles qu’elles sont présentées,
de l’algorithme utilisé pour l’estimation produit, l’output des systèmes édu- ces compétences peuvent être consi-
des paramètres. La procédure utilisée
aboutit à estimer non pas une valeur par
catifs (Bottani et Vrignaud, 2005). dérées comme des interfaces entre
sujet mais à construire la distribution des Ce choix s’inscrit tout à fait dans la la formation initiale dont elles sont le
compétences de chaque sujet, on insiste logique des enquêtes américaines produit et le monde professionnel où
sur les conséquences de cette approche sur ce thème (NAEP, YALS, NALS2 elles sont mises en œuvre. Ces com-
sur la manière de conduire l’analyse des
résultats. Ensuite, on discute du caractère
voir ­Johnson, 1992) et de la première pétences sont porteuses de sens pour
réellement unidimensionnel de la variable enquête internationale sur la littéra-
du point de vue des contenus et du point tie (IALS2; Murray, Kirsch et Jenkins, NOTES
de vue méthodologique. On s’interroge 1998). Cette approche en termes de 1. International Association for the
sur la contradiction apparente qu’il peut
compétences plutôt que d’acquis peut Evaluation of Educational Achievement,
y avoir à considérer simultanément des
en français : Association internationale
sous-échelles et une échelle globale. apparaître comme l’œuf de Colomb
pour l’évaluation du rendement scolaire.
En conclusion, on revient sur la manière des enquêtes internationales. Elle a
d’interpréter la littératie telle qu’elle est
2. National Assessment of Education
permis d’éviter les difficultés que po- in Progress; Young Adult Litteracy
mesurée dans PISA en la mettant en relation
sait la construction d’un « méta-curri- Assessment; National Adult Litteracy
avec d’autres enquêtes visant à évaluer
culum » - opération indispensable aux Assessment; International Adult Litteracy
le même type de compétence.
Survey.
premières enquêtes mises en place

Éducation et formations n° 78 [ novembre 2008 ] 69


e
èm
Th

des utilisateurs divers, tant les cher- obéraient fortement la pertinence de (Wu et Adams, 2002) sont extrême-
cheurs (économistes, psychologues, l’interprétation d’un score unique. ment sophistiquées. Il paraît donc utile
sociologues, sciences de l’éducation) Ces critiques et débats font parfois de donner aux lecteurs intéressés un
que les décideurs des politiques oublier que la construction de tests a aperçu schématique de quelques uns
éducatives ainsi que les médias. Si permis le développement des métho- principaux points méthodologiques
l’avantage de cette approche est de des et des concepts qui fondent la comme la construction de l’échelle de
présenter une validité écologique im- mesure en sciences humaines, en par- compétence et l’algorithme d’estima-
portante de par son large spectre d’uti- ticulier, la psychométrie. La pierre de tion des scores à ces échelles. Cet ex-
lisation, son principal inconvénient est touche de l’évaluation en psychologie posé est évidemment technique mais
le danger de réification auquel cette et en éducation est de distinguer entre c’est justement un des problèmes
compétence peut donner lieu. Dans une performance et une compétence. cruciaux de ces enquêtes que la com-
le cadre de l’évaluation psychomé- On observe une performance d’un préhension des résultats et surtout de
trique qui est celui de ces enquêtes, sujet à une épreuve et on infère sur leurs limites est liée à des questions
les compétences sont avant tout des sa compétence (Mislevy, 1994). Loin méthodologiques complexes.
construits et ne sont pas séparables de des représentations naïves que l’idée De fait, l’enquête PISA est un
la manière dont ces construits ont été de calcul d’un score peut véhiculer, dispositif de mesure de la littératie et
opérationnalisés. Perdre de vue cette on cherche à estimer la compétence l’interprétation de ses résultats doit
caractéristique laisse la porte ouverte ces sujets. Il s’agit d’un processus se faire en gardant présent à l’esprit
à des généralisations abusives voire faisant appel à de nombreux concepts la manière dont cette compétence a
à des extrapolations que ne soutien- psychométriques et l’estimation de la été construite. Il est donc utile pour
nent pas réellement l’interprétation compétence obtenue est aussi éloi- expliciter ce qu’est et n’est pas la com-
des résultats. gnée du simple calcul d’un score par pétence évaluée dans PISA, de donner
Ce danger est bien identifié et sommation des bonnes réponses que et de discuter les éléments méthodo-
connu historiquement en psychologie peuvent l’être les premiers travaux logiques qui valident ce passage entre
à partir des problèmes liés à la mesure sur les localisations cérébrales des la performance à un ensemble de tests
de l’intelligence. On a d’abord critiqué recherches actuelles bénéficiant des et la compétence de populations de
les tests d’aptitudes intellectuelles avancées les plus récentes des tech- nombreux pays. L’objectif de cet ar-
pour leur caractère réducteur (mesure niques d’imagerie cérébrale.. ticle est de montrer les importantes
d’une intelligence plutôt académique) Les enquêtes internationales ont avancées méthodologiques qui ont été
et socialement biaisé (en particulier été, depuis leur origine, un laboratoire intégrées dans PISA pour construire
les débats autour de la possibilité d’essai et de développement des mé- un dispositif de mesure solide et, en
de construire des tests culture free thodologies psychométriques les plus même temps, de montrer que l’accent
ou culture fair ; sur ce point voir Vri- sophistiquées (on trouvera une présen- mis sur le dispositif de mesure a peut-
gnaud, 2002). Puis, les apports de la tation très complète en français de la être laissé dans l’ombre d’autres inter-
psychologie cognitive ont montré que méthodologie des enquêtes interna- rogations sur la nature et la mesure
l’approche unitaire de l’intelligence, tionales dans Rocher, 2003). Il faut de la compétence. Cet exposé néces-
véhiculée par l’emploi d’un score uni- dire qu’en plus du désir de l’ensemble sitera quelques rappels historiques qui
que (par exemple le QI), ne reflétait des participants de fournir aux utili- montreront que les méthodes utilisées
pas ou, du moins, reflétait imparfaite- sateurs des résultats présentant les dans PISA sont le produit d’une lon-
ment le fonctionnement psychologique meilleures garanties de fiabilité, ces gue histoire : celle de la psychométrie
des sujets (sur ce thème voir Huteau enquêtes présentaient des problèmes et des enquêtes sur l’évaluation des
et Lautrey, 1999). La pluralité des pro- méthodologiques redoutables comme acquis des élèves, en particulier aux
cessus et des stratégies mis en œuvre celui d’assurer l’équivalence de la me- États-Unis. On présentera d’abord les
par les sujets pour résoudre les pro- sure dans de multiples contextes lin- principaux concepts psychométriques
blèmes proposés n’était pas prise en guistiques et nationaux. Les méthodes selon l’approche classique. Puis, on
compte par le score global. Les varia- utilisées comme on peut le constater à présentera le modèle de mesure uti-
bilités tant inter qu’intra-individuelles la lecture du technical manual de PISA lisé dans les enquêtes internationales

70 Éducation et formations n° 78 [ novembre 2008  ]


Th
èm
e
en général et dans PISA en particulier. en œuvre, depuis les dispositifs de calculé à partir des items, en général
On insistera à la fois sur les avancées collecte des données jusqu’à la défi- en faisant la somme des points accor-
réalisées pour la mise au point de ce nition de normes de fiabilité (pour une dés pour des réponses correctes a une
dispositif et sur les difficultés qui présentation des théories et méthodes signification univoque. Ce qui ne serait
peuvent se rencontrer dans sa mise psychométriques, on se reportera, en pas le cas, par exemple, dans le cas
en œuvre et sa bonne compréhension français, à des ouvrages comme ceux où les items mesureraient des compé-
par les utilisateurs. En conclusion, on de Dickes et al., 1994 ou de Laveault tences différentes. C’est pourquoi on
reviendra sur les relations entre le et Grégoire, 2002). La démarche de parle ici d’homogénéité ou de consis-
dispositif de mesure et la nature de validation de la mesure en psycho- tance interne. L’analyse interne se fait
la compétence. métrie repose sur le principe selon à deux niveaux : local, celui des items
lequel toute mesure est un construit. et global, celui du score. Au niveau des
L’approche classique On parlera ici d’un modèle de mesure, items, on s’intéresse principalement
de la mesure et la démarche hypothético-déductive à deux de leurs caractéristiques : leur
psychométrique consiste à tester l’adéquation de ce difficulté et leur discrimination.
modèle de mesure aux données. Plu-
Indice de difficulté de l’item
La majeure partie des méthodes sieurs approches peuvent être mises
utilisées pour les enquêtes interna- en œuvre pour tester cette adéquation Dans le cas d’un score dichoto-
tionales sur les acquis des élèves ont (on en trouvera une présentation dans mique (bonne ou mauvaise réponse),
été élaborées au sein de la psycholo- les ouvrages cités plus haut). Les trois la difficulté de l’item est souvent es-
gie ou plutôt de la psychométrie. On modèles de mesure les plus généra- timée par la proportion d’élèves de
parle aujourd’hui de « l’édumétrie » lement utilisés sont l’approche clas- l’échantillon qui donnent une réponse
pour définir un champ équivalent à sique (formalisée par Lord et Novick, correcte à cet item. Le score moyen
celui de la psychométrie dans le do- 1969), les modèles de réponse à l’item est une variante pour des items poly-
maine de l’évaluation en éducation. (MRI) et les modèles structuraux. Les tomiques (réponses multiples ordon-
Cette distinction reste cependant une traitements des données des enquêtes nées). L’utilisation de cette propor-
distinction de surface dans la mesure internationales comme PISA utilisent tion observée comme estimation de
où les méthodes et les concepts sont majoritairement les MRI. Cependant, la difficulté peut être biaisée lorsque
largement similaires et où, bien sou- il est commode d’introduire les prin- la représentativité de l’échantillon
vent, les chercheurs qui travaillent et cipaux concepts psychométriques à n’a pu être démontrée. À l’extrême
publient dans l’un de ces deux champs partir de l’approche classique. dans le cas d’échantillons de com-
travaillent et publient également dans pétence très faible ou très élevée,
l’autre. La théorie classique l’estimation de la difficulté des items
des tests peut conduire à des estimations très
Les modèles de mesure différentes. Cette dépendance entre
On peut résumer le principe es- l’estimation de la difficulté des items
Pour introduire cette présentation sentiel de la psychométrie par la for- et l’estimation de la compétence des
des concepts de base de la psychomé- mule de l’équation [1] : sujets a été la source de nombreuses
trie, on peut rappeler que la mesure, Score observé = Score vrai + réflexions visant à obtenir des estima-
c’est à dire l’assignation de grandeurs Erreur de mesure [1]. tions indépendantes. Les MRI ont été
à des objets en respectant certaines On cherche à distinguer perfor- souvent présentés comme fournissant
propriétés de ceux-ci, a posé en psy- mance (les résultats observés) et une solution à ce problème.
chologie des problèmes particuliers compétence (l’aptitude, le trait qui a La gestion des non-réponses ou
qui ont abouti au développement de produit cette performance et que l’on plutôt des réponses manquantes est
solutions originales au sein de cette cherche à évaluer). L’étude de la fidé- un autre problème pour l’estimation
discipline. Ces méthodes se sont trou- lité interne est de s’assurer que le pas- de la difficulté des items et de la com-
vées rassemblées dans la psychomé- sage des items à la variable évaluée pétence des sujets. On peut identifier
trie qui définit les méthodes à mettre est fiable. Elle garantit que le score au moins trois types ­ différents de

Éducation et formations n° 78 [novembre 2008  ] 71


e
èm
Th

r­ éponses manquantes : 1) les omis- sation choisi. Pour permettre de trai- discriminant est un des principaux cri-
sions intermédiaires ; 2) les omissions ter les données, il faut que toutes les tères de sélection des items pour la
finales ; 3) les réponses manquantes paires de blocs soit présentes dans le construction définitive d’une épreuve.
structurelles. Les omissions intermé- dispositif expérimental. Il s’agit alors L’indice utilisé pour estimer le pouvoir
diaires ou finales correspondent à de réduire le nombre de combinaisons discriminant de l’item se fonde sur la
des items présents dans le protocole des paires de cahiers pour maîtriser corrélation entre l’item et le critère
du sujet mais auxquels il n’a pas ré- l’explosion combinatoire que pourrait évalué (en général le score au test). On
pondu. En général, on interprète les engendrer la nécessité de construire fait l’hypothèse qu’un item est discri-
omissions intermédiaires, comme une toutes les combinaisons de paires minant si les sujets qui le réussissent
déclaration d’ignorance et/ou une ab- de blocs. En général, on a choisi de ont, en moyenne, un score plus élevé
sence de prise de risque ; les omis- construire des cahiers comprenant que les sujets qui y échouent. La prise
sions terminales comme un manque trois blocs pour s’appuyer sur une mé- en compte de l’indice de discrimina-
de temps. La distinction entre ces deux thode de construction des plans expé- tion est importante pour s’assurer de
types de non-réponse est importante rimentaux bien connue : celle des tria- la fiabilité des items de l’épreuve (sup-
car elle renvoie à la distinction entre des. Pour neutraliser les effets liés à pression des items peu discriminants
test de puissance ou de vitesse (la l’apprentissage et à la fatigabilité, on donc peu informatifs). Il faut souligner
rapidité du sujet à accomplir la tache va contrôler l’ordre de passation des que le modèle de mesure retenu pour
fait partie de la compétence évaluée). blocs en les contrebalançant. Chaque le traitement des données de PISA re-
Le codage des réponses manquantes bloc apparaîtra au moins une fois dans quiert que tous les items présentent
comme échecs ou comme items non les différentes positions de l’ordre de une discrimination égale.
examinés est donc fondamentale pour passation d’où le nom de « cahiers
La consistance
l’estimation de la difficulté des items. tournants » sous lequel ce dispositif
au niveau global
Le codage des omissions terminales expérimental est souvent désigné en
comme des items non examinés ou français. Les protocoles contiennent De la même manière qu’on s’est
comme des échecs aboutit à une es- donc des données manquantes struc- intéressé à la validité des items, on va
timation différente de la difficulté. Si turelles et peuvent contenir des omis- étudier la fiabilité de l’épreuve au ni-
la proportion de réussite est estimée sions finales et intermédiaires. veau global. On parle d’homogénéité
à partir des seuls élèves de l’échan- La recherche de solutions satis- ou de consistance interne. Dans la
tillon qui ont répondu à l’item, cela faisantes pour la gestion de ces trois théorie classique des tests, celle-ci
évite d’interpréter comme absence types réponses manquantes a été un est estimée par le coefficient α de
de maîtrise du domaine ce qui dépend des moteurs qui ont fait évoluer les Cronbach (Cronbach et Meehl, 1955).
en fait de la vitesse de travail et du méthodes employées pour traiter les Cet indicateur répond à la question
temps de passation. Les omissions données. Les réflexions ayant abouti à « l’ensemble des items est-il suffi-
structurelles proviennent, elles, de ces évolutions seront présentées dans samment homogène pour que le calcul
l’organisation du plan de collecte des le cadre des MRI. d’un score soit valide ? » La valeur de
données. L’utilisation de la méthode l’α dépend à la fois de l’homogénéité
Indice de discrimination
dite des « cahiers tournants » dans des items (appréciée à partir de leurs
de l’item
PISA produit des données manquan- intercorrélations) et de leur nombre.
tes structurelles. Pour concilier deux La discrimination de l’item ren- À homogénéité donnée, on peut aug-
exigences : recueillir de l’information seigne sur la qualité et la quantité menter la consistance interne du test
sur de nombreux exercices sans trop d’information apportées par l’item en augmentant sa longueur (Cortina,
augmenter le temps de passation, on pour déterminer la compétence du 1993). Ce point est important dans
va répartir les exercices (items) en sujet. Un item au pouvoir discriminant la mesure où les épreuves pour les
plusieurs blocs de longueur (temps élevé apporte beaucoup d’information évaluations internationales sont en
de passation) à peu près égale. Cha- sur la compétence du sujet, un item général plutôt longues.
que sujet ne passera qu’un nombre de peu discriminant renseigne peu sur Le modèle de mesure classique re-
blocs correspondant au temps de pas- la compétence du sujet. Leur pouvoir pose, comme les autres modèles, sur

72 Éducation et formations n° 78 [ novembre 2008  ]


Th
èm
e
plusieurs conditions de validité. Les Thissen, 1996). Les indicateurs psy- avec la compétence de l’échantillon
plus connues sont l’unidimensionna- chométriques classiques tels que l’α sur les résultats desquels cette diffi-
lité et l’indépendance conditionnelle de Cronbach sont biaisés dans le sens culté a été estimée. Pour placer les ré-
des items et des sujets. Ces condi- d’une surestimation. sultats obtenus à différentes versions
tions seront davantage développées – ici linguistiques et/ou nationales
La référence
dans la présentation des MRI. On peut – d’un même test il faut procéder à
cependant signaler ici un problème On sait qu’un score brut à une une opération dite de parallélisation
posé par le format des épreuves de épreuve n’est pas interprétable puis- pour placer les résultats sur une même
littératie par rapport à la condition qu’il dépend de la difficulté des items échelle (pour une présentation de ces
d’indépendance conditionnelle. L’indé- intrinsèquement mêlée à la compéten- procédures, voir Kolen et Brennan,
pendance conditionnelle se traduit par ce de l’échantillon. En psychologie, on 1995). Dans le cadre des enquêtes
l’hypothèse selon laquelle la réponse a privilégié l’utilisation d’une popula- internationales, la procédure de pa-
d’un sujet à un item ne dépend pas tion de référence pour situer les perfor- rallélisation est gérée par le modèle
de ses réponses aux autres items de mances des sujets. La compétence du de mesure employé (les MRI).
l’épreuve. La réussite d’un sujet à un sujet va être estimée faible, moyenne
item ne dépend que de sa compétence ou forte selon que sa performance se Les modèles de réponse
sur le trait latent mesuré par l’item et situe, respectivement, en dessous de, à l’item (MRI)
de rien d’autre (en particulier pas de égale ou supérieure à la moyenne de
ses réponses aux items qu’il a exa- la distribution de la population de ré- Présentation
minés avant celui ci). Il est souvent férence. Plusieurs solutions peuvent
difficile de tester l’hypothèse d’indé- être adoptées pour situer un score Ces modèles regroupés sous l’ap-
pendance conditionnelle. dans une distribution de référence : pellation générique de modèles de ré-
On peut, par contre, identifier de 1) le calcul d’une note standardisée ponse à l’item (MRI) – Item Response
nombreuses situations de testing où, en utilisant les paramètres (moyenne Modeling (IRM) en anglais3 – ont
par construction, la condition d’indé- et écart type) de la distribution de été créés il y a une trentaine d’an-
pendance conditionnelle n’est pas référence – ce calcul s’accompagne nées (voir, pour une présentation,
respectée (Vrignaud, 2003). Ainsi, souvent d’un changement d’échelle, Hambleton et Swaminathan, 1985
dans l’évaluation de la littératie, on l’exemple le plus connu est celui du ou, en français, Dickes et al., 1994 ;
demande souvent de répondre à plu- QI, 2) le recours à un étalonnage, 3) Vrignaud, 1996). Il faut signaler qu’ils
sieurs questions posées sur le même la référence à un critère de maîtrise. ont été « inventés » à peu près simul-
texte. Cette manière de procéder se En éducation, on a plutôt privilégié le tanément et de manière indépendante
justifie par le fait que l’investissement recours à un critère traduisant la maî- au ­ Danemark par le mathématicien
du sujet, tant cognitif que temporel, trise du domaine évalué par l’épreuve. Georg Rasch (1960) qui cherchait un
pour s’approprier des objets comple- L’approche la plus simple consiste à modèle permettant de comparer des
xes, ici un texte, doit être rentabilisé calculer le pourcentage des items compétences d’élèves en lecture à
au mieux. On utilise en anglais l’ex- réussis par le sujet et à considérer plusieurs années d’intervalle et, aux
pression de testlet pour de tels exer- qu’au-delà d’un seuil donné (en gé- États-Unis, par le statisticien Allan
cices comprenant plusieurs items. En néral 75 ou 80 %) le sujet maîtrise
général, on ne tient pas compte des le programme évalué par l’épreuve. NOTE
biais induits par cette dépendance Cette façon de procéder peut inciter 3. En anglais, le terme d’Item Response
dans le traitement des résultats des à des interprétations erronées. En ef- Theory (IRT) est plus largement utilisé. Le
enquêtes internationales sur la lit- fet, le fait que les scores à différents terme de modèle paraît plus approprié dans
la mesure où il s’agit de rendre compte du
tératie (Dickes et Vrignaud, 1995). tests se trouvent ainsi standardisés
comportement du sujet répondant à un
Ces biais ont pourtant des effets non laisse penser qu’ils sont comparables. item plutôt que de construire une théorie
négligeables comme l’ont montré les Or, comme on l’a rappelé plus haut, psychologique du comportement du sujet,
quelques recherches réalisées sur la difficulté d’un item donc d’un test comme le font remarquer H. Goldstein et
R. Wood (1989).
les testlets (par exemple Wainer et ne peut être appréciée qu’en relation

Éducation et formations n° 78 [novembre 2008  ] 73


e
èm
Th

Birnbaum (1959, cité dans Birnbaum, la compétence du sujet (c’est-à-dire dans son logiciel CONQUEST, modèle
1968) qui cherchait à améliorer les que les MRI permettent de séparer qui ne comprend, pour expliquer le
modèles de mesure en psychométrie. performance et compétence). L’ex- fonctionnement de l’item, que le
Ces modèles ont profondément renou- plication de la compétence et de la paramètre de difficulté alors qu’ETS
velé l’approche psychométrique car difficulté de l’item par une même va- (Educational Testing Service) s’appuie
d’une part ils offrent un cadre unitaire riable latente justifie explicitement la sur un modèle à deux paramètres (dif-
pour penser l’ensemble des concepts comparaison entre items et entre su- ficulté et discrimination) en utilisant
psychométriques (exposés plus haut jets. Les paramètres de difficulté vont des algorithmes d’estimation implan-
à propos du modèle classique) et permettre de comparer les items entre tés dans le logiciel BILOG (Zimowski,
d’autre part, ils offrent un nouveau eux. Les paramètres de compétences Muraki, Mislevy, et Bock, 1996) – voir
cadre d’interprétation des résultats autorisent la comparaison des sujets pour un exemple les traitements de
aux tests en situant la performance et des groupes de sujets. Toutes les l’enquête IALS : Yamamoto, 1998).
des sujets par rapport à des tâches et opérations de construction de tests Cette différence de choix s’explique
non plus par rapport à la performance et d’interprétation des résultats de- par au moins quatre raisons. D’abord
d’autres sujets. Ces modèles dont le mandant d’assurer l’équivalence des des raisons historiques, les travaux
principe est présenté dans l’équation items et des tests ou la comparaison sur les MRI s’étaient inscrits à ETS
[2] sont probabilistes. On postule que de différentes populations vont se dans la suite des travaux de Birnbaum
la probabilité qu’un sujet j donne une trouver ainsi facilitées. (1968) repris et enrichis par Lord (1980)
réponse correcte à un item i est fonc- qui avaient introduit d’emblée un mo-
tion de la compétence (θj) du sujet et Combien de paramètres dèle à deux paramètres alors que les
de la difficulté de l’item (di) : utiliser pour modéliser travaux d’ACER s’inscrivaient dans le
Pr(X=x) = f(di,θj) [2] la compétence ? cadre de l’approche de Rasch comme
Dans le cas d’items dichotomi- le montrent les logiciels construits par
ques, X prend les valeurs échec [0] ou La question du nombre de para- cette organisation (Titan puis Quest :
réussite [1], on obtient donc la proba- mètres du modèle a été souvent dis- Adams et Khoo, 1994). Ensuite des rai-
bilité d’un échec ou d’un succès. cutée. Les options retenues ayant des sons liées au format des items, PISA
Les modèles MRI sont basés sur la conséquences sur les conditions de comprend des items polytomiques (les
recherche d’un modèle mathématique validité des statistiques et la présen- réponses peuvent faire l’objet d’un
du fonctionnement de l’item permet- tation des résultats, ces choix ont un codage ordonné selon des niveaux de
tant de représenter la relation entre retentissement sur le traitement des réussite). Ce format d’item est facile
difficulté de l’item et compétence du enquêtes internationales. Ainsi, pour à traiter par le modèle de Rasch (on
sujet. On utilise en général la fonction les traitements de l’enquête PISA, sépare le paramètre de difficulté en
logistique. Le modèle le plus général ACER (Australian Council for Educa- une partie représentant la difficulté
comprend trois paramètres pour mo- tional Research) 5 utilise un modèle générale de l’item et une autre partie
déliser le fonctionnement de l’item : dérivé du modèle de Rasch implanté représentant le passage d’un niveau
« bi » la difficulté de l’item « ai »
NOTES
la pente (discrimination de l’item),
« ci » le paramètre de réponse « au 4. L’anglais utilise le terme de guessing (traduit parfois en français par « pseudo-chance »)
pour désigner, principalement dans les QCM, la probabilité de « deviner » la bonne réponse
hasard »4. ou de la donner par hasard. On a jugé utile d’introduire ce paramètre dans les MRI pour ren-
On peut les rapprocher des para- dre compte du fait que la probabilité de bonne réponse d’un sujet ne devient pas infiniment
mètres classiques : « bi », la difficulté petite au fur et à la mesure que la compétence de ce sujet est estimée faible, mais peut
rester dans une zone nettement plus élevée. Par exemple dans le cas d’un QCM comprenant
de l’item de la fréquence de réussi-
quatre possibilités de réponse, la possibilité de donner la bonne réponse au hasard serait de
te ; « ai », la pente (discrimination de 25 %. Dans ce cas, le paramètre de guessing estimerait la probabilité à ce seuil même pour
l’item) de la corrélation item/score ; des sujets de compétence faible.
« ci » de l’étude des distracteurs. Le 5. ACER est l’organisation principale en charge du consortium qui a géré PISA, ETS a été
paramètre de compétence « θj » est l’organisation en charge du traitement des données des enquêtes américaines (NAEP, etc.)
ainsi que de plusieurs enquêtes internationales, en particulier, IALS.
une estimation de la mesure vraie de

74 Éducation et formations n° 78 [ novembre 2008  ]


Th
èm
e
de difficulté à un autre) alors que l’es- difficulté ; 2) sa discrimination. Le re- un sujet, on obtiendra une même esti-
timation des paramètres de difficulté cours à un modèle à un seul paramètre mation de sa compétence. Quels que
de tels items n’est pas aussi aisément simplifie l’approche de cette question. soient les groupes de sujets auxquels
accessible par le modèle à deux pa- En revanche, l’utilisation du modèle l’item a été administré, on obtiendra
ramètres. Une troisième raison peut de Rasch nécessite une condition de une même estimation de sa difficulté.
trouver son origine dans la détermina- validité supplémentaire : l’hypothèse Cette idée a été souvent considérée
tion des niveaux de compétence dont d’égale discrimination des items. Cet- comme peu « réaliste » et semble
le rationnel sera présenté plus loin. te condition est en général vérifiée a d’ailleurs ne pas avoir donné lieu à
La procédure de classement des items posteriori dans la mesure où les tests de nombreuses études comme on le
en niveau de difficulté est plus cohé- d’adéquation au modèle de Rasch per- constate dans un ouvrage de synthèse
rente si la discrimination des items est mettent de retenir l’hypothèse que ce sur les développements du modèle de
identique. L’existence de différences modèle rend bien compte des données Rasch (Fischer et Molenaar, 1995).
de discrimination entre items peut sans qu’il soit besoin d’introduire un Les MRI définissent la compé-
rendre ce classement moins univoque. paramètre supplémentaire pour pren- tence du sujet comme sa probabilité
Enfin, une des phases essentielles de dre en compte la discrimination. de résoudre des items d’une difficulté
l’étude de l’équivalence en fonction Dans le cadre des MRI, l’estima- donnée. La compétence se définit
des différentes versions linguistiques tion des valeurs des paramètres de donc par rapport à des tâches et non
et/ou nationales est l’identification difficulté se fait sous cette hypothèse par rapport à d’autres sujets. Le para-
des fonctionnements différentiels des d’indépendance conditionnelle. Si on mètre de compétence du sujet définit
items, en abrégé FDI (pour une présen- ne peut pas retenir l’hypothèse d’in- sa zone de compétence qui peut être
tation en français voir Vrignaud, 2002, dépendance conditionnelle, alors il mise en relation avec les paramètres
ou Rocher, 2003 dans le cadre des faudrait introduire un paramètre spé- de difficulté des items. La définition
enquêtes internationales). Le FDI est cifique représentant la dépendance de la zone de compétence nécessite
une différence de réussite à un item conditionnelle entre ces deux items de décider du seuil de probabilité
entre deux groupes de sujets compa- comme la probabilité particulière de de réussite retenu pour considérer
rables quant au construit mesuré par réussite à ces deux items, leur interac- que le sujet maîtrise l’item. Peut-on
le test. Le FDI6 peut porter sur chacune tion comme le suggérait le statisticien considérer qu’un seuil supérieur à
des caractéristiques de l’item : 1) sa anglais Harvey Goldstein (Goldstein, 50 % est signe que l’item peut être
1980). Par exemple E. T. Bradlow, H. résolu par le sujet ou vaut-il mieux
NOTE
Wainer et H. L. Lang (1998) proposent considérer que seul un seuil proche
6. Lorsque la différence de réussite à l’item un MRI incluant des paramètres re- de 100 % peut refléter la réelle maî-
est de même sens en faveur ou en défa-
présentant la dépendance locale et trise par le sujet ? Par exemple dans
veur du même groupe dans toutes les clas-
ses de sujets, le FDI est dit « uniforme ». élaborent un algorithme permettant les évaluations éducatives aux États-
Le FDI uniforme porte uniquement sur la l’estimation de ces paramètres. Unis, le seuil de 80 % est générale-
difficulté de l’item. II existe un écart en ment retenu (Kirsch, 1995). Ce seuil a
faveur du même groupe à tous les niveaux
de compétence. Lorsque la différence de Évaluer la compétence l’avantage de garantir une probabilité
réussite change de sens selon le niveau dans le cadre des MRI quasi certaine de réussite, mais sa sé-
de performance des sujets (par exemple vérité peut être trompeuse quant aux
la différence est en faveur d’un groupe Les modèles MRI ont été présen- réussites réelles des sujets. En effet,
pour les classes de performance faibles
et en défaveur du même groupe pour les
tés par leurs avocats comme renouve- les probabilités sont fortes que les
classes de performance élevée) on parle lant la théorie de la mesure. G. Rasch sujets réussissent d’autres items de
de FDI « croisé ». Le FDI croisé porte sur argumentait que l’estimation de la dif- difficulté plus grande que celle com-
la discrimination de l’item si ­celui-ci est
ficulté des items et de la compétence prise dans leur zone de compétence.
plus discriminant dans un groupe que dans
l’autre. Si on se représente aisément la des sujets étaient indépendantes, ce Un second problème est celui de la
signification psychologique d’un FDI uni- qui fondait, selon lui, le concept d’ob- définition de la compétence en fonc-
forme, celle d’un FDI croisé peut être plus jectivité spécifique (Rasch, 1977). tion du contenu des items. Dire qu’un
délicate.
Quels que soient les items passés par sujet est capable de résoudre des

Éducation et formations n° 78 [novembre 2008  ] 75


e
èm
Th

items d’une difficulté donnée renvoie donc classé dans la catégorie corres- supérieur. Encore une fois, il ne s’agit
à la définition opérationnelle de ces pondant au niveau de compétence pas de pointer les insuffisances de
items. Cette définition peut paraître permettant d’avoir une probabilité la méthode sans en voir les avanta-
simple quand le contenu des items (en général 75 ou 80 %) de le réussir. ges, en premier lieu, ceux de définir
s’y prête : par exemple la complexité Mais les sujets qui ont un niveau de la compétence en relation avec des
d’opérations arithmétiques, le nombre compétence inférieur ont encore une tâches et non plus en relation avec
d’inférences à effectuer pour conduire probabilité élevée de le réussir si leurs d’autres sujets comme dans l’appro-
un raisonnement. Néanmoins, ce type compétences sont proches de la cou- che psychométrique classique. Il faut
d’analyse apparaît souvent simplifi- pure séparant les classes de niveau. également souligner la prudence avec
catrice au regard des modèles de ré- La qualité de cette séparation peut laquelle ces opérations ont été effec-
solution proposés par la psychologie être appréciée à partir du pouvoir tuées et la clarté avec laquelle elles
cognitive (Rémond, à paraître). discriminant des items. L’informa- sont exposées dans le technical ma-
La construction de l’échelle de tion donnée par ces niveaux apparaît nual (Turner, 2002). Mais, on ne peut
compétence dans les enquêtes uti- donc relativement floue et imprécise passer sous silence le risque d’abou-
lisant les MRI est essentiellement dans la mesure où les coupures sont tir à une réification de la notion de
basée sur les regroupements d’items par nature arbitraires : le fait d’être niveaux de compétence qui, dans les
à partir de leurs indices de difficulté. classé dans un niveau de compétence représentations d’utilisateurs n’ayant
Ainsi, dans la plupart des enquêtes ne veut en aucun cas dire que le sujet pas eu accès à l’ensemble des sources
internationales on définit plusieurs n’est pas capable de fonctionner à des techniques, peuvent paraître plus ob-
niveaux (en général cinq) de compé- niveaux de compétence plus élevés. jectifs qu’ils ne le sont en réalité.
tences. L’interprétation de chacun de L’interprétation des niveaux n’est pas
ces niveaux est ensuite enrichie par toujours facile car certains niveaux L’estimation
l’analyse cognitive des items classés possèdent parfois peu d’items (en des paramètres
dans ce niveau. Ce système de défini- général les niveaux supérieurs). Et,
tion d’une compétence est essentielle- surtout, l’interprétation en termes La mise en œuvre de l’estimation
ment psychométrique même s’il reçoit de fonctionnement cognitif n’est pas des paramètres des MRI n’est pas une
un habillage de psychologie cognitive. fondée sur l’analyse des tâches et opération anodine (on trouvera une
Un tel système a été particulièrement des processus mais apparaît plutôt excellente présentation exhaustive
développé par Kirsch et collaborateurs comme un produit dérivé du modèle de cette question dans l’ouvrage de
dans les enquêtes NAEP puis IALS de mesure psychométrique. Baker, 1992). L’appréciation de l’adé-
et PISA (voir par exemple Kirsch, Dans PISA, les différents niveaux quation des modèles MRI se pose aux
­Jungeblut et ­Mosenthal, 1998). Cette de compétence ont été définis de différentes étapes de l’estimation des
approche présente deux inconvénients telle manière que les sujets dont le paramètres de difficulté des items et
majeurs. paramètre de compétence a une va- de compétence des sujets. En amont,
Le premier est d’être partiellement leur proche de la borne inférieure ont les modèles MRI reposent sur des
tautologique : cet item est facile puis- une probabilité de 50 % de réussir les conditions de validité nombreuses :
qu’il est réussi par un grand nombre items de ce niveau, et ceux dont le unidimensionnalité, indépendance
de sujets et qu’il correspond donc à paramètre de compétence a une va- conditionnelle des items, et, pour
des opérations de niveau faible. leur proche de la borne supérieure, le modèle de Rasch, égal pouvoir
Un second inconvénient est la dif- une probabilité de 80 % de réussir discriminant des items. Ces condi-
ficulté de déterminer le niveau auquel ces mêmes items. Par construction, il tions sont parfois difficiles à tenir et
appartient un item. En effet, on prend est donc certain qu’un sujet ne réussit à vérifier. Ainsi R. K. Hambleton, H.
en compte le paramètre de difficulté, pas uniquement tous les items corres- Swaminathan et H. J. Rogers (1991)
non pas en lui-même, mais en recher- pondant à son niveau et a – au moins recensent une vingtaine de procédu-
chant quel niveau de compétence est pour les sujets proches de la borne res à mettre en œuvre pour s’assu-
nécessaire pour maîtriser un item de supérieure – une probabilité non né- rer de la possibilité d’application du
ce niveau de difficulté. Un item sera gligeable de réussir ceux du niveau modèle aux données. On peut citer

76 Éducation et formations n° 78 [ novembre 2008  ]


Th
èm
e
également l’ensemble de travaux sation de la méthode dite des cahiers tionné cette approche en introduisant
menés par l’équipe de Stout (Bolt et tournants, les réponses manquantes dans l’algorithme d’estimation les
Stout, 1996 ; Shealy et Stout, 1993 ; sont dites MCAR puisque les blocs données descriptives du contexte du
Nandakumar, 1994) à l’Université de qui n’ont pas été présentés à l’élève sujet (background variables) afin de
Chicago qui a permis de trouver des résultent d’une affection au hasard rendre l’estimation du paramètre de
cadres conceptuels plus performants d’un cahier à chaque élève. Le second compétence des sujets plus robuste. Il
pour tester certaines hypothèses (uni- type de situation est celui où on peut s’agit d’estimer la compétence des su-
dimensionalité, indépendance condi- faire l’hypothèse que la distribution jets conditionnellement aux réponses
tionnelle, fonctionnement différentiel des données manquantes peut être qu’ils ont données aux items auxquels
des items). On peut regretter que les représentée par une distribution aléa- ils ont répondu (donc sans inclure les
travaux de cette équipe soient tota- toire (Missing At Random, MAR) mais items manquant par construction des
lement absents des traitements des peuvent dépendre des réponses des cahiers tournants et les omissions
enquêtes internationales. sujets à d’autres variables utilisées terminales) et conditionnellement aux
L’algorithme d’estimation utilisé dans l’enquête. Enfin, le dernier cas variables décrivant le contexte socio-
dans PISA est issu des travaux du dit Missing Not At Random ou not économique des sujets. Il faut préciser
statisticien américain D. Rubin sur ignorable est celui où les données que le score de compétence du sujet
l’algorithme dit « EM »7 (Expectation- manquantes résultent d’un processus est conceptuellement une valeur non
Maximization ; Dempster, Laird et dépendant de la variable elle-même observée et que son estimation ren-
Rubin, 1977 ; Rubin, 1987 et 1991). par exemple la non-réponse à une voie non pas à un seul paramètre mais
Rubin a clarifié le concept de valeur question sur le niveau de revenus est à une distribution. Conditionnellement
manquante en identifiant trois types plus fréquente dans les classes de aux réponses et aux caractéristiques
de situations. La distribution des va- revenu élevé. de ce sujet, on infère avec une plus ou
leurs manquantes peut être représen- Cette réflexion sur les données moins bonne garantie la distribution
tée par une distribution complètement manquantes a conduit Rubin à opé- du paramètre de compétence d’un
aléatoire (MCAR, Missing Completely rer un renversement de perspective sujet ayant ces caractéristiques et ce
At Random). Par exemple dans le cas concernant l’estimation de la compé- patron de réponses aux items. On ne
des enquêtes internationales, l’utili- tence des sujets. Rubin considère que connaît pas la valeur vraie du para-
la valeur manquante fondamentale mètre de compétence mais sa distri-
NOTE est la position du sujet sur la varia- bution. Pour renforcer la robustesse
7. L’algorithme EM estime selon la mé- ble latente. En effet, la compétence de cette estimation, on va procéder
thode du maximum de vraisemblance les n’est connue que conditionnellement à plusieurs tirages dans cette dis-
paramètres de distributions expliquant
aux réponses du sujet à un nombre tribution de valeurs dites plausibles
un échantillon de données lorsqu’on est
en présence de données manquantes, en réduit de questions : celles qui sont dont la moyenne sera une meilleure
complétant les données par une variable incluses dans le test qu’il a passé y estimation de la compétence de ce
aléatoire rendant compte de la relation compris dans le cas où il a répondu sujet. On trouvera le détail de cette
entre les données observées (les réponses
à toutes les questions du test. Dans procédure dans le technical manual
aux items) et les données manquantes (ici
les paramètres du MRI). Dans une pre- le cadre des MRI, cette formulation (Adams, 2002).
mière phase, on va calculer l’espérance de a conduit à repenser l’algorithme On peut faire plusieurs commen-
la vraisemblance (expectation) et dans une d’estimation des paramètres en utili- taires par rapport à cette approche.
deuxième phase on va opérer une maxi-
misation (maximisation) de l’espérance
sant l’algorithme EM (Bock et Aitkin, En premier lieu, il est certain qu’elle
obtenue. Puis, on utilise les valeurs trou- 1981), procédure implantée dans les prend au sérieux et qu’elle pousse,
vées à l’étape de maximisation pour une logiciels BILOG dédiés à l’estimation de manière particulièrement élé-
nouvelle étape d’espérance. On répétera
des paramètres des MRI (Mislevy et gante, à l’extrême les concepts
ce processus de manière itérative dont
chaque phase augmente la vraisemblance Bock, 1990 ; Zimowski et al., 1996). théoriques de la psychométrie. Sur le
jusqu’à ce qu’on atteigne un critère d’arrêt R. J. Mislevy et ses collaborateurs plan théorique, il est également cer-
(en général un écart faible entre la vrai- (Mislevy, 1987 ; Sheehan et Mislevy, tain que ces procédures permettent
semblance à deux étapes consécutives).
1990 ; Mislevy et al., 1992) ont perfec- d’assurer une estimation plus rapide

Éducation et formations n° 78 [novembre 2008  ] 77


e
èm
Th

(­convergence ­ accélérée) et plus ro- et non un score unique a des implica- tère continu du modèle qui présuppo-
buste des ­paramètres de compétence tions importantes sur la manière de se qu’un sujet peut toujours réussir un
des sujets. On a pu également montrer conduire les analyses. La dispersion item. La réponse à un item a un ca-
qu’elle permet une estimation plus fi- de ces valeurs plausibles est aussi ractère discret. La réussite à un item
dèle des moyennes des pays dans le importante que leur moyenne. Toutes difficile n’est pas peu probable pour
cas des enquêtes internationales. Les les analyses statistiques devraient un sujet peu compétent, elle est tout
points forts de cet algorithme sont la donc être élaborées à partir des dif- simplement impossible. Une contesta-
source de ses points faibles : la dis- férentes valeurs plausibles et non tion moins radicale porte sur certaines
tribution des paramètres dépendant d’une seule ou d’une agrégation de de leurs propriétés au premier rang
de plus nombreuses informations, celles-ci. Par exemple, si on souhaite desquelles l’unidimensionnalité.
cela introduit de nouvelles sources calculer la corrélation entre une va- L’unidimensionnalité de la varia-
de biais dans l’estimation (par exem- riable de contexte (la PCS de l’élève) ble latente laisse présupposer que les
ple les caractéristiques des sujets). Il et la compétence, il faudra calculer différences interindividuelles ne sont
va falloir s’assurer de la fidélité de cette corrélation pour chacune des que des différences de puissance,
toutes les informations portant sur cinq valeurs plausibles fournies pour que les différences de difficulté en-
les caractéristiques des sujets et de chaque sujet puis réaliser une agréga- tre items ne sont que des différences
leur équivalence dans les différents tion des cinq valeurs obtenues pour la quantitatives. On accrédite ainsi l’idée
contextes nationaux. Elle multiplie corrélation. La dispersion des valeurs que quel que soit le niveau de compé-
également les conditions de vali- de l’indicateur devra être utilisée pour tence des sujets, ceux-ci mettent en
dité. Enfin, last but not least, cette les tests de signification. On trouvera œuvre des processus et des stratégies
procédure d’estimation aboutit à un des descriptions des procédures per- similaires pour répondre aux items.
ensemble (cinq dans PISA) de valeurs mettant de réaliser cette agrégation Cette critique a déjà été souvent por-
plausibles pour chaque sujet. D’après dans les publications traitant des mé- tée à l’encontre des scores dont le ca-
les publications sur cette approche, thodes d’imputations multiples (voir ractère globalisant n’informe pas sur
la théorie réalise un apport majeur par exemple Schafer et Graham, 2002 les processus sous-jacents (­Huteau
à la réflexion psychométrique et les pour une revue récente). Il n’est pas et Lautrey, 1999). Le nombre de va-
procédures semblent donner des ré- certain que les chercheurs réalisant riables à introduire dans un modèle
sultats robustes pour l’estimation des des analyses secondaires à partir des pour rendre compte d’un ensemble
paramètres des MRI. Il est, d’ailleurs, données de PISA aient complètement de comportements est une question
à noter que cette procédure élaborée intégré l’importance d’utiliser ces pro- classique en psychologie.
par les chercheurs d’ETS pour les cédures pour obtenir des estimations La question centrale est la prise
enquêtes américaines de type NALS sans biais des indicateurs dans le ca- en compte de différentes dimensions
et YALS (en ajoutant des procédures dre de leurs analyses. Ces éléments et par conséquent de plusieurs compé-
spécifiques au logiciel BILOG MG) puis sont présentés très explicitement et tences expliquant la performance des
pour les enquêtes internationales (voir très clairement dans le technical ma- sujets aux items. Si l’on considère par
par exemple IALS : Yamamoto, 1998) a nual (Adams, 2002). exemple trois échelles, les relations
été ensuite implantée dans le logiciel entre leurs scores peuvent se situer
Conquest édité par ACER (Wu, Adams L’unidimensionnalité entre deux situations extrêmes : 1) il
et Wilson, 1997) lorsque ce groupe a de la littératie : n’existe aucune relation entre elles ;
été chargé du traitement des données artefact ou réalité ? 2) la relation entre les dimensions est
PISA. Le recours à la distribution de tellement élevée qu’il n’y a pas lieu
valeurs plausibles est maintenant Les MRI ont été l’objet de nom- de les distinguer : elles mesurent la
généralisé dans les enquêtes inter- breuses critiques. La plus fonda- même chose. Dans le cas n° 1, les
nationales (voir par exemple PIRLS : mentale porte sur leur réalisme pour dimensions sont orthogonales (les
Gonzalez, 2001). représenter le fonctionnement des corrélations sont nulles), il faut pré-
Le fait d’estimer la compétence sujets répondant à des items. Ainsi, senter et interpréter les résultats de
d’un sujet par cinq valeurs plausibles M. Reuchlin (1996) conteste le carac- chacune des échelles séparément.

78 Éducation et formations n° 78 [ novembre 2008  ]


Th
èm
e
Dans le cas n° 2, les corrélations On s’intéressera uniquement aux dans le technical manual (Adams et
sont proches de 1, il n’y a pas lieu échelles de littératie. Ces trois échel- Wu, 2002), on peut s’interroger sur la
d’interpréter séparément les dimen- les se distinguent selon les auteurs réalité de leur accessibilité à l’ensem-
sions, les compétences mesurées sont du dispositif par les opérations aux- ble des utilisateurs potentiels de PISA
complètement redondantes et si l’on quelles elles font appel (sur ce point dans la mesure où la psychométrie, du
devait les distinguer ce serait par un voir Rémond, à paraître) : 1) retrouver moins à ce niveau de complexité, ne
artefact sémantique qui consisterait de l’information ; 2) développer une fait pas forcément partie du socle com-
à les nommer différemment. La plu- interprétation ; 3) réfléchir sur le mun de connaissances de l’ensemble
part du temps, les données se situent contenu du texte. La distinction entre de la communauté scientifique fran-
entre ces deux pôles. La question est ces trois échelles et le rattachement cophone des sciences humaines. Ceci
alors de décider à partir de quel seuil des items à chacune d’elle a été fait peut conduire certains utilisateurs à
la liaison entre les dimensions peut à partir de jugements d’experts et des erreurs dans l’utilisation des
être estimée comme suffisamment des résultats de l’analyse des don- données comme cela a été souligné
faible pour considérer que les dimen- nées. Les valeurs des corrélations à propos de la prise en compte des
sions mesurées correspondent à des entre échelles publiées pour les trois valeurs plausibles dans les analyses
compétences différentes ? Cette ques- échelles de littératie dans PISA 2000 secondaires.
tion a été au coeur de la plupart des sont très élevées (> .89 ; cf. Adams et Un second point est que, malgré le
débats autour des modèles psycholo- Caspersen, 2002) et dans bien des cas soin apporté à ces questions méthodo-
giques des aptitudes. La dimension- seraient considérées comme suffisan- logiques, certaines solutions restent
nalité des compétences en littératie tes pour rassembler les trois échelles encore insatisfaisantes au regard de
s’inscrit dans un tel débat. On cher- en une seule. Ce qui est d’ailleurs le la sophistication du reste de l’édifice.
che à savoir si les résultats peuvent cas puisque certains résultats sont es- On a signalé parmi les aspects les plus
être présentés sur une ou plusieurs timés sur une échelle globale qui est, techniques la violation de la condi-
échelles. Cependant, la pertinence elle-même, considérée par hypothèse tion d’indépendance conditionnelle.
d’une discussion apparaît, dans le comme unidimensionnelle puisqu’elle La question de la dimensionnalité
cas des enquêtes internationales sur présente une bonne adéquation à un apparaît plus centrale et donc plus
la littératie, comme faussée car pour modèle de Rasch. On peut donc légiti- gênante dans la mesure où elle est
des raisons de fiabilité de la mesure, mement s’interroger sur le bien-fondé en prise directe avec la présentation
on s’attache au fait que les épreuves de distinguer trois échelles puisqu’un et l’interprétation des résultats. Ceci
soient fortement unidimensionnelles. modèle comprenant une seule échelle conduit à une interrogation plus gé-
On a montré supra que cette condition rend parfaitement compte des don- nérale sur la nature conceptuelle de
est requise par le modèle de mesure nées (selon les décisions prises par la compétence évaluée. à ce sujet, il
employé : le MRI. L’unidimensionnalité les statisticiens quant à l’adéquation faut signaler que Harvey Goldstein et
est à la fois la structure recherchée et du modèle de mesure aux données). ses collaborateurs (Goldstein, 2004 ;
la condition de validité (l’hypothèse Goldstein et al., soumis) ont montré,
au sens de l’assumption) des MRI. En  en appliquant les modèles d’équations
effet, les modèles de base des MRI structurales aux données anglaises et
nécessitent la condition d’unidimen- Ce tour d’horizon du modèle de françaises de PISA qu’elles n’étaient
sionnalité : on doit rendre compte mesure et de l’estimation des paramè- pas unidimensionnelles, mais à tout
des relations entre items (estimés par tres dans les enquêtes internationales le moins bidimensionnelles. L’écart
leurs paramètres) et entre les sujets en général et dans PISA en particulier à l’unidimensionnalité est révélateur
ainsi qu’entre items et sujets par une fait ressortir plusieurs points. D’abord de failles dans le dispositif de mesure
seule variable latente. la sophistication des méthodes utili- et ses conséquences sur la définition
La solution retenue pour l’inter- sées, le soin apporté à résoudre des de la compétence doivent être prises
prétation de PISA est de considérer problèmes délicats posés par l’éva- en considération.
cinq échelles : trois de littératie, une luation psychométrique. Bien que Il est certain que cette com-
de mathématiques et une de science. tous ces éléments soient présentés pétence est bien une compétence

Éducation et formations n° 78 [novembre 2008  ] 79


e
èm
Th

l­argement transversale dont la plus européen (Vrignaud, 2001), on observe Par conséquent, l’univers des items
ou moins grande maîtrise peut être une corrélation proche de « .70 » entre risque d’éliminer des informations
considérée comme le produit des un test de vocabulaire (subtest de vo- porteuses de différences qualitatives
systèmes éducatifs. Mais une telle va- cabulaire du WISC III) et des épreuves supportant d’autres dimensions et
riable, relativement décontextualisée nationales d’évaluation de la lecture non plus seulement des différences
puisqu’elle ne doit pas être sensible pour deux pays (l’Angleterre et l’Italie). quantitatives consistant à ordonner
aux différents contextes linguisti- Bien que l’intensité de ces corrélations les moyennes des pays sur un axe.
ques et culturels, n’est-elle pas une ne soit pas suffisamment élevée pour On peut également s’interroger sur la
sorte de facteur général de réussite assimiler les compétences évaluées pertinence d’expliquer les différences
protéiforme susceptible de recevoir par les deux types de tests, elle est entre sujets de manière uniquement
de multiples dénominations et inter- néanmoins suffisamment élevée pour quantitative pour les sujets faiblement
prétations ? Le résultat d’une étude faire l’hypothèse qu’une partie relati- compétents dont la situation est mieux
conduite sur la comparaison entre vement importante (près de la moitié qualifiée par le terme d’illettrisme que
une enquête précédente sur la litté- de la variance) est expliquée par un par celui de niveau faible de littératie.
ratie auprès d’adultes IALS et PISA test de vocabulaire. Les tests de voca- Il est plus heuristique de chercher à
conduit également à s’interroger sur bulaire sont les meilleurs indicateurs qualifier ces situations d’illettrisme en
la nature des échelles de PISA. L’en- du raisonnement verbal et même du identifiant leurs causes plutôt que de
quête IALS comprenait trois échelles raisonnement en général (corrélation les quantifier. L’enquête sur les com-
définies d’après le contenu du support élevée avec la mesure globale du QI). pétences en littératie des adultes fran-
(prose, document et littératie quanti- Ces tests de lecture mesurent donc çais « Information et Vie Quotidienne »
tative). Plusieurs items (15) de l’échel- également une compétence verbale (Murat, 2005) comportait un module
le « Prose » de IALS ont été intégrés très générale. On pourrait s’interroger, particulier pour les sujets identifiés
dans PISA. Il était donc possible de au moins pour les niveaux supérieurs comme étant en situation d’illettrisme
comparer les deux types d’approches de PISA qui, selon leur définition, visant à diagnostiquer les causes de
de la littératie celle de IALS et celle de requièrent que les sujets réalisent cet illettrisme.
PISA. Cette étude comparative a été des opérations d’inférence, sur le fait Le choix fait par des enquêtes de
conduite par Yamamoto (2002). Mal- qu’on mesure autant la capacité au type PISA d’évaluer des compétences
gré les nombreux biais conduisant à raisonnement verbal que la capacité à n’est pas exempt de tout questionne-
rendre difficile la comparaison entre tirer de l’information d’un texte écrit. ment scientifique et idéologique. En
les deux échelles, Kentaro Yamamoto La seconde question porte sur l’uni- effet, on se souvient des débats sur la
aboutit à la conclusion que la corréla- dimensionnalité du construit mesuré. mesure de l’intelligence et de la bou-
tion entre l’échelle de prose literacy Le recours à trois dimensions, même tade de Binet. On court ici le risque
de IALS et de PISA est de .83. Ce qui s’il est intéressant d’un point de vue de déclarer « la compétence ? c’est ce
correspond à peu près à l’ordre de conceptuel, n’apparaît pas pleinement que mesure notre test ! ». Comment
grandeur des corrélations entre les convainquant du point de vue psycho- être sûr que l’on échantillonne les
sous-échelles de IALS. On peut en métrique. L’agrégation de l’ensemble items (les tâches) de manière à réel-
conclure que ces deux enquêtes bien des items dans une seule variable la- lement balayer le domaine ? Ne court-
que constituées de sous échelles in- tente est un point qui ne plaide pas on pas le risque comme dans les tests
terprétées différemment mesurent particulièrement en faveur de l’utili- d’intelligence de sur-représenter voire
globalement la même compétence. sation de plusieurs sous échelles. Les de ne représenter que les tâches en
On peut également s’interroger contraintes du modèle de mesure sont relation avec les apprentissages sco-
sur le fait que ce facteur peut s’ap- telles qu’elles conduisent à éliminer laires et le milieu culturel dominant
parenter dans une large mesure à toutes les causes éventuelles d’écart tels qu’ils sont conçus et valorisés
des variables du type des aptitudes à l’unidimensionnalité qui seraient en dans certains pays et d’assister aux
intellectuelles, en particulier, du rai- violation avec l’utilisation des MRI. On terribles dérives apparues dans le do-
sonnement verbal. Dans une autre en- peut considérer que cette réduction va maine des aptitudes avec les travaux
quête menée dans le cadre d’un projet s’opérer dès la sélection des items. de Terman comme l’évoquent A. Blum

80 Éducation et formations n° 78 [ novembre 2008  ]


Th
èm
e
et F. Guérin-Pace (2000) ? Il y a un ris- à lire
que de dérive idéologique à considé-
rer ces compétences comme dotées Adams R. J. (2002). « Scaling PISA cognitive data ». In M. L. Wu et R. J. Adams
d’une réalité autonome et objective (éd.), PISA 2000 : Technical Report. Paris : OECD, pp. 99-108.

alors qu’elles sont étroitement dépen- Adams R. J. et Carstensen C. (2002). « Scaling outcomes ». In M. L. Wu et
dantes d’un modèle de mesure. R. J. Adams (éd.), PISA 2000 : Technical Report. Paris : OECD, pp. 149-162.
Si l’on choisit une approche des Adams R. J. et Khoo S. J. (1994). QUEST : The Interactive Test Analysis
compétences, alors, il est nécessaire System Version 2.0. Hawtorn : ACER.
de définir les compétences en termes Adams R. J. et Wu M. L. (2002). PISA : Technical report. Paris : OECD.
de domaines, opération qui seule
Baker F. B. (1992). Item Response Theory : parameter, estimation techniques.
pourra valider l’interprétation de la New York : M. Dekker.
mesure psychométrique puisqu’elle
Beaton A. E. et Johnson E. G. (1992). « Overview of the scaling methodology
permettra de vérifier la couverture
used in the national assessment ». Journal of Educational Measurement, vol. 29,
du domaine de la compétence par les pp. 163-175.
épreuves construites. Cette approche
Blum A. et Guérin-Pace F. (2000). Des lettres et des chiffres. Paris : Fayard.
a été l’objet d’une enquête internatio-
nale pilotée par l’OCDE : le programme Bock R. D. et Aitkin M. (1994). « Marginal maximum likehood of item parame-
ters : Application of an EM algorithm ». Psychometrika, vol. 46, pp. 443-459.
DESECO (1999). Il s’agissait de deman-
der à différents experts : philosophes Bolt D. et Stout W. (1996). « Differential item functioning : Its multidimensional
(Canto-Sperber et Dupuy, 1999), eth- model and resulting subtest detection procedure ». Behaviormetrika, vol. 23,
pp. 67-95.
nologue (Goody, 1999), psychologue
(Haste, 1999), économistes (Levy et Bonora D. et Vrignaud P. (1997). Évolution des connaissances scolaires et
Murnane, 1999), spécialistes des modèles de réponse à l’item. Rapport pour le ministre de l’Éducation nationale.
Paris : ministère de l’Éducation nationale.
sciences de l’éducation (Perrenoud,
1999) comment on pourrait définir les Bottani N. et Vrignaud P. (2005). La France et les évaluations internationales.
compétences nécessaires pour vivre Rapport établi à la demande du Haut conseil de l’évaluation de l’école. Paris :
Haut conseil de l’évaluation de l’école. Disponible sur au format PDF sur Internet
et réussir dans le monde moderne.
à l’adresse : http://cisad.adc.education.fr/hcee/documents/rapport_Bottani_
Ce type de travaux pourrait permettre Vrignaud.pdf (consulté le 8 janvier 2007).
de définir les compétences évaluées
Bradlow E. T. ; Wainer H. et Wang H. (1998). « A bayesian random effects
sur des bases théoriques et non uni-
model for testlets ». In ETS Research Report. RR-98-3. Princeton : Educational
quement psychométriques. La validité Testing Service.
du construit et son interprétation s’en
trouveraient davantage validées. Il ne Canto-Sperber M. et Dupuy J.-P. (2001). « Competencies for the good life and
the good society ». In D. S. Rychen et L. H. Salganik (éd.), Defining and Selecting
semble pas malheureusement que les
Key Competencies. Göttingen : Hogrefe et Huber, pp. 67-92.
résultats de DESECO aient été injec-
tés dans les réflexions sur les enquê- Cortina J. M. (1993). « What is coefficient alpha : An examination of theory and
application ». Journal of Applied Psychology, vol. 78, pp. 98-104.
tes internationales d’évaluation des
compétences. Cronbach L. J. et Meehl P. E. (1955). « Construct validity in psychological
tests ». Psychological Bulletin, vol. 52, pp. 281-302.
Dempster A. P. ; Laird N. M. et Rubin D. B. (1977). « Maximum likelihood
estimation from incomplete data via the EM algorithm (with discussion) ».
Journal of the Royal Statistical Society, Series B, vol. 39, pp. 1-38.
Dickes P. et Flieller A. (1997). Analyse secondaire des données françaises
de la première enquête internationale sur la littératie des adultes (enquête
IALS). Rapport pour le ministère de l’Éducation nationale. Paris : ministère
de l’Éducation nationale ; Nancy : université de Nancy II : Laboratoire de
psychologie : équipe GRAPCO.

Éducation et formations n° 78 [novembre 2008  ] 81


e
èm
Th

à lire

Dickes P. et Vrignaud P. (1995). Rapport sur les traitements des données françaises de l’enquête internationale sur
la littératie. Rapport pour le ministère de l’Éducation nationale. Paris : ministère de l’Éducation nationale.
Dickes P. ; Tournois J. ; Flieller A. et Kop J.-L. (1994). Psychométrie. Paris : PUF.
Fischer G. H. et Molenaar I. W. [éd.] (1995). Rasch models : Foundations, recent developments, and applications.
New York : Springer.
Gardner H. (1983). Frames of mind. New-York : Basic Books; trad. fr. Les formes de l’intelligence. Paris : O. Jacob, 1997.
Goldstein H. (1980). « Dimensionality, bias, independance and measurement scale problems in latent trait test score
models ». The British Journal of Mathematical and Statistical Psychology, vol. 33, pp. 234-246.
Goldstein H. (2004). « International comparisons of student attainment : some issues arising from the PISA study ».
Assessment in Education, vol. 11, pp. 319-330.
Goldstein H. et Wood R. (1989). « Five decades of item response modelling ». The British Journal of Mathematical and
Statistical Psychology, vol. 42, pp. 139-167.
Goldstein H. ; Bonnet G. et Rocher T. (to appear). « Multilevel multidimensionnal structural equation models for the
analysis of comparative data on Educational performance ». Journal of Educational and Behavioural Statistics.
Gonzalez E. J. (2003). « Scaling the PIRLS reading assessment data ». In I. V. S. Mullis, M. O. Martin, E. Gonzalez
et A. Kennedy, PIRLS 2001 International Report. Boston : International Study Center.
Goody J. (2001). « Competencies and Education : Contextual Diversity ». In D. S. Rychen et L. H. Salganik (éd.), Defining and
Selecting Key Competencies. Göttingen : Hogrefe et Huber, pp. 175-190.
Hambleton R. K. et Swaminathan H. (1985). Item Response Theory. Principles and applications. Boston : Kluwer-Nijhoff.
Hambleton R. K. ; Swaminathan H. et Rogers H. J. (1991). Fundamentals of item response theory. Newbury Park : Sage.
Haste H. (2001). « Ambiguity, Autonomy and Agency ». In D. S. Rychen et L. H. Salganik (éd.), Defining and Selecting Key
Competencies. Göttingen : Hogrefe et Huber, pp. 93-120.
Huteau M. et Lautrey J. (1999). Évaluer l’intelligence : psychométrie cognitive. Paris : PUF.

Johnson E. G. (1992). « The design of the National Assessment of Educational Progress ». Journal of Educational
Measurement, vol. 29, pp. 95-110.
Kirsch I. S. ; Jungeblut A. et Mosenthal P. B. (1998). « The measurement of adult literacy ». In T. S. Murray, I. S. Kirsch
et L. B. Jenkins (éd.), Adult Literacy in OECD countries. Technical report on the first international adult literacy survey.
Washington [D. C.] : US Department of Education : National Center for Education Statistics, pp. 105-134.
Kolen, M.J., et Brennan, R.L. (1995). Test Equating. Methods and practices. New York : Springer
Laveault D. et Grégoire J. (2002). Introduction aux théories des tests en sciences humaines. Bruxelles : De Boeck.
Levy F. et Murnane R. J. (2001). « Key Competencies Critical to Economic Success ». In D. S. Rychen et L. H. Salganik (éd.),
Defining and Selecting Key Competencies. Göttingen : Hogrefe et Huber, pp. 151-174.
Lord F. et Novick M. R. [éd.] (1968). Statistical theories of mental test scores. Reading : Addison-Wesley.
Mislevy R. J. (1994). « Evidence and inference in educational assessment ». Psychometrika, vol. 59, pp. 439-483.
Mislevy, R. J. (1987). « Exploiting auxiliary information about examinees in the estimation of item parameters. Applied
Psychological Measurement », vol. 11, pp. 81-91.
Mislevy R. J. ; Beaton A. E. ; Kaplan B. et Sheehan K. M. (1992). « Estimating population characteristics from sparse
matrix samples of item responses ». Journal of Educational Measurement, vol. 29, pp. 133-161.
Mislevy R. J. et Bock R. D. (1990). BILOG 3 : Item analysis and test scoring with binary logistic models. Mooresville :
Scientific Software [2de éd.]

82 Éducation et formations n° 78 [ novembre 2008  ]


Th
èm
e
à lire

Murat F. (2005). « Les compétences des adultes à l’écrit, en calcul et en compréhension orale ». INSEE Première, n°1044,
numéro complet.
Murray T. S. ; Kirsch I. S. et Jenkins L. B. [éd.] (1998). Adult Literacy in OECD countries. Technical report on the first
international adult literacy survey. Washington [D. C.] : US Department of Education : National Center for Education
Statistic, pp. 105-134.
Nandakumar R. (1994). « Assessing dimensionality of a set of item responses-Comparison of different approaches ».
Journal of Educational Measurement, vol. 31, pp. 17-35.
OCDE (1999). Mesurer les connaissances et compétences des élèves : un nouveau cadre d’évaluation. Paris : OCDE.
OCDE (2002). Définitions et sélections des compétences (DESECO) : fondements théoriques et conceptuels : document
de stratégie. Neuchâtel : OFS. Document disponible au format PDF sur Internet à l’adresse : http://www.portal-stat.admin.
ch/deseco/deseco_doc_strategique.pdf (consulté le 8 janvier 2007).
Perrenoud P. (2001). « The key to social fields : Competences of an Autonomous Actor ». In D. S. Rychen et L. H. Salganik
(éd.), Defining and Selecting Key Competencies. Göttingen : Hogrefe et Huber, pp. 121-150.
Rasch G. (1960). Probabilistic models for some intelligence and attainment tests. Copenhague : Nielsen et Lydiche.
Rasch G. (1977). « On specific objectivity. An attempt at formalizing the request for generality and validity of scientific
statements ». Danish Yearbook of Philosophy, vol. 14, pp. 58-94.
Rémond M. (à paraître). « éclairages des évaluations internationales PIRLS et PISA sur les élèves français ».
Revue Française de Pédagogie.
Reuchlin M. (1996). Psychologie différentielle. Paris : PUF [nlle éd. aug.]
Rocher T. (2003). La méthodologie des évaluations internationales de compétences. Psychologie et Psychométrie,
Numéro spécial : Mesure et Education, vol. 24, pp. 117-146.
Rubin D. B. (1991). « EM and beyond ». Psychometrika, vol. 56, pp. 241-254.
Rubin D. B. (1987). Multiple imputation for nonresponse in surveys. New York : Wiley.

Rychen D. et Salganik L. [éd.] (2003). Key Competencies for a Successful Life and a Well-Functioning Society. Göttingen :
Hogrefe et Huber.
Salganik L. H. ; Rychen D. S. ; Moser U. et Konstant J. W. (1999). Projects on competencies in the OECD context :
Analysis of theoretical and conceptual foundations. Neuchâtel : Office fédéral des statistiques.
Salganik L. et Rychen D. [éd.] (2001). Defining and Selecting Key Competencies. Seattle : Hogrefe et Huber.
Salines M. et Vrignaud P. (2001). Apprécier et certifier les acquis des élèves en fin de collège : diplôme et évaluations-
bilans. Rapport établi à la demande du Haut conseil pour l’évaluation de l’école. Paris : Haut conseil de l’évaluation de
l’école.
Schafer J. L. et Graham J. W. (2002). « Missing data : Our view of the state of the art ». Psychological Methods, vol. 7,
pp. 147-177.
Schafer J. L. et Olsen M. K. (1998). « Multiple imputation for multivariate missing-data problems : A data analyst’s
perspective ». Multivariate Behavioral Research, vol. 33, pp. 545-571.
Shealy R. T. et Stout W. F. (1993). « A model-based standardization approach that separates true bias/DIF from group
ability differences and detect test bias/DTF as well as item bias/DIF ». Psychometrika, vol. 58, pp. 159-194.
Sheehan K. et Mislevy R. J. (1990). « Integrating cognitive and psychometric models to measure document literacy ».
Journal of Educational Measurement, vol. 27, pp. 255-272.
Turner R. (2002). « Constructing the proficiency scales ». In M. L. Wu et R. J. Adams (éd.), PISA 2000 : Technical Report.
Paris : OECD, pp. 195-216.

Éducation et formations n° 78 [novembre 2008  ] 83


e
èm
Th

à lire

Van der Linden W. J. et Hambleton R. K. [éd.] (1997). Handbook of modern item response theory. New York : Springer.
Vrignaud P. (1996). « Les tests au XXIe siècle : que peut-on attendre des évolutions méthodologiques et technologiques
dans le domaine de l’évaluation psychologique des personnes ? » Pratiques psychologiques, vol. 2, pp. 5-28.
Vrignaud P. (2001). « Features of results : comparing data from the different countries ». In G. Bonnet, N. Braxmeyer,
S. Horner, H. P. Lappalainen, J. Levasseur, E. Nardi, M. Rémond, P. Vrignaud et J. White. The use of national reading tests
for international comparisons : ways of overcoming cultural bias. A European Project. Socrates contract n° 98-01-3PE-0414-00.
Ministère de l’éducation nationale. DPD Edition diffusion. Paris, pp. 81-101.
Vrignaud P. (2002). « Les biais de mesure : savoir les identifier pour y remédier ». Bulletin de psychologie, vol. 55, n° 6,
pp. 625-634.
Vrignaud P. (2003). « Objectivité et authenticité dans l’évaluation : avantages et inconvénients des questions à choix
multiples [QCM] et des questions à réponses complexes [QRC] : importance du format de réponse pour l’évaluation des
compétences verbales ». Psychologie et psychométrie, vol. 24, n° 2-3, pp. 147-188.
Wainer H. et Thissen D. (1996). « How is reliability related to the quality of test scores ? What is the effect of local
dependence on reliability ? », Educational Measurement : Issues and Practice, vol. 15, pp. 22-29.
Weinert F. E. (1999). Concepts of competence. Neuchâtel : Office fédéral des statistiques.
Wu M. L. ; Adams R. J. et Wilson M. R. (1997). ConQuest. Generalized item response modelling software. Hawthorn
[Australia] : ACER.
Zimowski M. F. ; Muraki E. ; Mislevy R. J. et Bock R. D. (1996). BILOG-MG. Multiple-Group IRT analysis and test
maintenance for binary items. Chicago : Scientific Software International.

84 Éducation et formations n° 78 [ novembre 2008  ]

Vous aimerez peut-être aussi