Vous êtes sur la page 1sur 17

1.

ASPECTS PSYCHOMÉTRIQUES DE LA CONSTRUCTION D'ÉPREUVES


D'ÉVALUATION DU LANGAGE

Jacques Grégoire
in Bernadette Piérart, Le langage de l’enfant

De Boeck Supérieur | « Questions de personne »

2005 | pages 33 à 48
ISBN 9782804145620
Article disponible en ligne à l'adresse :
--------------------------------------------------------------------------------------------------------------------
© De Boeck Supérieur | Téléchargé le 13/04/2021 sur www.cairn.info via BIU Montpellier (IP: 194.57.207.215)

© De Boeck Supérieur | Téléchargé le 13/04/2021 sur www.cairn.info via BIU Montpellier (IP: 194.57.207.215)
https://www.cairn.info/le-langage-de-l-enfant---page-33.htm
--------------------------------------------------------------------------------------------------------------------

Distribution électronique Cairn.info pour De Boeck Supérieur.


© De Boeck Supérieur. Tous droits réservés pour tous pays.

La reproduction ou représentation de cet article, notamment par photocopie, n'est autorisée que dans les
limites des conditions générales d'utilisation du site ou, le cas échéant, des conditions générales de la
licence souscrite par votre établissement. Toute autre reproduction ou représentation, en tout ou partie,
sous quelque forme et de quelque manière que ce soit, est interdite sauf accord préalable et écrit de
l'éditeur, en dehors des cas prévus par la législation en vigueur en France. Il est précisé que son stockage
dans une base de données est également interdit.

Powered by TCPDF (www.tcpdf.org)


Première partie

L’évaluation
des composantes formelles
du langage :
© De Boeck Supérieur | Téléchargé le 13/04/2021 sur www.cairn.info via BIU Montpellier (IP: 194.57.207.215)

© De Boeck Supérieur | Téléchargé le 13/04/2021 sur www.cairn.info via BIU Montpellier (IP: 194.57.207.215)
les évaluations classiques

Chapitre 1 Aspects psychométriques de la construction d’épreuves


d’évaluation du langage
Jacques Grégoire
Chapitre 2 Genèse et structuration du lexique
Bernadette Piérart
Chapitre 3 L’évaluation du lexique de l’enfant
Un instrument diagnostique : ISADYLE
Bernadette Piérart
Chapitre 4 Le développement de la syntaxe et de la métasyntaxe
et leur évaluation
Annick Comblain
Chapitre 5 Représentations phonologiques et troubles
du développement linguistique : théorie et évaluation
Christelle Maillart, Marie Van Reybroeck et Jesus Alegria
Chapitre 6 L’évaluation des composantes de la parole :
de l’articulation à la phonologie
Bernadette Piérart
Chapitre 7 Les habiletés métaphonologiques : aspects théoriques
et évaluation
Philippe Mousty et Jacqueline Leybaert
© De Boeck Supérieur | Téléchargé le 13/04/2021 sur www.cairn.info via BIU Montpellier (IP: 194.57.207.215)

© De Boeck Supérieur | Téléchargé le 13/04/2021 sur www.cairn.info via BIU Montpellier (IP: 194.57.207.215)
1
Aspects psychométriques de
la construction d’épreuves
d’évaluation du langage
© De Boeck Supérieur | Téléchargé le 13/04/2021 sur www.cairn.info via BIU Montpellier (IP: 194.57.207.215)

© De Boeck Supérieur | Téléchargé le 13/04/2021 sur www.cairn.info via BIU Montpellier (IP: 194.57.207.215)
Jacques Grégoire

INTRODUCTION
Ce chapitre a pour principal objectif d’introduire le lecteur dans les
coulisses d’un test de langage, la batterie ISADYLE, et de lui faire
découvrir comment ce test a été construit. Les praticiens ignorent souvent
comment les épreuves qu’ils utilisent ont été normées et comment leurs
items ont été sélectionnés. Pour bien maîtriser un test et en apprécier
toutes les qualités, il est important d’en connaître les principes de
fabrication. Au travers de l’exemple de la batterie ISADYLE et d’une de ses
épreuves, nous allons présenter les procédures qui ont été suivies pour
développer un test qui possède les qualités psychométriques indispensa-
bles pour être utilisé dans la pratique clinique (American Educational
Research Association et al., 1999). Nous commencerons par présenter la
procédure d’étalonnage de la batterie ISADYLE et nous évaluerons la
qualité des normes ainsi déterminées. Nous expliquerons ensuite les
procédures d’analyse utilisées pour sélectionner les meilleurs items au

35
L’évaluation des composantes formelles du langage

sein de chaque épreuve et pour mettre au point le système de cotation des


réponses. Au travers d’un exemple, nous pourrons nous rendre compte
de la qualité des informations que permettent de récolter les épreuves de
la batterie ISADYLE.

1 L’ÉTALONNAGE
1.1 Fonction de l’étalonnage

L’évaluation des fonctions cognitives est toujours une comparaison par


rapport à un standard de performance (p.ex., les acquis de fin de
formation), ou par rapport aux performances d’un groupe de référence.
Dans le premier cas, on parlera d’évaluation critériée et, dans le second
cas, d’évaluation normée (voir Laveault et Grégoire, 2002). La mise au
point d’un test normé, comme la batterie ISADYLE, nécessite la réalisa-
tion d’un étalonnage. Sans étalonnage, un test normé est comme un
© De Boeck Supérieur | Téléchargé le 13/04/2021 sur www.cairn.info via BIU Montpellier (IP: 194.57.207.215)

© De Boeck Supérieur | Téléchargé le 13/04/2021 sur www.cairn.info via BIU Montpellier (IP: 194.57.207.215)
thermomètre sans graduation. Il peut mettre en évidence des variations
d’intensité, mais celles-ci sont sans intérêt faute de valeur de référence.
L’étalonnage a pour but de définir les graduations de l’échelle de mesure
que représente le test. Ces graduations sont toujours relatives à la
population d’étalonnage au sein de laquelle le test va être appliqué. Elles
ne sont pas valides pour d’autres populations pour lesquelles un étalon-
nage spécifique devra être réalisé.
L’élaboration d’un étalonnage débute par une définition de la popula-
tion visée par le test. Cette population peut être très large (p.ex., tous les
Belges francophones entre 16 et 86 ans) ou relativement étroite (p.ex., les
enfants autistes entre 1 et 12 ans). Comme il n’est généralement pas
possible de tester toute la population pour établir des normes, un
échantillon de celle-ci est utilisé. Si cet échantillon est représentatif de la
population de référence et si sa taille est suffisante, les normes ainsi
déterminées fourniront une bonne estimation des normes de la population.
Établir des normes est un travail coûteux en temps et en énergie. Tous
les sujets de l’échantillon doivent être testés dans les conditions standard
d’application du test. Si ces conditions ne sont pas strictement respec-
tées, les normes ne seront pas valides. On ne peut en effet comparer que
ce qui est comparable. En l’occurrence, un sujet qui a passé le test lors
d’un examen clinique ne peut être comparé qu’à des sujets qui ont passé
le test dans des conditions identiques. Si ce n’était pas le cas, il est
impossible de faire la part des choses entre les différences interindividuel-
les et les différences de conditions de passation. Le respect d’un matériel
standard et de règles strictes de passation et de cotation constitue une
condition sine qua non pour définir et utiliser correctement des normes.

36
Aspects psychométriques de la construction d’épreuves d’évaluation

1.2 L’étalonnage de la batterie ISADYLE


La batterie ISADYLE a pour but d’évaluer les compétences linguistiques
des enfants depuis la première maternelle jusqu’à la fin de la sixième
primaire. La population de référence est par conséquent constituée des
enfants de la Communauté française de Belgique qui se situent entre ces
deux bornes de la scolarité. Sur la base des statistiques de la population
scolaire publiées par la Communauté française (1995), un échantillon
théorique a été élaboré en respectant quatre critères : le sexe, la province,
le réseau scolaire et l’année scolaire. Dans le cas des trois années
maternelles, il a également été tenu compte de l’âge des enfants. En effet,
dans la même année maternelle, des différences d’âge de plus de six mois
peuvent déterminer des différences de compétence relativement impor-
tantes. Par conséquent, au sein d’une même année maternelle, les enfants
ont été rangés en deux groupes d’âge : (1) de l’âge anniversaire jusqu’à
l’âge anniversaire plus cinq mois 30 jours, (2) de l’âge anniversaire plus
six mois jusqu’à l’âge anniversaire plus onze mois 30 jours.
© De Boeck Supérieur | Téléchargé le 13/04/2021 sur www.cairn.info via BIU Montpellier (IP: 194.57.207.215)

© De Boeck Supérieur | Téléchargé le 13/04/2021 sur www.cairn.info via BIU Montpellier (IP: 194.57.207.215)
Les données d’étalonnage ont été récoltées par des étudiants de
graduat en logopédie provenant de l’ensemble de la Communauté
française de Belgique et formés à l’utilisation de la batterie ISADYLE. Ces
étudiants ont tiré au hasard des enfants au sein des classes des écoles de
la région et du réseau qui leur avait été assignés. La récolte a été réalisée
sur une période de trois mois, de janvier à mars 1997. Les normes reflètent
par conséquent les compétences linguistiques des enfants en milieu
d’année scolaire. Tous les protocoles ont fait l’objet d’une procédure de
contrôle. Certains protocoles incomplets ou mal remplis ont été éliminés.
Ils ont été remplacés par de nouveaux protocoles récoltés en respectant
les critères décrits ci-dessus1. Au total, 1 144 sujets ont été conservés
pour établir les normes. La distribution de ces sujets par année scolaire et
par sexe est présentée dans le tableau 1.1. L’effectif par année varie de
87 à 101 élèves. La parité entre filles et garçons est quasi respectée dans
tous les groupes.
Le tableau 1.2 présente la distribution des enfants par année scolaire
et par réseau d’enseignement. Les écoles ont été rangées dans les
catégories « enseignement officiel » ou « enseignement libre ». En Com-
munauté française de Belgique, pour la scolarité maternelle et primaire,
l’enseignement officiel rassemble environ 3/5 des enfants et l’enseigne-
ment libre 2/5. À la lecture du tableau 1.2, on peut constater que cette
proportion est quasi respectée dans tous les groupes.

1. Ces protocoles (n = 60) ont été récoltés par B. Piérart, A. Comblain et six étudiants dans
le cadre de leur stage ou de leur travail de fin d’études.

37
L’évaluation des composantes formelles du langage

Tableau 1.1 – Nombre d’enfants par année scolaire et par sexe

Groupe Filles Garçons Total

1re maternelle1 43 44 87
1re maternelle2 47 50 97
2e maternelle1 41 46 87
e 2
2 maternelle 50 45 95
3e maternelle1 52 49 101
3e maternelle2 47 50 97
1re primaire 46 50 96
2e primaire 48 45 93
e
3 primaire 48 49 97
4e primaire 45 51 96
5e primaire 51 50 101
6e primaire 48 49 97
© De Boeck Supérieur | Téléchargé le 13/04/2021 sur www.cairn.info via BIU Montpellier (IP: 194.57.207.215)

© De Boeck Supérieur | Téléchargé le 13/04/2021 sur www.cairn.info via BIU Montpellier (IP: 194.57.207.215)
Total 566 578 1144

1. De l’âge anniversaire jusqu’à l’âge anniversaire plus 5 mois 30 jours.


2. De l’âge anniversaire plus 6 mois jusqu’à l’âge anniversaire plus 11 mois 30 jours.

Tableau 1.2 – Nombre d’enfants par année scolaire et par réseau

Groupe Officiel Libre

1re maternelle1 50 37
1re maternelle2 57 40
2e maternelle1 50 37
e 2
2 maternelle 53 42
3e maternelle1 58 43
3e maternelle2 57 40
1re primaire 55 41
2e primaire 55 38
e
3 primaire 55 42
4e primaire 54 42
5e primaire 58 43
6e primaire 56 41

Total 658 486

1. De l’âge anniversaire jusqu’à l’âge anniversaire plus 5 mois 30 jours.


2. De l’âge anniversaire plus 6 mois jusqu’à l’âge anniversaire plus 11 mois 30 jours.

38
Aspects psychométriques de la construction d’épreuves d’évaluation

L’échantillon d’étalonnage d’ISADYLE est constitué de sujets tout-


venant, tirés au hasard au sein de la population des élèves fréquentant
l’enseignement ordinaire en Communauté française de Belgique. Cet
échantillon ne comprend pas d’enfants provenant de l’enseignement
spécial. Ne sont donc pas inclus des sujets souffrant de handicap mental
ou de troubles majeurs du développement. Les normes ne reflètent donc
pas les performances moyennes de la totalité de la population, mais
seulement des élèves aptes à fréquenter l’enseignement ordinaire. Ce
critère est celui généralement adopté pour l’établissement des normes de
la plupart des tests psychologiques et logopédiques. Pour interpréter
correctement les résultats d’un enfant, l’utilisateur d’ISADYLE devra
toujours avoir à l’esprit qu’il compare les performances de cet enfant à
celles des sujets tout-venant fréquentant l’enseignement ordinaire.

2 L’ANALYSE DES ITEMS


© De Boeck Supérieur | Téléchargé le 13/04/2021 sur www.cairn.info via BIU Montpellier (IP: 194.57.207.215)

© De Boeck Supérieur | Téléchargé le 13/04/2021 sur www.cairn.info via BIU Montpellier (IP: 194.57.207.215)
2.1 Fonction de l’analyse d’items

L’analyse des items est une étape essentielle du développement d’une


épreuve psychologique ou logopédique (Laveault et Grégoire, 2002).
Cette étape est souvent méconnue des praticiens car sa description figure
rarement dans les manuels. Le but de l’analyse des items est de sélection-
ner les meilleurs items qui figureront dans la version finale du test.
L’analyse des items permet aussi de repérer les items qui devraient être
révisés (p.ex., clarification de l’énoncé, modification du matériel…) et les
règles de cotation qui devraient être modifiées (p.ex., gradation des
scores, critères de réussite…). Habituellement, l’analyse des items est
faite sur les données d’un prétest qui précède la récolte des normes. Dans
le cas d’ISADYLE, ces deux étapes ont été fusionnées. En effet, le matériel
et les consignes avaient déjà fait l’objet d’études préalables et aucun
changement n’était encore envisagé à ce niveau. Par ailleurs, la taille de
la batterie et la durée de sa passation rendaient difficile la réalisation de
deux récoltes de données. Il était plus économique de réaliser l’analyse
des items et la normalisation sur la même récolte de données. Le seul
inconvénient de cette procédure est que la version du test publiée n’est
pas identique à celle utilisée pour l’étalonnage. Certaines épreuves
publiées sont en effet plus courtes que les épreuves originales, certains
items inadéquats ayant été éliminés. L’impact de ces raccourcissements
d’épreuves sur la validité des normes est toutefois limité car le contenu
des épreuves et les consignes sont restés identiques. Quant à la modifi-
cation de certains critères de cotation entre la version originale et la
version publiée, son impact sur la validité des normes est nul car ces
changements n’affectent pas les conditions de passation du test.

39
L’évaluation des composantes formelles du langage

Dans la suite de ce chapitre, nous allons détailler les différentes


analyses réalisées à partir des données d’étalonnage d’ISADYLE au
travers d’un exemple, celui de l’épreuve de dénomination des parties du
corps. Dans cette épreuve, une poupée (taille d’environ 30 cm) est
utilisée. Différentes parties du corps de la poupée sont successivement
montrées du doigt. Chacune de ces parties doit être nommée par l’enfant.
En fonction de la qualité de sa réponse, l’enfant est crédité de 0, 1 ou 2
points. Les analyses ont porté sur les 30 items et le score total de
l’épreuve. Les analyses d’items classiques ont d’abord été réalisées. Les
mêmes données ont ensuite été analysées selon le modèle de Rasch.

2.2 Caractéristiques des items


Le tableau 1.3 présente les résultats des analyses psychométriques
classiques des 30 items de l’épreuve de dénomination des parties du
corps. Dans la troisième colonne figure le score moyen des 1 144 sujets
© De Boeck Supérieur | Téléchargé le 13/04/2021 sur www.cairn.info via BIU Montpellier (IP: 194.57.207.215)

© De Boeck Supérieur | Téléchargé le 13/04/2021 sur www.cairn.info via BIU Montpellier (IP: 194.57.207.215)
de l’échantillon d’étalonnage. Le score moyen divisé par l’étendue des
scores, c’est-à-dire par 2, nous fournit l’indice de difficulté de l’item. Cet
indice varie entre 0 (item très difficile échoué par tous les sujets) et 1 (item
très facile réussi par tous les sujets). Lorsque l’on construit une échelle
développementale, il est essentiel de disposer d’items dont l’indice de
difficulté est échelonné de manière régulière entre 1 et 0 afin de pouvoir
discriminer les sujets depuis le début jusqu’à la fin de la séquence
développementale mesurée par le test. Si tous les items sont faciles, ils
nous fourniront peu d’informations à propos des sujets en fin de dévelop-
pement. Inversement, si tous les items sont difficiles, ils nous fourniront
peu d’informations à propos des sujets en début de développement. Dans
le tableau 1.3, on peut constater que l’indice de difficulté des items varie
de .98 à .05. L’échelle comprend des items à tous les niveaux de difficulté,
ce qui permet une évaluation des compétences lexicales des sujets tout
au long de leur développement. Les items très difficiles sont toutefois peu
nombreux, ce qui est en accord avec la finalité clinique de l’échelle. Celle-
ci a pour but d’évaluer des sujets en difficulté, dont les performances sont,
en général, inférieures à celles attendues pour leur âge et leur niveau
scolaire.
La cinquième colonne mentionne l’écart type des scores à chaque
item. Cette valeur nous renseigne à propos de la dispersion des scores
autour de la moyenne. Comme le but de toute évaluation est de distinguer
les sujets entre eux, il est essentiel que les scores à chaque item
présentent une variance suffisante. Un item réussi ou échoué par tous les
sujets ne nous apporte guère d’information car il ne met en évidence
aucune différence entre les sujets. Dans le tableau 1.3, nous pouvons
constater que, logiquement, les items faciles et les items difficiles

40
Aspects psychométriques de la construction d’épreuves d’évaluation

Tableau 1.3 – Caractéristiques psychométriques des items

N° Item Moyenne Difficulté Écart type r item/total

1 bouche 1,95 0,98 0,28 0,16


2 main 1,94 0,97 0,35 0,24
3 jambe 1,94 0,97 0,32 0,24
4 joue 1,83 0,92 0,51 0,45
5 lèvres 1,68 0,84 0,68 0,51
6 ongle 1,64 0,82 0,77 0,56
7 orteil 1,30 0,65 0,91 0,58
8 cou 1,77 0,88 0,59 0,40
9 langue 1,89 0,94 0,46 0,16
10 ventre 1,79 0,89 0,61 0,32
11 pouce 1,83 0,91 0,51 0,45
12 front 1,67 0,83 0,74 0,54
13 épaule 1,60 0,80 0,80 0,51
14 menton 1,56 0,78 0,83 0,60
© De Boeck Supérieur | Téléchargé le 13/04/2021 sur www.cairn.info via BIU Montpellier (IP: 194.57.207.215)

© De Boeck Supérieur | Téléchargé le 13/04/2021 sur www.cairn.info via BIU Montpellier (IP: 194.57.207.215)
15 genou 1,49 0,74 0,82 0,56
16 coude 1,44 0,72 0,86 0,63
17 narines 1,27 0,64 0,83 0,61
18 cils 0,92 0,46 1,00 0,59
19 sourcils 0,93 0,46 1,00 0,55
20 nuque 0,85 0,42 0,87 0,58
21 poignet 0,92 0,46 1,00 0,70
22 cheville 0,56 0,28 0,90 0,59
23 talon 0,84 0,42 0,99 0,65
24 index 0,95 0,47 0,88 0,55
25 mollet 0,63 0,31 0,87 0,50
26 plante des pieds 0,53 0,26 0,64 0,29
27 paume des mains 0,71 0,35 0,74 0,45
28 pupille 0,46 0,23 0,73 0,40
29 tempe 0,09 0,05 0,42 0,28
30 iris 0,19 0,10 0,49 0,18

présentent les écarts types les plus faibles. Par contre, les items de
difficultés moyennes présentent les écarts types les plus élevés.
La dernière colonne du tableau 1.3 mentionne la corrélation entre le
score à chaque item et le score total pour l’ensemble de l’épreuve, lequel
est égal à la somme des scores aux 30 items. Pour éviter une élévation
artificielle des coefficients de corrélations, le score de l’item a été retiré du
score total pour chaque calcul d’une corrélation. La corrélation d’un item
avec le score total nous renseigne à propos de la relation qui unit cet item
à l’ensemble de l’épreuve. Les sujets qui ont obtenu un score total élevé
à l’épreuve ont normalement une probabilité plus élevée de réussir un

41
L’évaluation des composantes formelles du langage

item quelconque que les sujets qui ont obtenu un score total faible. Il serait
étrange d’observer le phénomène inverse, lequel se traduirait par un
coefficient de corrélation négatif. Par contre, il peut arriver qu’un item ne
soit pas corrélé avec le score total. Cela signifie que les performances à
cet item sont indépendantes de celles aux autres items. En d’autres
termes, cet item mesure une caractéristique différente de celle mesurée
par les autres items. Un tel item est hétérogène par rapport aux autres
items et doit, par conséquent, être éliminé. On considère que la corréla-
tion entre un item et le score total doit être au moins égale à .30 (Laveault
et Grégoire, 2002). Dans le tableau 1.3, on peut constater que, dans leur
grande majorité, les coefficients de corrélation sont largement supérieurs
à cette valeur. Quelques coefficients sont artificiellement faibles du fait de
la réduction de l’étendue des scores qui apparaît lorsque l’item est très
facile ou très difficile. Dans ce cas, le score à l’item a une très faible
variance, ce qui déprime la corrélation de cet item avec le score total. Par
ailleurs, on peut observer que trois items de l’échelle ont une corrélation
assez faible avec le score total, malgré une variabilité suffisante de leurs
scores. Il s’agit des items 9 (langue), 26 (plante des pieds) et 30 (iris). La
© De Boeck Supérieur | Téléchargé le 13/04/2021 sur www.cairn.info via BIU Montpellier (IP: 194.57.207.215)

© De Boeck Supérieur | Téléchargé le 13/04/2021 sur www.cairn.info via BIU Montpellier (IP: 194.57.207.215)
faiblesse de ces corrélations peut provenir de problèmes de consigne ou
de précision des critères de cotation.

2.3 Caractéristiques psychométriques de l’épreuve


L’analyse des items concerne aussi l’épreuve dans son ensemble. Une
information importante est le degré de cohérence de l’épreuve. Nous
avons vu plus haut que les corrélations entre les items et le score total
nous fournissent des informations utiles à ce propos. Mais, ces informa-
tions ne concernent que les items pris isolément. L’alpha de Cronbach
permet d’évaluer le degré de cohérence de l’ensemble des items (Cronbach,
1951). Dans le cas de l’épreuve de dénomination des parties du corps, la
valeur de l’alpha est égale à .91. Cette valeur est élevée et indique une
bonne cohérence interne de l’échelle. L’alpha nous fournit par la même
occasion une information à propos de la précision des mesures fournies
par l’épreuve. Le terme de fidélité désigne ce degré de précision. La
fidélité est souvent évaluée par la méthode test/retest. La différence entre
deux mesures successives récoltées à l’aide d’un même test est alors
considérée comme un indicateur de précision de ce test. La méthode test/
retest souffre toutefois de plusieurs inconvénients. Par conséquent, le
coefficient alpha lui est souvent préféré car il fournit une meilleure
évaluation de la fidélité sans nécessiter une seconde passation du test.
L’alpha de .91, obtenu pour l’épreuve de dénomination des parties du
corps, signifie que 91 % de la variance des scores à cette épreuve sont
déterminés par la variance du trait mesuré. Les 9 % de variance restants
sont déterminés par la variance de l’erreur.

42
Aspects psychométriques de la construction d’épreuves d’évaluation

Il est également important d’évaluer l’évolution du score total à l’épreuve


au travers des groupes d’âge. Le test de dénomination des parties du
corps est une épreuve développementale censée mettre en évidence une
évolution des connaissances lexicales en fonction de l’âge et de la
scolarité. En d’autres termes, cette épreuve doit présenter une sensibilité
génétique suffisante. La figure 1.1 représente l’évolution du score total
moyen à l’épreuve de dénomination des parties du corps au travers des
12 groupes d’enfants, de la 1re maternelle à la 6e primaire. On peut
constater que ce score total moyen évolue régulièrement d’un groupe à
l’autre. Cette évolution indique la bonne sensibilité génétique de l’épreuve.

Figure 1.1 – Sensibilité génétique de l’épreuve

60
© De Boeck Supérieur | Téléchargé le 13/04/2021 sur www.cairn.info via BIU Montpellier (IP: 194.57.207.215)

© De Boeck Supérieur | Téléchargé le 13/04/2021 sur www.cairn.info via BIU Montpellier (IP: 194.57.207.215)
50
Score moyen

40

30

20
1 2 3 4 5 6 7 8 9 10 11 12
Groupe

Cette évolution est-elle identique pour les garçons et les filles ? La figure
1.2 montre clairement que ce n’est pas le cas. Dans tous les groupes, la
performance moyenne des filles est supérieure à celle des garçons. Au
travers des groupes, la différence moyenne entre les filles et les garçons
est de 2,3 points, avec un minimum de 1,8 points et un maximum de 3,5
points. Pour l’ensemble de l’échantillon, cette différence est statistique-
ment significative (t (1142) = 3 294, p < .001). Par conséquent, bien que

43
L’évaluation des composantes formelles du langage

l’écart entre les filles et les garçons ne soit pas très important, il serait sans
doute préférable de fournir des normes distinctes en fonction du sexe.
Utiliser des normes uniques pour les filles et les garçons risque d’entraîner
une surestimation systématique des performances des filles et une sous-
estimation des performances des garçons.

Figure 1.2 – Différences entre filles et garçons

60

50
Score moyen
© De Boeck Supérieur | Téléchargé le 13/04/2021 sur www.cairn.info via BIU Montpellier (IP: 194.57.207.215)

© De Boeck Supérieur | Téléchargé le 13/04/2021 sur www.cairn.info via BIU Montpellier (IP: 194.57.207.215)
40

Garçons
30
Filles

20
1 2 3 4 5 6 7 8 9 10 11 12
Groupe

2.4 Analyses selon le modèle de Rasch


Les données d’étalonnage ont été analysées selon le modèle de Rasch. Il
s’agit d’un modèle probabiliste de la mesure qui permet d’obtenir une
estimation de la difficulté des items plus robuste que l’indice calculé selon
la méthode classique (Hambleton et Swaminathan, 1985). Selon le
modèle de Rasch, la réussite d’un item peut être prédite en fonction de la
compétence des sujets. Dans la figure 1.3, la courbe caractéristique de
l’item 13 (« épaule ») représente la relation entre la compétence des sujets
(en abscisse) et la probabilité de répondre correctement à cet item (en
ordonnée). Comme l’item est coté 0, 1 ou 2, l’ordonnée est graduée de 0
à 2 (score attendu). Plus la compétence du sujet est élevée, plus son score

44
Aspects psychométriques de la construction d’épreuves d’évaluation

attendu l’est aussi. Dans le modèle de Rasch, la courbe caractéristique de


l’item est une fonction logistique qui permet de prédire le score d’un sujet
sur la base de son aptitude et, inversement, d’estimer son aptitude
connaissant son score.

Figure 1.3 – Courbe caractéristique de l’item 13 (« épaule »)

2,0

1,5
Score attendu

1,0
© De Boeck Supérieur | Téléchargé le 13/04/2021 sur www.cairn.info via BIU Montpellier (IP: 194.57.207.215)

© De Boeck Supérieur | Téléchargé le 13/04/2021 sur www.cairn.info via BIU Montpellier (IP: 194.57.207.215)
2,5

0,0

–3 –2 –1 0 1 2 3
Position du sujet

Dans la figure 1.3, par convention, la graduation de l’abscisse est centrée


sur l’aptitude moyenne du groupe qui a servi à évaluer les paramètres de
difficulté des items. La valeur de cette moyenne est arbitrairement fixée
à 0. Les valeurs – 1 et 1 correspondent respectivement à un écart type en
dessous et au-dessus de la moyenne, et ainsi de suite pour les valeurs
– 2 et 2, – 3 et 3… La difficulté d’un item correspond au degré d’aptitude
nécessaire pour avoir 50 % de chance de réussir cet item. Dans le cas de
l’item 13, cette valeur correspond au degré de compétence nécessaire
pour obtenir un score d’un point. Elle est égale à – 0,67. Tous les items
du test peuvent être rangés en fonction de leur difficulté sur le continuum
que constitue la compétence mesurée, représentée par l’abscisse.
L’estimation du paramètre de difficulté des items selon le modèle de
Rasch nous informe non seulement à propos de l’ordre des items, mais
aussi à propos de la distance qui les sépare. Comme le modèle de Rasch
nous permet de faire de même pour les sujets, il est possible de ranger les
sujets et les items de part et d’autre du continuum, comme dans la figure
1.4. Cette représentation graphique est très utile pour vérifier si nous
disposons de suffisamment d’items sur toute l’étendue d’aptitude visée

45
L’évaluation des composantes formelles du langage

par le test. Dans la figure 1.4, nous pouvons constater que les items de
l’épreuve de dénomination des parties du corps couvrent une grande
étendue de la compétence visée. Comme la finalité de l’épreuve est
essentiellement clinique, les items qui se situent au-delà de la valeur 1,0
sont d’une utilité limitée. Par ailleurs, certains items sont redondants,

Figure 1.4 – Distribution des sujets et des items (Note : X = 5 sujets)

Position Sujets Items

○ ○ ○
4,0
○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○

○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○

○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○
XX
○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○

○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○

○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○
X ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○

○ ○ ○
3,0
○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○

○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○
XXXX
○ ○ ○ ○ ○ ○ ○ ○ ○
Item 29
○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○

XX Item 30
© De Boeck Supérieur | Téléchargé le 13/04/2021 sur www.cairn.info via BIU Montpellier (IP: 194.57.207.215)

© De Boeck Supérieur | Téléchargé le 13/04/2021 sur www.cairn.info via BIU Montpellier (IP: 194.57.207.215)
○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○

○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○
XXXXX
○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○

○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○
XXX
○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○

○ ○ ○
2,0
○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○
XXXXXX
○ ○ ○ ○ ○ ○ ○ ○ ○ ○
Item 26
○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○

○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○
XXXXX
○ ○ ○ ○ ○ ○ ○ ○ ○
Item 28
○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○

○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○
XXXXXXXX
○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○

○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○
XXXXXXXXXXXX
○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○
Item 27
○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○

○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○
XXXXXXXXXXXXXXXXX
○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○
Item 25 Item 22
○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○

○ ○ ○
1,0
○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○
XXXXXXXXXXXXX
○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○

○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○
XXXXXXXXXX
○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○
Item 20
○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○

○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○
XXXXXXXXXXXXXXX
○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○
Item 21 Item 24 Item 23
○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○

○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○
XXXXXXXXXXXX
○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○
Item 9 Item 8
○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○

○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○
XXXXXXXXXXXXXXXXXXXX
○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○

○ ○ ○
0,0
○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○
XXXXXXXXXXX
○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○
Item 17
○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○

○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○
XXXXXXXXXXXXXXXXXX
○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○
Item 7
○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○

○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○
XXXXXXXXXXXXXXX
○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○
Item 16
○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○

○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○
XXXXXXXXX
○ ○ ○ ○ ○ ○ ○ ○ ○ ○
Item 15
○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○

○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○
XXXXXXXXXXXXX
○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○
Item 6 Item 13 Item 14
○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○

○ ○ ○
– 1,0
○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○
XXXXXXXXX
○ ○ ○ ○ ○ ○ ○ ○ ○ ○
Item 5 Item 12
○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○

○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○
XXXXX
○ ○ ○ ○ ○ ○ ○ ○ ○
Item 10
○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○

○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○
XXXX
○ ○ ○ ○ ○ ○ ○ ○ ○
Item 9 Item 8
○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○

○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○
XX
○ ○ ○ ○ ○ ○ ○ ○ ○
Item 4 Item 11
○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○

○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○
XX
○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○

○ ○ ○
– 2,0
○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○
X ○ ○ ○ ○ ○ ○ ○ ○
Item 2
○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○

○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○
X ○ ○ ○ ○ ○ ○ ○ ○
Item 1 Item 3
○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○

○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○

○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○

○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○

– 0,3

46
Aspects psychométriques de la construction d’épreuves d’évaluation

certains niveaux de compétence étant mesurés par plusieurs items. Il


serait par conséquent possible de réduire la longueur de cette épreuve en
supprimant une partie des items redondants.
Le logiciel RUMM 2010 (Andrich et Sheridan, 2000), utilisé pour
analyser les items de l’épreuve de dénomination des parties du corps
selon le modèle de Rasch, possède une fonction très utile pour évaluer la
pertinence de la graduation des scores à chaque item. La figure 1.5
présente la courbe caractéristique de chacun des scores (0, 1 et 2) à l’item
27 (« paume de la main »). On constate que, si la compétence du sujet est
égale à – 2, son score le plus probable est 0. Si son aptitude est égale à
1, son score le plus probable est égal à 1. Et si son aptitude est égale à
3, son score le plus probable est égal à 2. Par conséquent, les scores
probables des sujets évoluent de concert avec leur niveau de compé-
tence, ce qui est l’objectif visé en utilisant un système de cotation en trois
niveaux.
© De Boeck Supérieur | Téléchargé le 13/04/2021 sur www.cairn.info via BIU Montpellier (IP: 194.57.207.215)

© De Boeck Supérieur | Téléchargé le 13/04/2021 sur www.cairn.info via BIU Montpellier (IP: 194.57.207.215)
Figure 1.5 – Courbes caractéristiques des scores 0, 1 et 2 à l’item 27 (« paume »)

1,0
Probabilité

0,5

0,0

–3 –2 –1 0 1 2 3
Position du sujet

Une telle évolution n’est malheureusement pas toujours observée. C’est


le cas pour l’item 15 (« genou ») dont les courbes caractéristiques des
scores sont représentées dans la figure 1.6. On constate que le score 1
n’apparaît comme le plus probable à aucun niveau de compétence. Les
scores 0 et 2 sont toujours nettement plus probables. Face à une telle
situation, il est légitime de mettre en question le système de cotation
utilisé. Les critères d’attribution du score 1 sont-ils suffisamment clairs ?

47
L’évaluation des composantes formelles du langage

Y a-t-il une réelle nécessité d’utiliser un score intermédiaire ? Ne pourrait-


on pas utiliser un système de cotation plus simple, en l’occurrence 1 ou
0 ? L’examen des graphiques des autres items de l’épreuve montre que
le score 1 est en général peu utilisé. Par conséquent, l’utilisation d’un
système de cotation dichotomique n’entraînerait pas une perte impor-
tante d’information et simplifierait sans doute le travail des praticiens.

Figure 1.6 – Courbes caractéristiques des scores 0, 1 et 2 à l’item 15 (« genou »)

1,0
Probabilité

0,5
© De Boeck Supérieur | Téléchargé le 13/04/2021 sur www.cairn.info via BIU Montpellier (IP: 194.57.207.215)

© De Boeck Supérieur | Téléchargé le 13/04/2021 sur www.cairn.info via BIU Montpellier (IP: 194.57.207.215)
0,0

–3 –2 –1 0 1 2 3
Position du sujet

CONCLUSION
Ce chapitre nous a permis d’expliquer et d’illustrer les procédures
d’étalonnage et d’analyse d’items appliquées lors du développement de
la batterie ISADYLE. Nous avons pu constater que l’échantillon d’étalon-
nage possède des caractéristiques proches de celles de la population de
référence, ce qui permet de considérer les normes d’ISADYLE comme
étant valides pour l’évaluation clinique.
Au travers de l’exemple de l’épreuve de dénomination des parties du
corps, nous avons présenté les analyses d’items réalisées pour chaque
épreuve de la batterie. Ces analyses permettent de sélectionner les items
les plus informatifs et d’évaluer la pertinence du système de cotation
utilisé. Nous avons pu constater que l’épreuve de dénomination des
parties du corps permet une discrimination fine des sujets tout au long du
développement de leur compétence lexicale.

48

Vous aimerez peut-être aussi