Académique Documents
Professionnel Documents
Culture Documents
Even Loarer
valuer
lintelligence
logique
APPROCHE COGNITIVE
ET DYNAMIQUE
CHELLES DINTELLIGENCE
(WISC-III, WISC-IV, WAIS III)
TESTS DE FACTEUR G
(RAVEN, DOMINOS)
BATTERIES FACTORIELLES
(NV5, NV7, DAT5)
INTRODUCTION . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.
2.
3.
Dfinir lintelligence . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Mesurer lintelligence . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
11
Repres historiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
12
12
13
15
21
21
24
27
VI
31
35
1.
Dfinitions pralables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
37
37
39
39
40
La notion de psychomtrie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
43
La standardisation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
45
La notion de fidlit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
47
Le principe de fidlit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
47
50
51
3.
La notion de sensibilit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
54
4.
La notion de validit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
56
Principes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
56
57
63
Lindice de difficult . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
64
Lindice de discrimination . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
65
La notion de biais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
66
66
67
69
2.
5.
6.
7.
VII
La notion dtalonnage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
70
Principes de ltalonnage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
70
73
81
8.
83
9.
87
88
92
94
98
10. Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
99
1.
2.
103
105
105
108
Le WISC-III . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
112
Prsentation de lpreuve . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
113
Standardisation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
115
119
120
132
142
143
VIII
3.
Le WISC-IV . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
144
144
Prsentation de lpreuve . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
146
Standardisation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
149
151
152
162
172
La WAIS-III . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
173
Prsentation de lpreuve . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
174
Standardisation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
176
179
184
190
191
4.
1.
2.
194
196
209
214
215
Prsentation de lpreuve . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
215
219
La standardisation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
225
228
231
3.
231
231
233
234
La standardisation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
235
237
238
243
Le test R85/R2000 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
244
Prsentation de lpreuve . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
244
245
La standardisation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
246
247
248
248
248
Le BLS 4 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
249
Le test B53 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
250
Le test RCC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
250
253
4.
5.
IX
1.
La batterie NV7 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
255
Prsentation de lpreuve . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
255
261
La standardisation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
264
267
270
2.
3.
La batterie NV5-R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
271
Prsentation de la NV5-R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
271
276
La standardisation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
278
281
283
La batterie DAT 5 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
283
Prsentation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
283
286
288
La standardisation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
292
293
296
299
1.
La notion de stratgie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
302
2.
Vicariance et affordance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
305
3.
307
308
309
311
311
311
318
4.
324
326
327
1.
329
Dfinition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
329
329
2.
330
3.
331
333
334
335
336
336
337
338
339
340
341
341
342
346
346
347
4.
XI
5.
6.
XII
348
349
7.
352
8.
Prsentation dpreuves . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
354
358
359
363
365
9.
1.
2.
3.
367
367
370
373
374
375
378
380
Quelques rappels . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
380
383
394
394
396
XIII
407
diteurs de tests . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
409
FICHES PRATIQUES . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
411
4.
1.
2.
3.
4.
5.
Le test DAT5 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
411
Prsentation du test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
411
Passation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
411
Informations diverses . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
412
412
Prsentation du test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
412
Passation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
412
Informations diverses . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
413
413
Prsentation du test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
413
Passation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
414
Informations diverses . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
414
414
Prsentation du test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
414
Passation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
415
Informations diverses . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
415
415
Prsentation du test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
415
Passation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
416
Informations diverses . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
416
XIV
6.
417
Prsentation du test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
417
Passation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
417
Informations diverses . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
418
Le test Samuel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
418
Prsentation du test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
418
Passation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
419
Informations diverses . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
419
Le test TEDE 6 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
419
Prsentation du test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
419
Passation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
420
Informations diverses . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
420
421
Prsentation du test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
421
Passation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
422
Informations diverses . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
422
423
Prsentation du test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
423
Passation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
424
Informations diverses . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
424
424
Prsentation du test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
424
Passation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
425
Informations diverses . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
426
426
Prsentation du test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
426
Passation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
427
7.
8.
9.
XV
Informations diverses . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
427
427
Prsentation du test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
427
Passation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
428
Informations diverses . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
428
ANNEXES . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
429
1.
2.
Prambule . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
429
429
429
431
436
439
439
Les Recommandations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
444
450
452
Bibliographie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 460
Annexes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
461
BIBLIOGRAPHIE . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
469
Introduction
Introduction
leurs usages. Dans tous les cas, le prsent ouvrage nest pas destin
remplacer les manuels dutilisation de ces preuves. Nous souhaitons, au
contraire quil renforce lenvie de sy reporter et quil constitue galement
une invitation la consultation de documents complmentaires (livres,
articles, ...) relatifs aux approches et preuves que nous prsentons ;
4. Dautres approches valuatives relativement mconnues, telles que
lanalyse des stratgies de rsolution ou encore lvaluation dynamique
de lintelligence, qui apportent des perspectives de renouvellement
des pratiques (et des outils) dvaluation (Huteau et Lautrey, 1999a).
Mme si ces preuves sont encore rares, et quelles restent souvent
perfectibles, elles tmoignent de rapprochements intressants entre
thories et pratiques et peuvent apporter des solutions pratiques trs
utiles certaines problmatiques.
Cet ouvrage prsente bien entendu certaines limites. Il est limit dans son
primtre : centr sur la question de lvaluation de lintelligence logique
il naborde pas la question de lvaluation dautres formes dintelligence
(sociale, pratique, motionnelle...). Il est galement limit dans les niveaux
dges pris en compte : il concerne lvaluation des adolescents et adultes
et ne prsente donc pas les preuves utilisables auprs des enfants dge
prscolaire et scolaire. Enfin, tous les test dintelligence logique ny figurent
pas, par ncessit de faire des choix (par exemple les tests sur support
verbal, tels que ceux labors par Bonnardel (cf. Thibaut, 2000, pour une
prsentation), ou encore les tests inspirs de la thorie de Piaget (mieux
adapts pour les plus jeunes).
(chapitre 7). Enfin un dernier chapitre est consacr aux diffrents cadres
dutilisation des tests ainsi quaux aspects dontologiques relatifs
lvaluation des personnes.
En annexe figurent des fiches synthtiques des preuves prsentes
ainsi que la reproduction de deux documents : le Code de Dontologie des
Psychologues et les recommandations internationales sur lutilisation des tests.
Conu comme un manuel pratique, chacune de ses parties peut tre lue
de faon indpendante. De nombreux renvois sont faits dans le texte pour
permettre de multiples itinraires de lecture.
La pratique de lvaluation ncessite nos yeux la matrise dun ensemble
de connaissances souples, et articules, ainsi quune pratique rflexive.
Il est essentiel de ne pas appliquer de faon mcanique des procdures
standard (comme par exemple le calcul des scores) mais de comprendre et
matriser tous les aspects de lvaluation (des conditions de standardisation
linterprtation des scores) afin de pouvoir sajuster au mieux chaque
situation prise dans sa complexit, sans pour autant mettre en pril les
principes de la standardisation. Cela est ncessaire pour sassurer la fois de
la validit de la mesure et des conditions de respect des droits de la personne
value.
Si cet ouvrage contribue lun des objectifs fixs dans les recommandations
internationales sur lutilisation des tests de promouvoir une bonne utilisation
des tests et dencourager des pratiques exemplaires dans le domaine de
lvaluation (SFP, 2003, p. 9), nous pourrons considrer avoir atteint
notre but.
PREMIRE PARTIE
Aspects historiques,
thoriques
et mthodologiques
CHAPITRE
1
Les conceptions
thoriques
de lintelligence
et de sa mesure
Sommaire
Page 9
2. Repres historiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Page 12
Page 21
1.
Dfinir lintelligence
La diversit des modles produits et des approches retenues par les auteurs
tmoigne de la difficult rencontre cerner cette notion. Lintelligence
humaine est en effet une abstraction. Cest un construit thorique labor
pour rendre compte dun ensemble de conduites humaines perues comme
efficientes.
Etymologiquement, le terme vient du latin intelligere qui signifie
comprendre. Mais la simple fonction de comprendre ne suffit pas lvidence
rendre compte de lintelligence humaine.
En 1921, soucieux dy voir plus clair, les diteurs du Journal of Educational
Psychology demandrent un groupe dexperts reconnus dans le domaine de
la psychologie de donner une dfinition de lintelligence. Il en rsulta une
grande varit de rponses.
Ritrant lexercice soixante-cinq ans plus tard, Sternberg et Detterman
(1986) firent le mme constat dune absence de consensus. Nanmoins, dans
ces deux tudes, ainsi que dans une troisime (mene un an plus tard par deux
chercheurs amricains (Snyderman et Rothman, 1987) selon un principe
analogue auprs dun large chantillon de plusieurs centaines dexperts), les
caractristiques prsentant le plus fort consensus concernent les capacits
10
99 %
2.
98 %
3.
96 %
4.
Mmoire
81 %
5.
Adaptation lenvironnement
77 %
6.
Vitesse mentale
72 %
7.
Capacit linguistique
71 %
8.
Capacit en mathmatiques
68 %
9.
Culture gnrale
62 %
10.
Crativit
60 %
11
12
2.
Repres historiques
13
Binet tait trs critique vis--vis des tests issus dexpriences de laboratoire et
portant sur des processus lmentaires comme moyen dvaluer les capacits
intellectuelles quil percevait comme plus complexes. Dailleurs, les premires
tentatives de Cattel, dvaluer laide de ses tests mentaux les tudiants de
luniversit de Columbia donnrent raison Binet : elles dmontrrent quil
ny avait pas de relation entre les rsultats dans ces tests et la russite dans
les tudes universitaires.
14
Binet tait convaincu que les diffrences individuelles dans les capacits
intellectuelles seraient mieux estimes par des tches de mmorisation,
de raisonnement, de jugement ou dimagerie mentale. Encore fallait-il
concevoir les tches adaptes.
Binet commence alors avec Simon, qui tait mdecin dans un institut
pour enfants retards , mettre au point des preuves nouvelles et
les essayer dans les coles. Ils constatent que certains items chous par
des enfants retards sont russis par des enfants normaux de mme
ge. La russite ces items, ou groupes ditems, doit alors permettre de
diagnostiquer un retard, ou une avance, de dveloppement intellectuel.
Chaque enfant peut ainsi tre caractris la fois par son ge rel et par un
ge mental correspondant son niveau de russite (voir dans le chapitre 3
la prsentation de la notion dge mental).
En 1904, une commission ministrielle, la commission Bourgeois, charge
officiellement Binet dtudier le problme du diagnostic de la dbilit
mentale. Il ne mettra, avec Simon quun an mettre au point leur premire
chelle mtrique de dintelligence. Nous reviendrons plus en dtail sur cette
chelle dans le chapitre 3.
Lchelle de Binet-Simon a eu un succs immdiat et fulgurant. Elle
permettait de sortir de limpasse o se trouvait le problme de lvaluation
de lintelligence et fournissait enfin des moyens de rpondre aux demandes
sociales en matire dvaluation des personnes. Une seconde version du BinetSimon est publie en 1908 et lchelle est adapte aux tats-Unis ds 1909.
Lewis Terman (1977-1956), professeur luniversit de Stanford, produit
en 1916 le Stanford-Binet et lpreuve fait ensuite lobjet de nombreuses
adaptations. Durant la premire guerre mondiale (1914-1918), Arthur
S. Otis (1886-1964), lve de Terman, sinspirera du Binet-Simon pour
produire, la demande de larme amricaine deux tests collectifs utilisables
pour la slection et lorientation des recrues : lArmy alpha (niveau normal) et
lArmy Beta (niveau illettr). Grce ces possibilits de passation collective,
1,7 million de recrues ont t tests entre 1916 et 1918.
En 1912, Stern prolonge lide dage mental de Binet en inventant un
nouvel indice appel quotient intellectuel (QI), rapport entre lge mental et
lge chronologique. Il propose ainsi un indice de vitesse de dveloppement
intellectuel, interprtable en termes davance ou de retard. Cet indice sera
trs utilis, et pas toujours bon escient, et donnera lieu de nombreuses
controverses au XXe sicle (voir Gould, 1983 ; Tort, 1974, Huteau et Lautrey,
1975) et encore actuellement (Lautrey, 2007).
15
16
covarie avec la russite dans les autres. La figure 1.1. fournit une illustration
schmatique de ce modle.
10
9
4
5
6
Figure 1.1
Reprsentation schmatique du modle de Spearman : les diffrentes preuves
(numrotes de 1 10) saturent pour partie dans un facteur unique appel facteur g .
17
18
Tableau 1.2
Les sept aptitudes primaires (capacits intellectuelles)
identifies par Thurstone (1941).
Capacits
Dfinition
Aptitude numrique
Comprhension
verbale
Fluidit verbale
Visualisation spatiale
Mmorisation
Raisonnement
infrentiel
Vitesse perceptive
19
N
2
P
9
3 R
4
S
10
Figure 1.2
Reprsentation schmatique du modle de Thurstone : les diffrentes preuves (numrotes
de 1 10) saturent pour partie dans des facteurs de groupe appels facteurs primaires
qui correspondent des registres intellectuels distincts.
rsolution de problmes nouveaux. Celles qui relvent de lintelligence cristallise dpendraient de la culture, de la pratique scolaire, des apprentissages
intentionnels, des habitudes, de lexprience. Lintelligence fluide serait
donc plus fortement dtermine par lhrdit que lintelligence cristallise.
Cette distinction quils introduisent entre intelligence fluide et cristallise,
sera ensuite reprise par de nombreux auteurs (cf. par exemple Baltes &
Baltes, 1990).
Burt et Vernon, psychologues travaillant Londres, procdent galement
par des analyses factorielles mais optent pour une mthodologie diffrente.
Alors que Cattel et Horn ont procd lanalyse des donnes du bas vers le
haut, eux vont aller du haut vers le bas. Ils extraient tout dabord la variance
du facteur gnral dans la batterie de test utilise, puis observent que la
variance restante se partage entre deux grands facteurs de groupe. Ils appellent
le premier Verbal-Education (V-E) et le second Kinesthsique-Moteur
20
(K-M). Une fois retire la variance de ces deux grands facteurs, la variance
restante se rpartit entre plusieurs facteurs plus spcifiques qui correspondent
aux facteurs primaires de Thurstone (cf. figure 1.3).
Figure 1.3
Reprsentation schmatique du modle hirarchique de Burt et Vernon.
3.
21
22
Strate III
Strate II
Intelligence fluide
Intelligence
cristallise
Mmoire
et apprentissage
Intelligence
gnrale
G
Strate I
Raisonnement Gnral
Induction
Raisonnement quantitatif
Raisonnement Piagtien
Dveloppement du langage
Comprhension verbale
Connaissance lexicale
Comprhension de lecture
Codage phontique
Empan mnmonique
Mmoire associative
Mmoire visuelle
Reprsentation
visuo-spatiale
Visualisation
Relations spatiales
Vitesse de clture
Flexibilit de structuration
Reprsentation
auditive
Discrimination auditive
Jugement musical
Mmoire des sons
Rcupration
en mmoire
long terme
Rapidit cognitive
Vitesse
de traitement
Originalit / crativit
Fluidit idationnelle
Fluidit dassociation
Fluidit verbale
Facilit numrique
Vitesse perceptive
Temps de raction
Vitesse de comparaison mentale
Figure 1.4
Structure hirarchique des capacits cognitives (daprs Caroll 1993. Facteurs de vitesse
en italiques et de puissance en caractres normaux).
23
Numrique
Addition
Multiplication
Soustraction
Division
Jugement numrique
Empans
de chiffres,
de lettres
Raisonnement numrique
Srie de nombres
Comparaison
de chiffres
de symboles
de figures identiques
Analogies de nombres
Rotation
l
rba
e
V
Rappel
de paragraphe
Comprhension
de lecture
Assemblage
dobjets
Sp
a
t
ial
mentale
Anagrammes
Matrices Dveloppement
Voc. Srie
Reconstruction
Voc.
de Raven de surfaces
df. de lettres
de formes
reconn.
Analogies
Analogies
Formation verbales
gomtriques
de concepts
Assemblage
mcanique
Comprhension
Cubes
lcoute
de Kohs
dun texte
Compltion
dimages
Figure 1.5
Reprsentation selon le modle du Radex dun ensemble fini de tests dintelligence (daprs
Snow et Lohman, 1989 et Lohman, 2000, cit par Juhel, 2005).
mesure le facteur g ;
24
linverse, plus un test est situ vers la priphrie, mieux il mesure des
aptitudes spcifiques ;
La nature des aptitudes values dpend de la zone o est situe lpreuve.
Une premire rgion concerne les preuves offrant un contenu figuratif
ou dont les items sont des figures gomtriques (domaine spatial), une
seconde rgion rassemble les preuves du domaine verbal (comprhension,
lecture, vocabulaire...) et la troisime rgion correspond aux preuves
contenu numrique (tches impliquant des chiffres, des nombres, des
calculs...).
La position du test dans lespace de la figure informe donc sur la nature
de la dimension quil value.
La position du test informe galement sur le degr de complexit cognitive
des preuves (cf. Guttman et Lvy, 1991) :
Les tests situs vers le sommet, requirent de la puissance de raisonnement
25
Les tentatives dexplications sont nombreuses mais lon doit bien admettre,
comme le rappelle Flieller (2001), que le phnomne demeure encore une
nigme.
Plusieurs hypothses sont candidates lexplication de leffet Flynn. On
retiendra en particulier :
laugmentation du brassage gntique des populations ;
lamlioration de la nutrition et des conditions dhygine et de sant ;
laugmentation des exigences et sollicitations cognitives de lenvironnement ;
les progrs de lducation.
26
27
28
de cohorte nest effectif que pour une seule gnration. Pour pallier cette
difficult, les tudes visant lobtention dune vue densemble de lvolution
life-span de lintelligence ont eu recours un plan plus sophistiqu (appel
squentiel) qui est une combinaison des plans transversaux et longitudinaux.
Ltude longitudinale est alors mene simultanment sur plusieurs cohortes,
ce qui permet disoler les effets de cohorte des effets propres du vieillissement.
Nous pouvons retenir de ces travaux trois grandes conclusions :
1. Le dclin savre gnralement plus tardif que ne le laissaient penser
les tudes transversales
La plus importante tude longitudinale a t mene sous la responsabilit
de Schaie (1979, 1983, 1994) : cest l tude longitudinale de Seattle .
Ltude a dbut en 1956 sur un chantillon de 500 sujets adultes gs de
20 70 ans valus laide de diffrents tests dintelligence dont les PMA de
Thurstone. Ensuite, tous les sept ans, les auteurs ont procd la constitution
dun nouvel chantillon similaire et lvaluation des chantillons existants.
Les dernires valuations ont port sur 8 cohortes de sujets gs de 22
95 ans et, au total, prs de 5000 personnes ont particip ltude. Ltude
de Schaie montre ainsi que les performances dans les PMA de Thurstone ne
commencent en moyenne dcrotre quentre 50 et 60 ans (Schaie, 1994)
(voir figure 1.6).
2. Le dclin naffecte pas de la mme faon les diffrents registres
dactivit cognitive
Dj dans les annes soixante, Cattel et Horn avaient signal une
volution diffrente avec lge des capacits relevant de lintelligence fluide
et de lintelligence cristallise (Horn, & Cattel, 1966) : les premires ayant
tendance dcliner et les autres se maintenir, voir continuer de crotre
progressivement.
Ces diffrences ont t confirmes par un grand nombre dtudes. Par
exemple, Fontaine (1999) publie un tableau (voir tableau 1.3) issu des
travaux de McGhee (1993) qui prcise pour 9 grands domaines de capacits
cognitives leur sensibilit aux effets ngatifs du vieillissement (voir tableau
1.3).
Des volutions dans la structure factorielle des aptitudes ont galement t
dcrites. Symtriquement au processus de diffrenciation des aptitudes qui se
manifeste dans lenfance et ladolescence (Larcebeau, 1967 ; Nguyen-Xuan,
1969), un phnomne de ddiffrenciation est observ en relation avec
le vieillissement. Il se traduit par une diminution du poids des facteurs
primaires et par une augmentation du poids du facteur g. Ce phnomne
29
60
Moyenne T-scores
55
50
Comprhension verbale
45
Aptitude spatiale
Raisonnement inductif
Aptitude numrique
40
Fluidit verbale
35
25
32
39
46
53
60
67
74
81
88
Age
Figure 1.6
Courbes moyennes dvolution avec lge des rsultats dans les PMA de Thurstone observes
dans ltude longitudinale de Seattle (daprs Schaie, 1994).
30
Tableau 1.3
Tableau des domaines de capacits intellectuelles et de leur sensibilit au vieillissement
(McGhee, 1993, Fontaine, 1999).
Nom
Dfinition
Sensibilit au
vieillissement
Connaissance
quantitative
Comprhension,
connaissance
Insensible
Mmoire court
terme
Sensible
Sensible
Processus auditif
Sensible
Vitesse de dcision
correcte
Trs sensible
Sensible
Trs sensible
31
32
nous venons de prsenter. On peut pourtant sinterroger sur le fait que ces
modles reflteraient la totalit de ce qui caractrise lintelligence humaine.
En particulier, ds lors que lon considre lindividu engag dans des
tches et des situations pratiques de la vie quotidienne, lintelligence value
par les tests peut sembler insuffisante pour rendre compte de lensemble de
ses fonctionnements adaptatifs.
Linterrogation nest pas rcente et de nombreux auteurs ont opt pour
une vision largie de lintelligence. Dj, en 1920, Edward L. Thorndike
(1874-1949) identifiait 3 facettes lintelligence. Il la dfinissait comme
lhabilet comprendre et grer 1/ les ides (intelligence abstraite), 2/ les
objets (intelligence concrte ou mcanique) et 3/ les personnes (intelligence
sociale). Cette dernire facette est ainsi dfinie par Thorndike comme la
capacit comprendre et grer les autres personnes et agir sagement
dans les relations humaines (1920, p. 228). Lintelligence classiquement
value par les tests dintelligence ne correspond donc principalement qu
la premire de ces facettes.
Par ailleurs, Weschler sest galement un temps intress ce quil
appelait les facteurs non-intellectifs de lintelligence (1943, p. 108). Il
dsignait par l en particulier lintelligence sociale. Il conclura cependant
quelques annes plus tard que lintelligence sociale nest rien dautre que de
lintelligence gnrale applique aux situations sociales (1958, p. 75).
Cette question a cependant repris de la vigueur dans la priode rcente.
Elle correspond la tendance de plus en plus affirme ne pas considrer
lintelligence uniquement sous langle de la pense logicomathmatique mais
daccorder une place plus importante aux diffrentes facettes des activits
mentales qui contribuent ladaptation de lindividu et son efficacit dans
les diffrentes sphres de ses activits. Cette tendance sexprime notamment
dans le modle de lintelligence de Sternberg, en particulier par la prise en
compte de formes dintelligence dites pratiques ou non acadmiques
(Sternberg, 1985, Sternberg et al., 2000), ainsi que dans le modle des
intelligences multiples de Gardner (1996, 1999) ou encore dans les travaux
mens sur lintelligence motionnelle (Salovey & Mayer, 1990) et sur
lintelligence sociale (voir Loarer, 2005 sur ces deux aspects).
Ces modles et ces travaux prsentent notre avis lintrt dlargir la
notion dintelligence pour chercher mieux prendre en compte ltendue
de la palette des ressources adaptative des individus et mieux saisir
ce qui sous-tend lorganisation des conduites dans les situations de la
vie quotidienne. Lintelligence cognitive, celle qui prend appui sur le
traitement logique de linformation, joue lvidence un rle essentiel pour
33
34
1884
1890
Cattel propose le terme de mental tests pour des preuves valuant encore
principalement les fonctions lmentaires.
1904
1905
1912
1916
1917
Otis cre les premiers tests collectifs : lArmy alpha et lArmy beta.
1935
Thurstone publie The vectors of the mind qui dcrit un modle multifactoriel de
lintelligence.
1938
Raven publie la premire version des Matrices Progressives inspire des travaux de
Spearman.
1939
1947
1952
1966
Cattel et Horn proposent un second modle hirarchique dans lequel ils distinguent
lintelligence fluide (Gf) et lintelligence cristallise (Gc).
1984
1985
1983
1993
Ces quelques repres nont pas la prtention dtre exhaustifs mais correspondent aux principaux
auteurs et preuves cits dans cet ouvrage qui ont marqus lhistoire de lvaluation de lintelligence.
CHAPITRE
2
Dfinition et proprits
des tests
Sommaire
1. Dfinitions pralables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Page 37
2. La notion de fidlit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Page 47
3. La notion de sensibilit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Page 54
4. La notion de validit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Page 56
Page 63
6. La notion de biais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Page 66
7. La notion dtalonnage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Page 70
Page 83
Page 87
10. Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Page 99
37
Les tests sont donc des outils de mesure qui doivent prsenter, comme
tout instrument de mesure, certaines qualits mtrologiques (appeles ici
psychomtriques), que nous allons dtailler dans ce chapitre1 .
Lobjectif principal ici est dexposer les principaux lments mthodologiques relatifs aux tests dintelligence. Le lecteur intress par lapprofondissement du sujet pourra se rfrer des ouvrages plus complets comme par
exemple celui de Dickes et al. (1994) ou de Laveault et Grgoire (2002).
1.
Dfinitions pralables
38
39
40
Il existe de nombreux tests et lon peut les classer selon diffrents critres :
en fonction du domaine valu, du mode de passation, du format ou du
type de rponse.
Nous allons voquer ces classifications en les illustrant par quelques
exemples de tests dintelligence.
41
42
feuille de rponse. Par cette procdure, plusieurs sujets peuvent tre tests
en mme temps par un seul psychologue. Bien entendu, un test collectif
peut toujours tre utilis en passation individuelle, linverse ne lest pas
forcment.
Le test individuel permet de recueillir davantage dinformations telles
que le comportement du sujet au cours du test, et plus particulirement ses
ractions face une difficult, le non verbal, le reprage des erreurs... Le test
collectif permet quant lui un gain de temps aussi bien pour la passation
que pour la cotation.
1. Dans dautres tests, la notion mme de bonne rponse na pas de sens : tests de personnalit,
questionnaire dintrts...
43
La notion de psychomtrie
44
45
Les dfinitions du test que nous avons prsentes dans notre introduction
insistent sur la standardisation de la situation dvaluation. On peut en effet
dire que la standardisation conditionne la possibilit de comparaison des
rsultats. Dans une situation standardise tout est soigneusement dfini : de
la prsentation du test aux modalits de calcul des scores.
1. Lusage veut que pour les indices statistiques infrieurs 1 (en valeur absolue) on utilise une
notation de type .80 au lieu de 0,80. Nous adopterons donc cette notation car cest celle que le
lecteur trouvera par exemple dans les manuels de tests.
2. Comme par exemple la possibilit ou non de revenir en arrire afin de corriger une rponse...
46
Tous ces lments, aussi bien pour la passation que pour la cotation,
sont gnralement clairement dfinis, voire illustrs par des exemples, dans
le manuel du test. Ces informations permettent de placer tous les sujets
exactement dans la mme situation, et plus particulirement, de les placer
dans la mme situation que les sujets de lchantillon dtalonnage. Si ces
conditions sont quivalentes, la standardisation est assure : on peut alors se
reporter avec confiance ltalonnage pour situer le niveau de performance
du sujet. Cest cette standardisation qui permet la comparabilit des rsultats.
Sinon, si lun des lments de standardisation est dfectueux, la situation
dvaluation est diffrente de celle qui est prvue (par exemple, si on fournit
des aides au sujet pendant la passation, si on lui laisse plus de temps...) et
on ne peut plus utiliser ltalonnage.
Lun des objectifs de la standardisation est dviter un certain nombre
de biais potentiels, et plus particulirement les biais de cotation relatifs
lobservateur. Par exemple, la standardisation permet de garantir une fidlit
inter juge de la cotation : deux psychologues confronts au mme protocole
doivent aboutir au mme rsultat (cest--dire au mme score). Dans les
preuves de type QCM cette fidlit devrait tre parfaite. Dans les preuves
comportant des questions ouvertes, si le psychologue suit correctement les
consignes de cotation, cette fidlit doit galement tre trs bonne. Par
exemple, dans le manuel du WISC-III, cette fidlit a t vrifie par la
cotation de 60 protocoles par deux psychologues. Les coefficients de fidlit
inter cotateurs observs sont trs levs avec des valeurs autour de .99 pour
les preuves verbales (manuel WISC-III, p. 185).
Cest cette standardisation qui distingue les valuations psychologiques
dautres valuations, comme par exemple les valuations scolaires dont on
sait, depuis Piron, quelles prsentent un certain nombre de biais (Piron,
1963). Dailleurs, pour des valuations scolaires il existe des tests normaliss
de connaissances, de type Q.C.M, qui reposent sur les mmes mthodologies
psychomtriques que les tests psychologiques (voir par exemple les tests
T.A.S1 diffuss par les ECPA) et qui garantissent ainsi un niveau de fiabilit
plus lev que les valuations scolaires classiques (pour la comparaison entre
lvaluation scolaire et lvaluation psychologique voir Huteau, 1996).
Le psychologue doit donc bien comprendre lutilit du respect des
consignes qui sont nonces dans le manuel du test, aussi bien comme
nous venons de le voir pour la passation que pour la cotation. Mme si
47
2.
La notion de fidlit
Le principe de fidlit
48
rponses au hasard... ;
Effets propres au psychologue : non respect des conditions de standardisation, initiatives malheureuses, erreurs de calcul de scores... On
retrouve ci limportance du respect des conditions de standardisation
qui a t souligne dans la partie prcdente ;
Effets ventuels du contexte ou de la situation de passation (caractristiques
de la pice, bruits ventuels du voisinage...) qui peuvent tre plus ou
moins propices la concentration du sujet...
On notera que lerreur de mesure peut jouer dans les deux sens. Par
exemple, si le sujet est un peu fivreux le jour de passation ou proccup
par un vnement personnel, il est probable alors que son score observ
sera infrieur son score vrai ; par contre, un sujet qui donne plusieurs
rponses au hasard dans un test Q.C.M peut, avec un peu de chance,
gagner quelques points et obtenir au final un score observ plus lev
que son score vrai .
49
50
Si lon pense que le seuil est trop exigeant et que lon choisisse alors un
seuil de .10, on va alors rduire cet intervalle. Le score vrai se situant alors
entre 991 et 1112 .
Au seuil .10 nous observons bien que lintervalle est un peu plus rduit,
ce qui sexplique par le fait que lon prend alors un risque plus important
quau seuil de .05.
Cet exemple nous indique quil est ncessaire de moduler le niveau de
prcision de la mesure effectue, cest--dire le score observ, et quil est
prfrable, et plus valide, de caractriser le niveau de performance du sujet
par un intervalle de confiance que par un score prcis.
De plus, un score unique prsente linconvnient de crer artificiellement
des diffrences entre des sujets. Ainsi, Huteau et Lautrey indiquent que :
On voit combien sont contestables les pratiques qui prconisent des
traitements diffrents pour des individus que ne sparent que quelques
points de Q.I. (Huteau et Lautrey, 1999a, p. 105).
51
52
1. En plus de ces deux mthodes principales il existe dautres possibilits de vrifier lhomognit
comme par exemple les techniques danalyses factorielles (voir Dickes et al., 1994).
53
3. La fidlit de la cotation
Il sagit ici de la troisime forme de fidlit que doit prsenter un
test psychologique. Cette fidlit inter-juges est requise car, pour que
la mesure soit fiable, il faut que face un mme protocole ( une
mme performance du sujet) des psychologues diffrents aboutissent au
mme rsultat, cest--dire au mme score. Cette exigence peut sembler
vidente et allant de soi mais cest loin dtre le cas. Nous prendrons
deux exemples :
54
effet, dans les chelles verbales de ces preuves, certains subtests prennent
la forme de rponses construire avec une cotation prcise et assez fine car
elle aboutit des scores de 0, 1 ou 2 points. Pour procder cette cotation,
le psychologue doit se rfrer au manuel qui propose, dune part, les rgles
gnrales de dfinition des trois catgories de rponse, dautre part, pour
chaque item les rponses les plus frquentes (observes lors de la phase
dexprimentation) avec les cotations correspondantes. Par exemple, pour le
subtest vocabulaire du WISC-III, on accorde 0, 1 ou 2 points selon le type
de rponse :
0 point : rponse incorrecte,
1 point : rponse correcte mais non gnralisable,
2 points : rponse correcte et gnralisable.
Et le manuel indique, pour chaque item, une liste de rponses possibles
avec les scores attribuer. Le psychologue dispose ainsi de tous les lments
pour procder avec confiance la cotation du protocole.
Comme nous lavons dj signal, cette fidlit de la cotation a t value
pour la version WISC-III avec le calcul dune corrlation entre les cotations
indpendantes de plusieurs protocoles par deux psychologues avec au final
un r de BP quasiment parfait (r = .99).
Comme cet exemple le prouve, la fidlit de la cotation des tests
dintelligence est garantie, mme lorsque lpreuve nest pas de type Q.C.M,
condition toutefois que le psychologue suive scrupuleusement les indications
de correction fournies dans le manuel et que les rponses soient courtes.
Face une preuve prsentant des questions ouvertes, le psychologue
doit donc sintresser de trs prs aux consignes de correction et aux tudes
prsentes dans le manuel qui doivent vrifier ce type de fidlit.
3.
La notion de sensibilit
Lobjectif principal dun test est bien dobserver des diffrences interindividuelles. Cette capacit de diffrenciation des sujets correspond la notion de
sensibilit. La sensibilit reprsente le pouvoir discriminatif de linstrument
de mesure. Un test est sensible sil permet bien de distinguer des sujets
de niveaux diffrents sur une mme dimension psychologique, comme
par exemple lintelligence. Un des postulats de base en psychomtrie, et
plus globalement en psychologie, et valable quel que soit le type de test,
55
10
20
30
40
50
60
scores
lpreuve
Figure 2.1
Exemple dune rpartition de scores conformes une courbe de Gauss
(Daprs Guguen, 2005, Statistiques pour psychologues, Dunod, p. 80).
Soit une preuve note sur 60 points, la rpartition thorique des scores
des sujets est prsente sur la figure 2.1.Un test doit donc aboutir une
telle rpartition des sujets : une faible proportion de sujet doit se trouver
sur la gauche de la courbe (cest--dire obtenir des scores faibles au test),
symtriquement une proportion identique doit se situer sur la droite (scores
levs), avec vers le centre, une majorit de sujets (scores autour de la
moyenne), et une dcroissance progressive des effectifs des sujets du centre
vers les deux extrmits. Dans la phase dlaboration dune preuve, les items
sont donc slectionns pour assurer cette discrimination entre les sujets.
Un test dintelligence comportera ainsi des items de niveaux de difficult
variables de manire diffrencier efficacement les sujets en fonction de
leur russite. Ici va intervenir la notion de difficult de lpreuve. Pour
assurer une sensibilit maximale, un test doit prsenter un niveau moyen
de difficult par rapport au niveau de la population auquel il est destin.
Il faut viter par exemple leffet plafond , qui correspond une preuve
trop facile (tous les sujets obtiennent alors de bons scores, il ny a donc pas
discrimination), ainsi que leffet inverse, leffet plancher , qui correspond
une preuve trop difficile dans laquelle tous les sujets obtiennent des notes
basses. Dans ces deux situations la diffrenciation des sujets nest pas ralise
de faon satisfaisante et le test na alors que peu dutilit.
Cette finesse de la mesure est galement lie au nombre ditems de
lpreuve : plus une preuve comportera ditems, plus elle permettra
deffectuer une diffrenciation fine entre les sujets.
56
Enfin, cette sensibilit est lie au pouvoir discriminant des items (voir
plus loin).
Dans les tests dintelligence, on accorde le plus souvent un point par
item russi et on additionne ces points pour obtenir le score brut. Les sujets
doivent donc se diffrencier sur ce score.
4.
La notion de validit
Principes
57
Tout psychologue devrait ainsi se tenir inform des rsultats des recherches
sur les outils quil utilise afin de mettre jour ses connaissances (voir en
Annexes le code de dontologie et les recommandations internationales).
Diffrents types de validit
58
pour la tche des cubes de Kohs (voir sur ce point Dickes, 1988 et Dickes,
Houssemand et Reuter, 1996) mais ce type de recherche, et nous pouvons le
regretter, reste une exception. De ce fait, concernant les tests dintelligence,
on accordera plus dimportance la validit thorique (voir plus loin).
Il faut donc toujours garder lesprit que le test, et les items qui le
composent, ne sont quun chantillon des situations caractristiques du
domaine considr et que la reprsentativit de ces items nest gnralement
pas value de faon prcise. Le plus souvent, partir de rfrences thoriques
(voir plus loin la notion de validit thorique), le concepteur du test va
slectionner un certain type de tche (donc un certain type ditems) qui sera
en rapport direct avec ce cadre thorique. Mais dans cette slection ditem,
la reprsentativit est plus ou moins bien assure. Cest ce qui explique,
par exemple, quun test dintelligence prsente toujours une spcificit (on
peut faire ici le lien avec le facteur spcifique distingu par Spearman, voir
chapitre 1 de ce livre) et que, mme lintrieur dun cadre thorique
identique, une preuve ne sera jamais parfaitement quivalente une
autre : chacune ayant slectionn, parmi lensemble des possibles, certaines
situations qui vont alors dfinir les caractristiques des items du test.
Ainsi par exemple, si lon prend deux tests de facteur g, le D2000 et le
SPM de Raven, et bien que leur cadre thorique soit identique (rfrence
lapproche de Spearman, avec comme objectif commun dvaluer le facteur
g) le type ditems est diffrent (domino pour le D2000, matrice pour le PMS),
ainsi que les modalits de rponse (rponse construire pour le D2000,
rponse choisir QCM pour le SPM). Ces deux preuves valuent bien la
mme dimension (ici, le facteur g) mais partir de situations diffrentes.
Cette mme dimension peut en outre tre galement value, et de manire
aussi satisfaisante, laide dautres tests. Autrement dit, chaque preuve de
facteur g propose des tches qui ne sont quun chantillon de lensemble des
tches permettant dvaluer le facteur g. Ce principe est valable quel que
soit le cadre thorique de rfrence.
Nous avons pris ici pour exemple deux tests de facteur g dont la validit
est prouve et reconnue. Mais il faut cependant tre toujours attentif au
contenu dun test, sa validit de contenu, car elle va, tout au moins
en partie, conditionner la gnralisation que lon peut faire partir des
rsultats obtenus dans le test. Ainsi, nous verrons plus loin que certains biais
dvaluation sont en rapport direct avec le contenu des items.
59
Il sagit ici danalyser les liaisons existant entre le niveau de russite au test
et le niveau de russite dans une autre situation prise comme critre. Ce
peut-tre par exemple le lien entre les rsultats un test dintelligence et la
russite scolaire, ou avec lobtention dun examen, ou encore la liaison avec
ladaptation un poste de travail... Un test a une bonne validit critrielle
lorsquil prsente une liaison leve avec le critre considr.
En fonction de lintervalle de temps entre les deux mesures, on distingue
la validit concomitante et la validit prdictive.
La validit concomitante (ou concurrente1 ) rend compte de la liaison
entre le test et le critre lorsque les deux mesures se situent dans un
mme temps. Il va sagir, par exemple, de procder la passation dun
test dintelligence au 1er trimestre scolaire et danalyser les liaisons avec
les rsultats scolaires du 1er trimestre ;
La validit prdictive consiste valuer les sujets, dans un premier temps
avec le test puis, aprs un intervalle plus ou moins long, de recueillir, dans
un second temps, les donnes sur le critre. On cherche ainsi savoir si
le test permet de prdire, avec plus ou moins de confiance, les rsultats
obtenus sur le critre. Pour reprendre notre exemple il sagira alors
danalyser, par exemple, les liaisons entre le test pass au 1er trimestre et
lobtention dun diplme en fin de 3e trimestre : les lves qui avaient eu
de bons rsultats au test ont-ils mieux russi le diplme que les lves qui
avaient eu de plus faibles rsultats au test ? Si cest le cas, alors ces rsultats
iront dans le sens dun bon niveau de validit prdictive du test car il
sera possible de prdire lobtention du diplme, et plus gnralement de
prdire le niveau dans le critre, partir des rsultats au test. Le test peut
alors faire office de prdicteur. Lindicateur de validit critrielle est le
plus souvent un coefficient de corrlation.
Deux points sont retenir ici : dune part, plus cette validit est leve
et plus la prdiction sera prcise, dautre part, la qualit de cette prdiction
ralise partir dune seule variable (le test) peut tre amliore en prenant
en compte plusieurs variables au lieu dune seule (prendre en compte, par
exemple, les rsultats plusieurs tests pour prdire un vnement).
Pour les tests dintelligence, cette validit est, en moyenne de .50 avec
des indicateurs de russite scolaire (Reuchlin, 1991) ainsi quavec des
1. On trouve galement le terme de concourrente.
60
61
62
63
Pour terminer, signalons quune autre forme de validit est souvent cite :
la validit apparente (face validity). Cette validit est en quelque sorte une
validit de surface (on parle aussi de validit cologique) et correspond
une analyse intuitive du test. Cest par exemple, une analyse du contenu
du test effectue par un juge non spcialiste du domaine qui aboutirait un
jugement de type ce test value lintelligence parce que a se voit ! . Ce type
de validit, mme sil est pertinent dans le cadre par exemple de la phase
de restitution des rsultats, nest bien entendu pas suffisant. Un test qui ne
prsenterait que ce type de validit ne serait pas automatiquement valide,
car il ny a ici aucune vrification objective sur ce qui est rellement mesur
par ce test.
5.
64
65
Lindice de discrimination
66
6.
La notion de biais
Avant de dfinir et dillustrer cette notion de biais, il faut, dune part,
rappeler que lusage des tests a t souvent questionn par la prsence, relle
ou suppose, de biais sociaux, ou de biais culturels, dans ces preuves (voir
par exemple Bacher, 1982 ; Huteau et Lautrey, 1999a), dautre part, les
tentatives dlaboration de tests indpendants de la culture : test culture free
ou culture fair.
Actuellement, sil semble difficile dlaborer un test qui soit compltement
indpendant dun contexte culturel, il est par contre possible, et hautement
souhaitable, de sassurer de labsence de biais. On retrouve dailleurs cet
objectif dans les recommandations internationales sur lutilisation des tests, qui
prconise au psychologue de sassurer de labsence de biais systmatiques
au dtriment de lun des groupes de sujets auxquels le test sera administr
(section 2.2.2, paragraphe d, page 19).
Des tudes doivent donc tre menes sur ce plan et doivent figurer dans
le manuel.
Il est important de distinguer ici clairement ce qui est cens tre mesur
par le test (la variable ou dimension) qui doit expliquer les diffrences de
performances observes entre les sujets et/ou entre des groupes de sujets,
et linfluence ventuelle dune autre source de variation (un biais) qui
pourrait galement expliquer certaines diffrences observes. Par exemple, si
la rsolution dun item de test dintelligence ncessite de connatre un terme
67
68
69
Pour reprer les effets ventuels dune variable parasite, plusieurs mthodes
sont utilisables dans le cadre de ltude du Fonctionnement Diffrentiel de
lItem (F.D.I) :
la statistique de Mantel-Haenszel ;
la rgression logistique ;
lapproche par les Modles de Rponse lItem (M.R.I) ;
lapproche de Stout.
Dans cette partie nous avons montr les effets possibles dun certain
nombre de biais potentiels sur la mesure ralise par un test. Une attention
particulire sur ces diffrents points doit donc tre mene dans les diffrentes
phases dlaboration dun test. Plusieurs mthodologies existent, plus
particulirement pour identifier les biais ditems, mais on peut remarquer
que, en France, ces analyses de biais sont encore assez rares (Vrignaud,
2002a).
70
7.
La notion dtalonnage
Principes de ltalonnage
71
Tableau 2.1
talonnage (fictif) dun test de 60 items, niveau cadre.
Classes
(scores talonns)
% thorique de sujets
dans chaque classe
Notes Brutes
(scores mesurs)
0-38
6,6
39-41
12,1
42-44
17,5
45-48
19,6
49-51
17,5
52-53
12,1
54-56
6,6
57-58
59-60
Sur ce tableau apparaissent les notes brutes (ou scores bruts) dans la
troisime colonne, les classes (ou notes talonnes) dans la premire colonne,
et le pourcentage de sujets appartenant chaque classe dans la colonne
centrale (colonne % thorique). Le principe de ltalonnage est de regrouper
certains scores bruts au sein dun mme score talonn. Par exemple ici,
une note brute de 44, correspond une note talonne de 3 (classe 3). Que
signifie cette classe 3 ? Dans cet talonnage, savoir que le sujet se situe dans
la classe 3 nous permet de situer prcisment la place du sujet parmi une
population de rfrence (ici : les cadres). Pour effectuer ce positionnement
il faut utiliser la seconde colonne du tableau (% thorique). La classe 3
comporte 12,1 % des sujets, on peut donc indiquer ici que 12,1 % des sujets
(cadres) obtient une note quivalente, que 10,6 % des sujets (4 % + 6,6 %)
obtient une note infrieure et donc que 77,3 % des sujets [100 % (12,1 %
+ 10,6 %)]1 obtient une note suprieure. Autrement dit, en premire analyse,
le sujet qui obtient 43 points ne se situe pas parmi les meilleurs si on le
compare aux rsultats des sujets exerant le mme mtier, cest mme plutt
linverse : le score brut de 44 points le situant en classe 3 donc dans les
scores plutt bas.
1. On aurait pu trouver ce mme pourcentage, 77,3, en additionnant les autres pourcentages du
tableau : 17,5 + 19,6 + 17,5 + 12,1 + 6,6 + 4 = 77,3 %.
72
Mais si notre sujet qui a obtenu toujours ce score brut de 44 points nest
pas cadre mais est un jeune sans qualification, il convient donc dutiliser
un autre talonnage : un talonnage qui correspond cette population de
rfrence (voir tableau 2.2).
Tableau 2.2
talonnage (fictif) du mme test de 60 items, en neuf classes normalises,
sujets sans qualifications.
Classes
% thorique
Notes Brutes
0-9
6,6
10-17
12,1
18-24
17,5
25-32
19,6
33-38
17,5
39-43
12,1
44-48
6,6
49
50 et +
73
74
Tableau 2.3
Rpartition thorique des talonnages normaliss.
5
classes
1
6,7 %
7
classes
1
4,8 %
9
classes
1
4%
11
classes
2
24,2 %
2
11,1 %
3
Classe centrale
38,2 %
3
21,2 %
4
24,2 %
4
Classe centrale
25,8 %
5
21,2 %
2
3
4
5
6,6 % 12,1 % 17,5 % Classe centrale
19,6 %
1
2
3
4
5
3,6% 4,5% 7,7% 11,6% 14,6%
6
Classe
centrale
16 %
6
17,5 %
7
14,6 %
5
6,7 %
6
11,1 %
7
12,1 %
7
4,8 %
8
6,6 %
9
4%
8
9
10
11
11,6% 7,7% 4,5% 3,6%
Tableau 2.4
Codage des scores partir dun talonnage en 9 classes normalis.
Notes talonnes
++
4,4 %
6,6 %
12,1 %
17,5 %
19,6 %
17,5 %
12,1 %
6,6 %
4,4 %
75
Tableau 2.5
Exemple dtalonnage en dciles pour un test de 40 items.
Notes
talonnes
Notes brutes
014
1519 2022
10
2324
25
2627
2829
3032
3334
35 et +
76
Score brut
10
25
50
75
90
95
36
38
42
46
48
51
53
77
Tableau 2.7
Catgorisation des scores au test SPM (daprs le manuel SPM, section 3, p. 51).
Catgorisation
Conditions
Classe I :
capacit intellectuelle suprieure
Classe II :
capacit intellectuelle nettement au-dessus
de la moyenne
Classe III :
capacit intellectuelle moyenne
Classe IV :
capacit intellectuelle nettement infrieure
la moyenne
Classe V :
dficience intellectuelle
78
scores
2,2 %
34,13 % 34,13 %
13,6 %
13,6 %
2,2 %
notes Z
-3
-2
-1
+1
+2
+3
55
70
85
100
115
130
145
50
100
notes QI
rangs
percentile
Figure 2.2
Rpartition thoriques des sujets en fonction des diffrents types de scores.
79
moyenne + un cart type], donc ici entre 851 et 1152 : environ 68,3 % des
sujets ont ainsi un Q.I. compris entre 85 et 115.
De mme, toujours pour les scores de Q.I., la figure F1 nous indique
galement que :
15,73 % des sujets a un Q.I. suprieur 115 (moyenne plus un cart
type), et la mme proportion a un Q.I. infrieur 85 (moyenne moins
un cart type) ;
2,14 % des sujets se situent au-del de 130 (moyenne plus deux carts
type), et la mme proportion a un Q.I. infrieur 70 (moyenne plus
deux carts type).
partir de cette rpartition des Q.I. dans la population, il est possible, l
encore, dtablir des catgorisations. Mais cette catgorisation peut varier,
dune part selon lpoque, dautre part selon lauteur de cette catgorisation.
Par exemple, dans la catgorisation propose en 1928 par Levine et
Marks (cit par Bernaud, 2000a) les catgories allaient de idiot (pour
un Q.I. situ entre 0 et 24) prcoce (score suprieur 175) et dans
la catgorisation de Terman (cit par Wechsler, 1956, p. 47) de dbilit
mentale caractrise (pour un Q.I. au-dessous de 70) gnie ou sujet
proche du gnie (Q.I. suprieur 140). On peut galement observer des
diffrences dans la dnomination des catgories entre deux versions dune
mme preuve, comme par exemple entre les versions WAIS-R et WAIS-III :
on peut remarquer que, si les bornes nont pas chang, la dnomination des
classes elle a t modifie (voir tableau 2.8).
Plusieurs remarques :
1. 100 15 = 85
2. 100 + 15 = 115
80
Tableau 2.8
Classification des Q.I. aux chelles de Wechsler pour adultes
(daprs Wechsler, 1989, p. 24 et Wechsler, 2000, p. 280).
Q.I
Pourcentage
thorique de sujets
Classification
WAIS-R
(1989)
Classification
WAIS-III
(1997)
130 et plus
2,2%
Trs suprieur
Trs suprieur
120129
6,7%
Suprieur
Suprieur
110119
16,1%
Normal fort
Moyen suprieur
90109
50%
Moyen
Moyen
8089
16,1%
Normal faible
Moyen infrieur
7079
6,7%
Limite
Limite
69 et moins
2,2%
Dficient mental
Trs faible
81
Nous voudrions ici conclure sur trois aspects importants : la fiabilit des
talonnages, le type dtalonnage choisi et la prise en compte de lerreur de
mesure.
Il convient, avant toute passation de sassurer de la qualit des talonnages
accompagnant le test que lon veut utiliser. Le psychologue sera attentif
aux caractristiques des populations dtalonnage afin, dune part, de juger
de la fiabilit des normes, et, dautre part, de vrifier quau moins un des
talonnages proposs correspond aux caractristiques du sujet devant passer
le test (condition minimum de la comparabilit des rsultats).
Concernant le premier point, lanalyse de la fiabilit des normes, il faut
particulirement tudier :
82
Il faut indiquer ici que les talonnages figurent dans le manuel du test
mais quil existe souvent des talonnages complmentaires, sous formes
dannexes, qui ont t raliss aprs le manuel et que les diteurs de tests
peuvent fournir. Nous encourageons donc le praticien sinformer auprs
des diteurs des talonnages les plus rcents disponibles pour le test quil
souhaite utiliser.
Il est aussi trs important de reprer le type dtalonnage que lon va
utiliser de manire situer sans erreur la position du sujet dans la population
de rfrence. Par exemple, un score talonn de 3 dans un talonnage de type
dcilage, ne correspond pas un score talonn de 3 dans un talonnage
normalis en 5 classes. Dans le premier cas, seulement 20 % des sujets
obtiennent un score infrieur, la performance se situe donc largement en
dessous de la moyenne, tandis que, dans le second cas, ce score correspond
un score moyen (voir tableau 2.3).
Il est regrettable dailleurs que, parfois, le type dtalonnage ne soit pas
clairement indiqu dans le manuel. En labsence dinformation explicite
sur ce point, il faut se rappeler que les talonnages par quantilages sont le
plus souvent des dcilages (10 classes), et que les talonnages normaliss
comportent toujours un nombre impair de classes (5, 7, 9 ou 11 classes). En
cas de doute, le praticien doit demander une clarification auprs de lditeur
du test afin dviter toute erreur dinterprtation ce niveau.
Enfin, il faut galement prendre en compte la notion derreur de mesure
et la distinction entre score vrai et score observ. Lidal est de calculer un
intervalle de confiance pour situer plus prcisment le score vrai du sujet
partir du score observ, mais, dfaut, il faut au moins se rappeler que
si le score brut du sujet est situ proximit dune des bornes de la classe
talonne, le score vrai du sujet pourrait se situer de lautre ct de cette
borne. Il convient alors de nuancer linterprtation du score observ.
Cette capacit danalyse critique des talonnages fournis, et plus globalement danalyse de toute information figurant dans le manuel, cette
capacit dinterprtation dun score observ, de recul par rapport une
mesure, reprsente lun des fondements dune pratique professionnelle de
psychologue. Nous allons dvelopper ce point dans la partie suivante.
8.
83
84
85
4. Les scores fournis par ce test permettent-ils de bien diffrencier les sujets ?
Cette dernire question, fait rfrence la sensibilit du test et
son adquation la personne value. Rolland (2001) rappelle que
la distribution des scores doit suivre une courbe de Gauss et quil faut
analyser ici la qualit des talonnages fournis.
Si ltalonnage est un talonnage gnral il doit tre reprsentatif des
caractristiques de la population. Il faut donc sassurer des modalits
de slection des chantillons dtalonnage : sexe, ge, niveau dtude,
profession... (dmarche identique celle utilise dans les sondages
pour crer un chantillon reprsentatif dune population). Dans ce cas
lchantillon dtalonnage doit comporter au minimum 500 sujets.
Si ltalonnage est spcifique, il correspond alors une catgorie de la
population (talonnage par ge, par profession, par niveau dtude...) il
doit comporter au minimum 200 sujets.
Enfin, Rolland nous indique que des tests dont les normes (les
talonnages) datent de plus de 10 ans ne devraient pas tre utiliss
en raison de leffet Flynn.
Rolland prcise que les valeurs seuils indiques pour les diffrentes
corrlations doivent tre prises avec souplesse car il convient de prendre
galement en compte, dans lanalyse de la fiabilit dun test, lensemble des
lments fournis par le manuel. Ainsi, vaut-il souvent mieux utiliser un test
qui prsente des valeurs un peu plus faibles quattendues sur ces indices,
quutiliser un test pour lequel nous naurions pas de donnes statistiques
concernant sa validation...
Les indicateurs qui viennent dtre voqus comme pertinents pour valuer
un test font directement rfrence aux notions de base de la psychomtrie
prsentes dans ce chapitre. Il est donc indispensable que le praticien les
matrise afin de pouvoir analyser de faon critique les outils quil utilise.
Cette analyse est mener partir des informations prsentes dans les manuels
des tests.
Une lecture attentive des manuels doit galement permettre damliorer
linterprtation des indicateurs de la performance dun sujet recueillis par
le test. Nous en donnerons deux exemples, lun relatif aux sous scores du
test NNAT et lautre aux conditions de passation des matrices de Raven
(cf. encadr). Ces deux exemples illustrent bien tout lintrt dune lecture
approfondie des diffrents documents accompagnant le test car la qualit de
86
Exemples
Dans le test NNAT (qui sera prsent dans le chapitre 4) il est possible
de calculer, en plus du score total, quatre sous-scores qui correspondent
quatre types de raisonnement. Mais attention ici lanalyse de ces
sous-scores car ils ne prsentent pas la mme fiabilit que le score total :
Les sous-scores devront tre interprts que de faon qualitative partir des notes brutes. (Manuel
du NNAT, p. 12)
87
9.
1. En anglais on utilise le terme IRT pour Item Response Theorie. Mais le terme de modle semble
plus appropri (Vrignaud, 1996).
88
Notre objectif ici est de donner une information minimale sur ces
modles MRI, accessible tout psychologue. Pour cette raison nous
viterons lutilisation dquations et de formules mathmatiques, qui servent
lestimation des paramtres des modles (voir plus loin) que le lecteur
pourra trouver dans les ouvrages spcialiss de psychomtrie (dj cits)
ou dans des publications traitant spcifiquement de ces modles (voir par
exemple le numro spcial de la revue Psychologie et Psychomtrie coordonn
par Juhel en 1999 ; larticle de Vrignaud de 1996 ; ou encore lannexe
consacre aux MRI dans louvrage de Reuchlin de 1997).
Prsentation gnrale de lapproche des modles MRI
Dans lapproche classique de la mesure les principaux indices psychomtriques qui vont caractriser lpreuve (indices de difficult des items,
talonnages...) vont dpendre de lchantillon de sujets utilis. Par exemple,
dans un test de facteur g comme le SPM de Raven qui peut tre utilis sur
des populations de niveaux trs diffrents (collgiens, lycens, adultes...), un
mme item sera considr comme difficile pour des collgiens, mais comme
facile (ou plus facile) pour des tudiants. Autrement dit, on ne connat pas
le niveau absolu de difficult dun item car il sagit toujours un niveau relatif
de difficult qui va dpendre directement du niveau des sujets ayant pass
le test.
Paralllement, pour un sujet confront aux items dun test, le niveau de
sa performance (le score observ) ne peut sinterprter que par comparaison
avec le niveau de russite dautres sujets prsentant les mmes caractristiques
(par exemple sujets de mme ge) : cest le principe de ltalonnage. Il sagit
l aussi de mesure relative.
En dautres termes, les caractristiques des items (en particulier leur
niveau de difficult) sont dpendantes des caractristiques des sujets mais les
caractristiques des sujets (en particulier leur niveau de russite, cest--dire
leurs scores) sont dpendantes des caractristiques des items.
Dans la thorie classique des tests, il y a donc interdpendance entre
caractristiques des items et caractristiques des sujets.
Cest lune des diffrences principales avec les modles MRI dont lobjectif
principal est de permettre une valuation indpendante de ces deux sries
dlments : caractristiques des sujets et caractristiques des items. Avec ces
modles il devient donc possible, aprs une phase de calibrage des items (voir
89
plus loin), dvaluer le niveau de performance du sujet, quels que soient les
niveaux de difficult des items (donc le test) quil aura pass.
Les modles MRI sont des modles probabilistes : des modles dans
lesquels on cherche estimer des probabilits de russite. La principale
proprit des MRI est de placer les difficults des items et les comptences
des sujets sur une mme dimension : le trait latent (theta). Ce trait latent
reprsente la variable value qui peut tre, selon les cas, une aptitude
cognitive, une comptence scolaire, voire un trait de personnalit...
Lun des postulats de base est le suivant : les diffrences de russite entre
les sujets sexpliquent par ce trait latent et uniquement par celui-ci.
Dans les tests dintelligence, le trait latent reprsente donc lintelligence
telle quelle est value par le test. Dans ce cadre on utilise prfrentiellement
le terme comptence pour dsigner ce trait latent. . Chaque sujet peut donc
tre caractris sur ce trait, par son niveau de comptence, et paralllement,
chaque item peut tre situ sur cette mme chelle par son niveau de
difficult.
Ainsi, plus le sujet se trouve un niveau lev sur ce trait, plus son score
est lev, et plus sa probabilit de russir un item particulier augmente
(modle probabiliste du niveau de comptence du sujet). Paralllement,
plus litem se situe un niveau lev sur ce mme trait , plus son niveau
de difficult augmente et donc, plus sa probabilit dtre russi diminue
(modle probabiliste du niveau de difficult de litem).
Chaque sujet a, selon son niveau de comptence estim, une certaine
probabilit de russir un item donn dont la difficult a t estime sur cette
mme chelle de comptence . Les modles de rponse litem (MRI)
visent prdire la probabilit quun individu I fournisse une bonne rponse
un item i.
Pour bien comprendre la logique de ces modles MRI, il faut prendre
en compte quil sagit dune modlisation des probabilits de russite,
modlisation effectue partir des observations sur la frquence des bonnes
rponses (russite) observes par un groupe de sujets une srie ditems
constituant un test.
Exemple
Soit un test X pass par un ensemble de sujets. Ce test comporte 60 items,
le score total de chaque sujet se situe donc entre 0 et 60. Nous pouvons
reprsenter sur une figure les frquences de russite un item A du test en
fonction du score total au test X.
On obtient gnralement la tendance suivante : plus les sujets ont un score
total lev au test X, plus la frquence de russite cet item A est leve.
90
Inversement, plus les sujets ont un score total faible au test, plus la frquence
de russite un item donn diminue.
La figure 2.3 permet de visualiser cette relation : le score total est port en
abscisse, la frquence de russite litem A tant en ordonne.
frquence russites
1
0,8
0,6
item A
0,4
0,2
0
0
10
20
30
40
50
60
score au test X
Figure 2.3
Frquences de russites observes litem A en fonction du score total obtenu un test X
(daprs Vrignaud, 1996, p. 8).
91
probabilit de russite P
1
0,8
0,6
0,5
0,4
0,2
0
-3
-2
-1
score q
Figure 2.4
Exemple de courbe caractristique dun item (CCI).
92
1. Mathmaticien Danois.
93
0,5
item A
A
B
item B
-3
-2
-1
0,4
score q
Figure 2.5
CCI de deux items de niveau de difficult diffrents dans le cas du modle MRI un
paramtre (daprs Vrignaud, 1996, p. 8, figure modifie par nos soins).
94
probabilits de russite
1
0,8
item A
0,6
item C
0,4
item D
0,2
0
-3
-1,5
1,5
theta q
Figure 2.6
CCI de trois items dans le modle MRI deux paramtres
(daprs Vrignaud, 1996, figure 3, p. 9).
Les principales limites des modles MRI concernent leurs trois principales
contraintes dutilisation :
95
Nombre de sujets
Pour pouvoir effectuer le calibrage des items par les modles MRI, il est
ncessaire de disposer dun nombre important de sujets (de 600 1000
selon les auteurs). Ces sujets devant tre de niveau de comptence variable
afin dtre reprsentatif de lensemble de la population et reprsenter alors
un ensemble assez exhaustif des diffrents niveaux de comptence. De plus,
il convient de vrifier ensuite, sur un autre chantillon de sujets, que lon
obtient bien les mmes indicateurs des caractristiques des items (a, b et c
selon le modle choisi).
Cette exigence reprsente probablement lun des freins les plus importants
lutilisation de ces modles.
96
97
mme sils nont pas pass les mmes preuves, sur leur score ;
Il est galement possible de crer des versions strictement parallles de
tests dont on est assur de lquivalence du niveau de difficult ;
Il est galement possible de slectionner certaines combinaisons ditems,
combinaisons adaptes des objectifs diffrents : cest la notion de tests
sur mesure.
Lintrt et les limites des banques ditems ont t abords dans louvrage
de Dickes et al. (1994, p. 76- 78).
98
Dune manire plus gnrale, ces modles MRI apportent une flexibilit
aux outils et procdures dvaluation que ne permet pas la thorie classique
des tests.
Il est galement possible denvisager des tests adaptatifs, le plus souvent
informatiss, qui vont permettre de slectionner les items les plus proches
du niveau du sujet. Dans ce cas, le logiciel slectionne toujours litem le
plus adapt en fonction des rponses du sujet : en cas de russite le logiciel
slectionne alors un item plus difficile, en cas dchec, le logiciel slectionne
un item plus facile. Ainsi, par rapport un test classique on maximise ici le
nombre ditems pertinents par rapport au niveau du sujet, et/ou on rduit
le temps de passation. De plus, avec cette approche plus fine du niveau du
sujet on diminue galement lerreur de mesure.
Pour des exemples concrets dapplications des MRI on peut consulter
Devouche (2003) et Martin (2003). Ces deux exemples concernent
des valuations de connaissances mais le parallle avec des valuations
psychologiques est ais raliser.
Un autre intrt de ces modles MRI repose sur le fait que le niveau de
comptence du sujet ne se dfinit plus comme sa position dans une certaine
population (principe de ltalonnage) mais se dtermine par rapport sa
probabilit de russir les items. Do la possibilit danalyser finement le
contenu des items et la nature de la tche demande. La capacit du sujet
peut donc se dfinir en fonction de tches prcises et non plus en rfrence
au niveau de russite des autres sujets. On peut alors dfinir plus aisment
la zone de comptence du sujet, par exemple en dlimitant les items pour
lesquels il a une bonne probabilit de russite (P suprieur .70 par exemple).
Enfin, les modles MRI permettraient de diagnostiquer de manire plus
prcise les sujets haut potentiel (Caroff, 2004).
Conclusion sur les modles MRI
Si, pour certains auteurs ces modles constituent un progrs majeur dans
le champ de la psychomtrie (Dickes et al., 1994, p. 201) dautres auteurs,
comme Reuchlin, sinterrogent sur la pertinence mme de ces modles MRI
en psychologie (Reuchlin, 1997). Lune des critiques de Reuchlin concerne
les bases mme du modle probabiliste. partir de la possibilit dvaluer
le niveau des sujets par des items diffrents, il donne lexemple suivant :
un sujet qui fournit frquemment des bonnes rponses des items dun
seuil donn de difficult sera crdit du mme niveau de comptence
99
quun autre sujet qui fournit moins souvent des bonnes rponses des
items plus difficiles. Si, nous dit Reuchlin, il est incontestable quun sujet
qui rpond correctement, mme rarement, des questions difficiles, est
capable de rpondre correctement des questions plus faciles, linverse
nest pas du tout vident. En effet, ce nest pas parce quun sujet rpond
souvent correctement des questions faciles, quil pourra rpondre, mme
rarement, correctement des questions difficiles. Reuchlin touche ici lun
des fondements des modles MRI :
Lquivalence, fondamentalement postule par le modle, entre la
frquence des rponses et le niveau daptitude quexige chacune delles nest
quune convention formelle hautement contestable lorsquon passe du
modle aux ralits psychologiques auxquelles on lapplique. (Reuchlin,
1997, p. 234).
Selon cet auteur lapplication de ces modles MRI reste limite pour les
psychologues :
Malgr les limites indiques, il est fort possible que dans un avenir trs
proche des tests utilisables en France reposent sur ces modles MRI. Le
psychologue doit alors en connatre les bases, les intrts mais aussi les
limites afin de conserver, malgr la complexification mthodologique, ses
capacits danalyse critique des outils quil utilise. Esprons que ces futurs
tests soient accompagns de documents explicatifs et/ou de formation had
hoc favorisant cette analyse critique.
10. Conclusion
Nous avons prsent dans ce chapitre les principales notions de psychomtrie
utiles tout praticien des tests, pour lui permettre une utilisation valide et
raisonne des outils quil utilise, notamment en ayant ce regard critique qui
lui permettra de mieux en cerner les conditions dutilisation et de mieux en
matriser les modalits de mise en uvre et dinterprtation.
100
DEUXIME PARTIE
CHAPITRE
3
Sommaire
Page 105
2. Le WISC-III . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Page 112
3. Le WISC-IV . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Page 144
4. La WAIS-III . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Page 173
1.
105
106
Pour laborer leur preuve, les auteurs ont slectionn les items selon
deux critres principaux, qui illustrent les fondements de leur approche
empirique :
Ces items doivent correspondre un ensemble vari de situations, proches
107
108
Pour valuer cette capacit globale, il faut alors, comme dans lchelle
mtrique de Binet-Simon, prendre un compte un ensemble vari de
situations. Cest pour cette raison que les chelles de Wechsler comportent
des situations dvaluation assez diffrentes les unes des autres et constituent
ainsi, comme nous lavons dj indiqu, des preuves composites. Les chelles
de Wechsler, comme lchelle mtrique, ont t cres afin dvaluer une
intelligence globale, une intelligence gnrale qui peut tre dfinie comme
la rsultante dun ensemble daptitudes :
Lintelligence gnrale est en effet la rsultante de linteraction dun
nombre thorique infini daptitudes diffrentes. (Grgoire, 2000a, p. 13)
On retrouve bien ici la mme volont que celle qui tait affiche par Binet
de crer des preuves htrognes afin de mieux valuer cette capacit globale
1. La NEMI-II est utilisable pour des enfants gs de 4 ans 12 12 ans 12 . Elle comporte quatre
preuves obligatoires (Connaissances, Comparaisons, Matrices analogiques et Vocabulaire) et trois
preuves facultatives (Adaptation sociale, Copie de figures gomtriques et Comptage de cubes).
109
110
Attention !
Le Q.I. nest pas une valuation absolue du niveau intellectuel mais une
valuation relative de ce dernier en rfrence une classe dge. Par
exemple, si un enfant de 8 ans et un enfant de 12 ans obtiennent tous les
deux la mme valeur de Q.I. (par exemple, 115) il ne faut pas en conclure
quils ont les mmes capacits intellectuelles ! Lenfant de 12 ans aura ici
des capacits suprieures lenfant de 8 ans, mme sil a le mme Q.I. La
mme valeur de Q.I., signifie simplement que ces deux enfants se situent
tous les deux dans la mme position vis--vis de leur groupe de rfrence,
mais chacun dans son groupe dge. La valeur de 115 nous indique que
ces deux enfants se situent au-dessus de la moyenne de leur groupe dge
(moyenne de 100 dans chaque groupe dge), et plus prcisment un
cart type au-dessus de celle-ci (100 + 15).
La seconde diffrence fondamentale entre lchelle de Binet-Simon et
les chelles de Wechsler, repose sur la prsence de deux chelles distinctes,
verbale et performance , dans les preuves de Wechsler car ce dernier
remet en cause la forme monolithique de lintelligence du modle de Binet
(voir chapitre 1). En effet, Wechsler considre que :
Les tests dAptitude Verbale, de Raisonnement Abstrait, et tous tests de
mme genre quand ils sont utiliss seuls pour un examen de lintelligence
gnrale, donnent seulement une image incomplte de la capacit dun
individu sadapter et russir effectivement. (Wechsler, 1956, p. 14)
111
1. Toutes les dates concernent ici les versions originales amricaines. Les dates des adaptations
franaises seront donnes plus loin dans la prsentation de ces preuves.
2. Idem note prcdente.
112
2.
Le WISC-III
Bien que les psychologues Francophones disposent depuis 2005 de la version
WISC-IV, nous avons choisi dintgrer une prsentation du WISC-III avant
de prsenter la version la plus rcente. Il nous semble en effet ncessaire de
connatre les bases du WISC-III afin de mieux comprendre les changements
(importants) effectus avec larrive du WISC-IV.
Le lecteur familier du WISC-III, et de linterprtation de ses scores, pourra
ventuellement survoler cette partie et/ou passer directement au chapitre
suivant consacr au WISC-IV.
Le WISC1 , dans ses diffrentes versions, est lchelle dintelligence de
Wechsler utilisable pour des enfants et adolescents de 6 16 ans. Cest
113
probablement lun des tests les plus connus et les plus utiliss dans le monde.
En France il est trs utilis, par exemple, dans le cadre de consultations en
cabinet, en structure hospitalire et dans lducation nationale (voir Castro
et al., 1996).
Nous prsenterons ici les principales caractristiques de la version WISCIII. Pour une prsentation plus exhaustive on peut consulter le manuel de
lpreuve (Wechsler, 1996) ainsi que louvrage trs complet de Grgoire1
qui comporte une mthodologie dinterprtation des rsultats (2000a). On
peut galement consulter louvrage de Arbisio (2003) pour une analyse des
rsultats orientation plus psychanalytique.
Prsentation de lpreuve
Historique
La premire version WISC date de 1949, adapte en France en 1958. Cette
version a t rnove en 1974, version WISC-R, et adapte en France en
1981. La version WISC-III parat ensuite en 1991, adapte en France en
1996. La dernire version WISC-IV est sortie en 2002 aux tats-Unis, avec
une diffusion en France en 2005.
Ces versions sont diffuses par les ECPA.
Le matriel
Le WISC-III se prsente dans une mallette qui regroupe le matriel de
passation. Le psychologue dispose dun manuel trs complet (294 pages)
qui donne toutes les indications ncessaires la passation et la cotation de
lpreuve (Wechsler, 1996). Comme dans la plupart des tests passation
individuelle, cest le psychologue qui consigne les rponses du sujet sur
le cahier de passation, avec sur la premire page, des espaces rservs
pour reporter les scores du sujet. Le praticien peut aussi utiliser la grille
dinterprtation des scores propose par Grgoire (Grgoire, 1996).
1. Jacques Grgoire est le conseiller scientifique des ECPA pour les adaptations franaises des chelles
de Wechsler.
114
Les subtests
Lpreuve se compose de plusieurs preuves indpendantes, appeles subtests.
Chaque subtest comporte plusieurs items, prsents dans un ordre hirarchis
en fonction de leur niveau de difficult. Au total le WISC-III comporte
13 subtests, 6 pour lchelle verbale et 7 pour lchelle de performance.
La passation de trois de ces subtests est optionnelle car les rsultats
seulement 10 subtests sont ncessaires pour calculer les Q.I. Chaque
subtest est reprsentatif dun certain type de situation, dun certain type de
raisonnement.
Les subtests de lchelle Verbale
Information : il sagit de rpondre des questions orales portant sur
des connaissances que lenfant a eu loccasion dacqurir. Ces connaissances sont utiles lenfant pour bien comprendre son environnement
(30 items) ;
Similitudes : la tche consiste trouver en quoi deux notions (ou deux
objets) se ressemblent, trouver ce quil y a de commun entre deux
termes (19 items) ;
Arithmtique : petits problmes arithmtiques simples, rsoudre mentalement (24 items) ;
Vocabulaire : consiste indiquer la dfinition de mots (30 items) ;
Comprhension : lenfant doit rpondre des questions concernant des
situations relatives la vie sociale (adaptation par rapport des situations
de la vie courante) (18 items) ;
Mmoire immdiate des chiffres : lenfant doit rpter haute voix une srie
de chiffres qui est lue par le psychologue (mesure de lempan mnsique).
Dans une premire partie lenfant doit rpter les chiffres dans lordre
de prsentation, dans une seconde partie il doit les rpter dans lordre
inverse. Les sries comportent de 2 9 chiffres.
115
La passation
La passation est individuelle et ncessite un temps denviron 1 h 15 1 h 45
(dure variable en fonction de lge du sujet et de son niveau de russite). La
passation des subtests est effectue selon un ordre dtermin, avec alternance
entre les subtests verbaux et les subtests de performance afin de prserver chez
le sujet un certain niveau de motivation. En fonction de lge de lenfant il est
prvu de ne pas prsenter les premiers items de certains subtests (considrs
comme trop faciles pour les enfants plus gs).
Pour chaque subtest des rgles darrt sont aussi indiques afin, l encore,
dadapter la passation au niveau de performance des enfants. Par exemple,
dans le subtest information le psychologue doit arrter la passation aprs
5 checs conscutifs : on considre ainsi quaprs cinq checs la probabilit
de fournir une bonne rponse est quasi-nulle et quil est donc inutile de
faire passer les autres items, plus difficiles. Enfin, certains subtests sont
chronomtrs, dautres en temps libre. Le manuel indique trs prcisment
les rgles de passation pour chaque subtest.
116
Une fois la cotation des items ralise, on calcule les notes chaque subtest en
additionnant lensemble des notes obtenues aux diffrents items du subtest.
On obtient alors un score pour chaque subtest, qui est en fait une note brute.
Pour convertir ces notes brutes en notes talonnes, dites notes standard, il
faut consulter les tables dtalonnage fournies dans le manuel. Bien entendu,
on aura calcul au pralable lge du sujet afin dutiliser les tables pertinentes.
Les notes standard sont donc des notes normalises (talonnage normalis),
pouvant varier de 1 19, avec une moyenne de 10 et un cart type de 3.
Le fait que les scores tous les subtests soient exprims dans la mme
mtrique (notes standard) va permettre alors deffectuer des comparaisons
du niveau de russite du sujet en fonction des subtests (voir plus loin le
dtail de linterprtation des scores).
Calcul des Q.I.
117
exactement la moyenne arithmtique des deux Q.I. Par exemple, une note
standard verbale de 58 (qui correspond un QIV de 110), additionne
une note standard de performance de 64 (qui correspond un QIP de
120), va donner une note totale de 122, ce qui correspond un QIT de 117
(Wechsler, 1996, Table A.4, p. 254) alors que la moyenne arithmtique des
deux Q.I. est de 115.
Ces trois indicateurs de Q.I. sont exprims dans la mme mtrique :
moyenne de 100 et cart type de 15. Cet talonnage normalis des Q.I.
nous permet de situer le sujet par rapport aux autres sujets de mme ge :
par exemple, un Q.I.T de 115 nous indique que le sujet se situe, sur cet
indicateur, un cart type au-dessus de la moyenne, ce qui signifie que ce
score nest obtenu, ou dpass, que par 15,85 % des sujets (voir dans le
chapitre 2 de ce livre les caractristiques des talonnages de type Q.I.).
Pour tous ces indicateurs de Q.I., comme plus globalement pour tout score
un test, il est souhaitable de prendre en compte lerreur type de mesure afin
dentourer le score observ dun intervalle de confiance. Rappelons que tout
score observ nest quune estimation de la vraie valeur de la comptence
du sujet sur la dimension value (cf. la thorie classique du score vrai, voir
chapitre 2) et quil est prfrable de caractriser le niveau dun sujet par un
intervalle de confiance plutt que par une valeur ponctuelle correspondant
au score observ. Le WISC-III, comme les autres chelles de Wechsler,
est lun des rares tests, sinon le seul, inciter fortement le psychologue
prendre en compte cette erreur de mesure. En effet, dune part, le manuel
comporte des tableaux qui donnent pour chaque Q.I. observ (QIT mais
aussi QIV et QIP) les intervalles de confiance correspondants (aux seuils
.05 et .10) ; dautre part, le psychologue doit indiquer ces intervalles en
premire page du protocole du sujet, juste ct des scores observs. Par
exemple, pour un QIT observ de 110, lintervalle de confiance au seuil
.10 est de 104-115. Autrement dit, si on observe un score de 110 on peut
estimer que le score vrai du sujet se situera 90 fois sur 100 entre 104 et 115.
Le manuel fournit donc toutes les informations permettant au psychologue
de prendre en compte cette erreur de mesure.
Calcul des Indices Factoriels
Enfin, sur cette version III du WISC, il est galement possible de calculer
des Indices Factoriels, indices qui permettent de cerner plus prcisment un
aspect spcifique du fonctionnement intellectuel du sujet. Nous prsenterons
plus loin les bases thoriques (et les limites) de ces indices, et nous indiquons
118
ici uniquement les principes de calcul. Ces Indices Factoriels sont au nombre
de trois :
Indice Comprhension verbale (ou I.C.V),
Indice Organisation perceptive (I.O.P),
Indice Vitesse de traitement (I.V.T).
Le calcul de ces indices suit la mme logique que le calcul des QIV et QIP :
il faut additionner les valeurs des notes standards des subtests concerns puis
consulter les tables du manuel afin de convertir ces notes en indicateurs. Ces
indicateurs sont exprims dans la mme mtrique que les Q.I. (moyenne de
100 et cart type de 15) et il est galement prvu, dans le manuel et sur le
protocole, dentourer ces indices dun intervalle de confiance.
Le tableau 3.1 indique le rattachement des diffrents items aux Q.I. et
aux indices factoriels.
Tableau 3.1
Rpartition des subtests sur les diffrents indicateurs du WISC-III.
a
Les 3 Q.I
Subtests
QIV
QIP
ICV
Information
Similitudes
Arithmtique
Vocabulaire
Comprhension
(X)
IOP
IVT
(X)
Compltement dimages
Code
Arrangement dimages
Cubes
Assemblages dobjets
Symboles
(X)
(X)
Labyrinthes
(X)
(X)
119
De ces six scores, seul le Q.I.T prend en compte lensemble des subtests.
Cest donc bien lindicateur le plus complet et le plus fiable de cette chelle.
On peut remarquer galement que lIndice Factoriel ICV reprend
globalement les mmes subtests que le QIV (il manque juste le subtest
arithmtique), de mme pour lIndice Factoriel IOP et le QIP (il manque
ici uniquement le subtests code).
Certains subtests sont optionnels et sont destins soit remplacer un
subtest dont le rsultat nest pas utilisable (en raison, par exemple, dun
problme lors de la passation), soit investiguer une situation spcifique.
Enfin, on remarque galement, et nous en verrons plus loin les raisons, que
trois subtests (le subtest arithmtique et deux subtests optionnels : mmoire
des chiffres et labyrinthes) ne sont rattachs aucun Indice Factoriel.
Valeur
mini
Valeur
maxi
Moyenne
cart type
Notes standards
19
10
Q.I.T
40
160
100
15
QIV et QIP
46
155
100
15
50
150
100
15
120
La sensibilit
La sensibilit dun test reprsente sa capacit diffrencier les sujets. Dans
un test comme le WISC-III on peut distinguer deux aspects :
1. Pour reprendre notre exemple dune note de 14 dans un subtest du WISC-III, pour pouvoir
effectuer un rapprochement avec une note scolaire de 14, il faudrait vrifier que lon observe bien le
mme pourcentage de sujets (9 %) qui atteint ou dpasse cette note dans le cas dvaluations scolaires.
121
La fidlit
Rappelons que la fidlit concerne la constance de la mesure. Nous trouvons
dans le manuel (Wechsler, 1996) des informations sur diffrents types de
fidlit :
La fidlit, ou consistance, interne, est value par la mthode pair-impair.
Les coefficients varient entre .64 et .84 selon les subtests, mais de .89
.95 selon les Q.I. (p. 178). Il est tout fait normal que les valeurs de
fidlit soient plus importantes au niveau des Q.I. car ils sont constitus
par davantage de scores ;
1. Dans le manuel cette sensibilit est nomme sensibilit gntique (Wechsler, 1996, p. 16).
122
30 jours dintervalle. Les coefficients varient ici de .57 .89 selon les
subtests, et de .87 .94 selon les Q.I.
La fidlit intercotateur varie de .95 .99 selon les subtests, ce qui est
quasiment parfait !
Lerreur type de mesure est calcule pour chaque subtest et pour chaque
indicateur global. partir de ces valeurs, il est possible de calculer les
intervalles de confiance qui entourent le score observ. Comme nous
lavons dj indiqu, le manuel facilite ici la tche du psychologue en
donnant directement les valeurs de ces intervalles pour chaque valeur de
Q.I. (aux seuils .10 et .05), ainsi que pour chaque Indice Factoriel.
Ces diffrents indicateurs tmoignent dun bon niveau de fidlit du
WISC-III.
La validit
Que mesure le WISC-III ? Quel est la fiabilit des Q.I. et celle des Indices
Factoriels ? Ces questions renvoient la validit du test.
Nous prsenterons dans un premier temps des lments danalyse de la
validit du WISC-III comme preuve dintelligence, puis, dans un second
temps, nous questionnerons la validit de ses diffrents indicateurs (Q.I. et
Indices Factoriels).
La validit du WISC-III comme mesure de lintelligence
Il sagit ici danalyser les liaisons observes entre les scores obtenus par les
mmes sujets au WISC-III et dautres tests dintelligence.
Nous trouvons dans le manuel diffrentes tudes ce sujet, la plupart
portent sur des populations amricaines et sur le WISC-R, prdcesseur
du WISC-III. Nous ne pouvons pas ici prsenter une synthse de toutes
ces tudes mais nous retiendrons, dune part, que la validit des chelles de
Wechsler, et donc du WISC-III, comme mesure de lintelligence nest plus
dmontrer (de nombreux travaux portent sur ces chelles, et confirment
la validit de ces dernires), et dautre part, que les principaux rsultats des
recherches portant sur le WISC-R peuvent raisonnablement tre appliqus
au WISC-III du fait des similitudes entre ces deux preuves.
Sans vouloir tre exhaustifs, nous ne prsenterons ici que certains rsultats
de recherches concernant le WISC-III et principalement les donnes sur des
populations franaises en distinguant trois approches :
123
WISC-R) ;
Les liaisons avec dautres tests dintelligence ;
Les liaisons entre le WISC-III et la russite scolaire.
La premire approche consiste vrifier la nature des liaisons entre
lancienne version de lpreuve (WISC-R) et la nouvelle version (WISC-III).
On sattend observer des corrlations trs leves. Le manuel du WISC-III
rapporte les rsultats dune telle tude, portant sur 99 enfants.
Tableau 3.3
Validit du WISC-III : corrlations avec le WISC-R (daprs Wechsler, 1996).
Q.I.V
Q.I.P
Q.I.T
.89
.80
.88
Les valeurs des corrlations observes, entre .80 et .89, tmoignent bien
de la similitude entre les deux versions du test : ces deux preuves mesurent
bien les mmes domaines, aussi bien au niveau global de lpreuve (QIT)
quau niveau de chaque chelle (QIV et QIP).
Il est galement intressant de comparer les rsultats avec les deux autres
chelles de Wechsler pour des sujets situs aux extrmes des classes dges.
Nous trouvons l encore des donnes dans le manuel avec des valeurs de
corrlations trs satisfaisantes (voir tableau 3.4).
Tableau 3.4
Validit du WISC-III : corrlations avec la WPPSI-R et la WAIS-R (Wechsler, 1996).
WISC-III
Q.I.V
Q.I.P
Q.I.T
WPPSI-R
.86
.68
.87
WAIS-R
.84
.78
.84
124
Tableau 3.5
Validit du WISC-III : corrlations avec la WAIS-III (Wechsler, 2000).
Q.I.V
Q.I.P
Q.I.T
I.C.V
I.O.P
.91
.79
.91
.88
.76
La deuxime approche consiste comparer les rsultats obtenus au WISCIII avec les rsultats obtenus dautres preuves dintelligence. On sattend
ici observer des corrlations leves, mais infrieures celles que nous
venons de prsenter : chaque test dintelligence, sil mesure bien le mme
domaine (lintelligence) possde galement ses propres spcificits (rfrences
thoriques, matriel...). Nous trouvons dans le manuel du WISC-III les
rsultats dune tude comparative avec le test K-ABC. Ce dernier test permet
dvaluer deux types de processus mentaux : les Processus Squentiels et les
Processus Simultans. La runion de ces deux chelles permet dvaluer un
indice global defficience, ou Processus Mentaux Composites (PMC), qui
peut tre compar au QIT du WISC. Cette preuve comporte galement
une chelle de connaissance (Kaufman et Kaufman, 1993).
Tableau 3.6
Corrlations entre WISC-III et K-ABC (Wechsler, 1996).
WISC-III
K-ABC
Q.I.V
Q.I.P
Q.I.T
I.C.V
I.O.P
I.V.T
P. Squentiels
.66
.46
.64
.63
.51
.20
P. Simultans
.68
.61
.72
.66
.69
.22
P.M. Composites
.74
.62
.77
.73
.69
.27
Connaissance
.81
.46
.72
.79
.54
.19
125
DAT
Q.I.V
Q.I.P
Q.I.T
Verbal
.33
.25
.31
Numrique
.52
.47
.54
Abstrait
.43
.37
.43
Nous pouvons observer que les corrlations sont trs infrieures celles
observes dans les tableaux prcdents avec des valeurs comprises entre .25
.54 selon les indicateurs. Ce nest pas surprenant, compte tenu du fait quil
sagit ici de deux preuves trs diffrentes : lune, le WISC-III, value une
intelligence gnrale, lautre, la DAT, des aptitudes plus spcifiques. On
pouvait cependant sattendre obtenir une corrlation plus leve entre QIV
et aptitude verbale (.33) qui sont, a priori, deux dimensions assez proches.
Ce point est soulign dans le manuel du WISC-III :
126
127
QIP
Vocabulaire (.86)
Cubes (.74)
Information (.73)
Similitudes (.73)
Comprhension (.70)
Arithmtique (.50)
Symboles (.45)
Labyrinthes (.41)
Code (.39)
128
On retrouve ici lun des objectifs gnraux, que nous avons noncs
plus haut, dans la rnovation dpreuves : prendre en compte les rsultats
de recherches. Dans ce but, les concepteurs du WISC-III ont labor un
nouveau subtest, le subtest symboles, qui devrait tre rattach ce troisime
facteur hypothtique, dans lobjectif den obtenir un indicateur plus fiable,
compos alors de quatre subtests.
Les auteurs pensaient pouvoir observer ces trois facteurs dans lexprimentation du WISC-III. Mais sur lchantillon de sujets de la population
amricaine, la meilleure solution factorielle comporte quatre facteurs au lieu
des trois attendus ! En effet, le nouveau subtest symboles sassocie en fait avec
le subtest code pour donner au final un facteur supplmentaire. Cest pour
ces raisons que la version originale (amricaine) du WISC-III comporte
quatre Indices Factoriels : Comprhension Verbale, Organisation Perceptive,
Attention/Concentration (qui correspond aux subtests arithmtique et
mmoire des chiffres) et ce quatrime facteur interprt comme Vitesse
129
de Traitement (qui sature les subtests codes et symboles) [voir Wechsler, 1996,
p. 200-201].
Lors de ladaptation du WISC-III la population franaise, les chercheurs
pensaient donc retrouver ces quatre facteurs. Mais l encore, les donnes
sont surprenantes : sils retrouvent bien les facteurs Comprhension Verbale
(C.V), Organisation Perceptive (O.P) et Vitesse de Traitement (V.T), le
facteur Attention/Concentration ne sature plus ici que le seul subtest mmoire
des chiffres. De plus, cette solution quatre facteurs se rvle tre instable
avec lge. En conclusion, pour cette population franaise, la fiabilit et la
signification du quatrime facteur pose donc problme (Wechsler, 1996,
p. 202). Cest pour cette raison que, pour la version franaise du WISC-III,
une structure en trois facteurs a finalement t retenue en lieu et place de la
structure en quatre facteurs du WISC-III amricain. Cest cette diffrence
dans la structure factorielle des donnes qui explique que, comme nous
lavons dj indiqu, trois subtests (arithmtiques, mmoire des chiffres et
labyrinthes) ne sont pas utiliss dans ladaptation Franaise pour le calcul
des Indices Factoriels (voir tableau 3.1).
Au final, la version franaise du WISC-III ne comporte donc pas
lIndice Factoriel Attention/Concentration mais uniquement les trois
Indices Factoriels suivants :
Comprhension Verbale (I.C.V), qui reprend les subtests de lchelle
130
subtest et son chelle tait plus ou moins leve en fonction du subtest (voir
tableau 3.4). De la mme faon, la liaison entre un subtest et son indice
factoriel est plus ou moins forte. Ainsi, nous trouvons dans le manuel le
classement des subtests en fonction des valeurs de saturation (Wechsler,
1996, p. 208). La logique de calcul de ces indices factoriels devrait tre alors
de pondrer le poids de chaque subtest en fonction des saturations observes
(voir Chartier, 2001, sur ces points). Par ce mode de calcul, les indices
obtenus seraient plus proches des rsultats des analyses factorielles. Cette
possibilit de pondration a bien t envisage par les auteurs, mais au final,
pour le calcul de ces indices, ils retiennent laddition classique des subtests
(sans effectuer de pondration) en fournissant lexplication suivante :
Malgr ces diffrences de saturations factorielles, le mme poids a t
attribu tous les subtests pour le calcul des indices factoriels afin de
simplifier le travail des praticiens. Ceux-ci doivent tre conscients que
ce mode de calcul conduit une estimation imparfaite des facteurs.
(Wechsler, 1996, p. 208)
On ne peut que regretter cette dcision car il nous semble quun calcul
pondr nest pas si complexe raliser et permettrait au final dobtenir des
indices plus fiables.
Ces deux premires remarques concernant les limites des Indices Factoriels
du WISC-III devront tre prises en compte lors de la phase dinterprtation
de ces indices.
Enfin, la troisime remarque concerne le problme plus gnral de
ladaptation des tests dautres populations et la recherche de biais. Nous
avons abord cette problmatique dans le chapitre 2 mais nous avons ici un
bel exemple de biais potentiel. Comme nous venons de le dcrire, lors de la
phase dadaptation du WISC-III sur la population franaise, et grce la
qualit des analyses statistiques ralises, les auteurs ont repr une mauvaise
adquation du modle suppos (en quatre facteurs) et nont pas retenu ce
modle pour la version franaise de lpreuve. Autrement dit, une adaptation
moins rigoureuse de ce test aurait sans doute gnralis abusivement le calcul
des quatre indices toutes les populations. Or cette dmarche serait entache
de biais. Cet exemple illustre et confirme la ncessit, lors de ladaptation
dun test, de toujours mener des telles tudes.
131
132
133
les stages de formation continue, les changes avec dautres praticiens. Cest
ainsi que va se dvelopper la comptence du psychologue dans ce domaine.
Tableau 3.9
Classification des Q.I. au WISC-III C (daprs Wechsler, 1996).
Q.I.
% thorique de sujets
Classification
130 et plus
2,2 %
Trs suprieur
120-129
6,7 %
Suprieur
110-119
16,1 %
Normal fort
90-109
50 %
Moyen
80-89
16,1 %
Normal faible
70-79
6,7 %
Limite
69 et moins
2,2 %
Retard mental
Nous pouvons remarquer dans ce tableau que les catgories extrmes sont
dfinies par rapport un seuil statistique :
Moyenne plus deux carts type2 , pour le seuil infrieur de la catgorie
trs suprieure ;
1. Performance ici est comprendre dans son sens large et non pas en lien avec lchelle de
Performance.
2. 100 + (2x15) = 130
134
1. 100 (2x15) = 70
135
Q.I.T et diagnostic
136
137
laquelle on peut considrer quun enfant est surdou (135 ? 150 ?) sont
dnues de sens. (Lautrey, 2004, p. 227).
138
En rsum
Si le profil du sujet est homogne, avec une faible diffrence entre QIV
et QIP, linterprtation des rsultats portera sur le QIT, les deux Q.I.
spcifiques tant alors considrs comme quivalents cet indice global.
Si le profil est plus htrogne, avec une diffrence suprieure 12 points
entre QIV et QIP, il sera alors pertinent dinterprter sparment chaque
139
Q.I. car le dcalage observ peut reflter une relle diffrence defficience
entre les deux aspects de lintelligence valus par ces deux chelles.
lextrme, une diffrence trop importante entre ces deux Q.I. retirerait
toute validit linterprtation du Q.I.T.
Que reprsentent le QIV et le QIP ?
140
141
Tableau 3.10
Proposition de classification des notes standard au WISC-III.
Notes
standard
13
46
7 13
14 16
17 19
Classification
Note trs
faible
Note faible
Note
moyenne
Note leve
Note trs
leve
Rpartition
thorique
2,2 %
13,4 %
68,8 %
13,4 %
2,2 %
Remarque : Ce tableau ne figure pas dans le manuel du WISC-III : il sagit dune proposition de notre
part, qui sappuie sur des seuils statistiques et sur des propositions de Grgoire (Grgoire, 2004, p. 217).
142
On peut signaler quil existe une version abrge du WISC-III, version qui
ne figure pas dans le manuel, et qui a t propose par Grgoire (Grgoire,
2000a). Cette version rduite a t labore dans lobjectif de fournir aux
praticiens une preuve plus rapide faire passer, tout en tant suffisamment
143
144
3.
Le WISC-IV
Cette quatrime version de lchelle de Wechsler pour enfant a t dite en
2003 aux tats-Unis et adapte en France en 2005. Elle remplace donc la
version WISC-III que nous venons de prsenter.
p. 8).
Mais comme nous le dtaillerons dans ce chapitre, les diffrences apportes
avec la version WISC-IV sont si nombreuses que lon peut parler de
mtamorphoses, pour reprendre lexpression de Grgoire (Grgoire, 2005),
voire mme sinterroger sur les liaisons existantes entre cette version et
lapproche originelle de Binet (Rozencwajg, 2006).
Quelles sont les principales modifications entre la version WISC-III et la
version WISC-IV ?
Globalement, on peut situer ces diffrences plusieurs niveaux : au niveau
des subtests, au niveau de la passation, au niveau des indicateurs et enfin au
niveau des rgles gnrales dinterprtation.
145
146
Que reprsentent ces nouveaux indices ? Alors que lon peut tre tent
de rapprocher ces nouveaux indices des anciens indicateurs du WISC III la
vigilance est de mise : ce rapprochement est valide pour certains dentre eux
mais pas pour tous, comme nous le verrons plus loin.
Prsentation de lpreuve
Historique
Le WISC - IV est donc la version la plus rcente ce jour de lchelle
dintelligence de Wechsler pour enfant (Wechsler Intelligence Scale for
Children), dite en 2003 aux tats-Unis et adapte en 2005 en France par les
ECPA. Il sagit dune preuve individuelle de type chelle de dveloppement.
Elle est utilisable pour des enfants gs de 6 16 ans 12 .
Le matriel
Tout le matriel est regroup dans une mallette (matriel de passation, de
cotation, manuels...). Le psychologue dispose ici de deux manuels :
lun est consacr lensemble des rgles de passation et de cotation
(WISC - IV. Manuel dadministration et de cotation, Wechsler, D.,
2005a). Nous lappellerons manuel 1 ;
147
lautre prsente les qualits psychomtriques de lpreuve et linterprtation des rsultats (WISC-IV. Manuel dinterprtation, Wechsler, D.,
2005b). Nous lappellerons manuel 2 ).
Les subtests
Sur les 15 subtests de lpreuve, 10 seulement sont obligatoires pour calculer
les indicateurs principaux de lpreuve (le QIT et les quatre notes composites).
Cinq subtests sont ainsi optionnels (notes additionnelles), destins fournir
des informations supplmentaires (en fonction des objectifs du psychologue),
et ventuellement mesurer un indice spcifique dans le cas du subtest
Barrage. Ces subtests optionnels peuvent, dans certains cas, remplacer des
subtests obligatoires dont les rsultats ne seraient pas valides.
Les auteurs du manuel conseillent ainsi de faire passer systmatiquement
les subtests Arithmtiques et Barrages (manuel 1, p. 27), ce qui fait au final
12 subtests faire passer.
Nous allons prsenter les subtests partir de leur indice de rattachement
(note composite).
Les subtests de lIndice de Comprhension Verbale (ICV)
Similitudes : directement issu du WISC - III ce subtest consiste trouver
148
149
La passation
La passation est individuelle et ncessite un temps de passation compris
entre 1h15 et 1h45 en fonction du niveau de russite de lenfant.
La dure de passation peut galement varier, et ceci est nouveau, en
fonction des dcisions du psychologue. En effet, un certain nombre
de subtests sont optionnels et leur passation va dpendre des objectifs
du psychologue. Si celui-ci souhaite calculer uniquement les quatre
indices centraux du WISC-IV, la passation des 10 items principaux est
suffisante ; par contre, sil souhaite pouvoir calculer galement une, ou
des, note(s) additionnelle(s) alors la passation doit comprendre les subtests
supplmentaires correspondants.
Lordre de passation des subtests est codifi avec une alternance entre
diffrents types de tches.
150
151
Tableau 3.11
Rpartition des subtests sur les diffrents indicateurs du WISCIV.
Les indicateurs du WISC-IV
Les notes composites
ICV
IRP
IMT
IVT
Lindicateur
global :
QI T
Subtests
Similitudes
Vocabulaire
Comprhension
Information
(X)
(X)
Raisonnement verbal
(X)
(X)
Cubes
Identification de
Concepts
Matrice
Compltement
dimages
(X)
(X)
Mmoire de chiffres
Squence
Lettres-Chiffres
Arithmtique
Les notes
additionnelles
sans bonification
ordre direct
ordre inverse
(X)
(X)
Code
Symboles
(X)
(X)
Barrage
ordre alatoire
ordre structur
152
Valeur
maxi
Moyenne
cart type
Notes standards
et notes additionnelles
19
10
Q.I.T
40
160
100
15
50
150
100
15
Indicateurs
La sensibilit
Il faut ici distinguer deux aspects :
La sensibilit au sens classique du terme, cest--dire la capacit du
153
La fidlit
La fidlit, ou consistance interne a t value partir de la mthode
pair-impair. Les coefficients varient de .65 .86 pour les subtests, de .62
.82 pour les notes additionnelles et de .84 .89 pour les notes composites.
Cette fidlit est de .94 pour le QIT.
La fidlit temporelle a t value par la mthode test-retest sur un
chantillon de 93 enfants avec un intervalle moyen de 27 jours entre les
deux passations. Les valeurs sont globalement correctes avec des variations
de .64 .83 selon les subtests, de .78 .88 selon les notes composites et une
valeur de .91 sur le QIT (manuel 1, p. 34). On observe galement, et cest
attendu, des gains moyens entre les deux passations (effets dapprentissage).
La fidlit de la cotation sur les subtests verbaux a galement fait lobjet
dune valuation, avec des valeurs quasiment parfaites : .98 et .99.
Enfin, lerreur de mesure, inversement proportionnelle la fidlit du test,
a t value pour chaque type dindicateur. Exprime en unit dcart-type,
cette erreur-type de mesure varie pour les notes standards de 1,16 1,78,
de 4,98 6,01 pour les notes composites et elle est estime 3,63 pour le
QIT. partir de ces indications, il devient possible de calculer un intervalle
de confiance dans lequel doit se situer la note vraie du sujet. Comme pour
le WISC-III, les auteurs du manuel nous facilitent la tche en proposant
les valeurs de cet intervalle, pour les risques de 5 % et de 10 %, et pour
chaque indice (en annexe du manuel 1). Le praticien est dailleurs invit
faire figurer pour chaque score de lenfant un intervalle de confiance.
154
La validit
Rappelons que cest sans doute la qualit la plus importante dune preuve.
Il sagit ici danalyser les donnes qui justifient lutilisation du WISC-IV
comme mesure de laptitude intellectuelle. Dans un premier temps nous
analyserons les donnes concernant lanalyse de la validit du WISC-IV
comme mesure de lintelligence puis, dans un second temps, nous nous
intresserons la validit de la structure de lpreuve (la validit des diffrents
indicateurs du WISC-IV).
La validit du WISC-IV comme mesure de lintelligence
Bien que la validit des chelles de Wechsler soit atteste par un grand
nombre dtudes publies, il est normal que, lors de chaque rnovation
dpreuve, les auteurs apportent des lments de validation concernant
la nouvelle version. Ce sont ces lments que nous allons prsenter et
analyser. Comme nous lavons dj indiqu (voir le chapitre 2 de ce livre),
la validation est entendre comme un processus : les lments prsents
dans le manuel vont tre progressivement complts par les publications
dtudes sur cet instrument Nous nous centrerons ici principalement sur
les donnes concernant lchantillon franais. Une premire approche
consiste comparer le WISC-IV avec les autres chelles de Wechsler, une
seconde approche consistera analyser les liaisons existant avec dautres tests
dintelligence.
Corrlations avec le WISC-III
On attend des corrlations leves entre les deux versions de lpreuve mme
si, comme nous lavons dj signal, les diffrences sont nombreuses entre
WISC-III et WISC-IV. Ces deux tests ont t administrs 159 enfants. La
corrlation obtenue sur les QIT est de .78, valeur leve mais cependant
un plus faible que la corrlation qui avait t observe entre WISC-III et
WISC-R, qui tait de .88 (voir tableau 3.3). Cette baisse de corrlation
peut sexpliquer par les modifications importantes apportes au WISC-IV.
155
Malgr cela, la valeur leve de la corrlation indique que ces deux preuves
valuent bien le mme domaine : lintelligence dite globale.
Il est galement intressant dobserver les corrlations entre les diffrents
indicateurs de ces deux versions. Cest ce que nous permet le tableau 3.13.
Tableau 3.13
Corrlations entre WISC-IV et WISC-III (daprs le manuel 2).
WISC-IV
QI T
QI T
QI V
WISC-III
IOP
IVT
IRP
IMT
IVT
.82
QI P
ICV
ICV
.78
.62
.83
.60
.66
Que nous apportent ces valeurs ? Elles permettent destimer les relations
qui existent entre les indicateurs de la version WISC-III et les nouveaux
indicateurs (les notes composites) de la version WISC-IV. Par exemple,
lindicateur ICV du WISC-IV est, comme attendu, assez proche la fois du
QIV (r = .82) et de lICV (r = .83) du WISC-III. Par contre les liaisons entre
le nouvel indicateur IRP du WISC-IV et les indicateurs les plus proches du
WISC-III sont moins leves : .62 avec le QIP et .60 avec lindice IOP.
Ces observations confirment ici un point que nous avons dj voqu :
il ne faut pas chercher assimiler les indicateurs des deux versions et
principalement, on le voit ici, lindice IRP au QIP. En effet, et cest un
point que nous reprendrons, mme sil existe un assez large recouvrement
entre les deux indices, ce qui est valu par lindice IRP du WISC-IV ne
correspond quen partie ce qui tait valu par lindice QIP du WISC-III.
Corrlations avec la WPPSI-III
156
Tableau 3.14
Corrlations entre WISC-IV et WPPSI-III (daprs le manuel 2).
WISC-IV
QI T
QI T
WPPSI-III
ICV
IRP
IMT
IVT
.84
QI V
.79
QI P
.72
QVT
.69
Il sagit l encore de comparer les rsultats entre deux versions des chelles
de Wechsler mais cette fois pour les sujets les plus gs. Lchantillon est
compos ici de 55 sujets gs de 16 ans. La corrlation de .83 observe entre
les QIT (tableau 3.15) confirme galement que le WISC-IV value bien la
mme forme dintelligence que celle value par la WAIS-III.
Tableau 3.15
Corrlations entre WISC-IV et WAIS-III (daprs le manuel 2).
WISC-IV
QI T
QI T
QI V
ICV
ICV
IOP
IMT
IVT
IMT
IVT
.83
.81
QI P
WAIS-III
IRP
.74
.78
.78
.79
.64
157
K-ABC
Q.I.T
ICV
IRP
IMT
IVT
P. Squentiels
.59
.36
.49
.70
.30
P. Simultans
.57
.38
.64
.33
.41
P.M. Composites
.69
.44
.70
.58
.44
Connaissances
.74
.66
.69
.61
.32
158
1. Rappelons quune telle tude, avec la batterie DAT, a t mene dans lexprimentation du
WISC-III (voir tableau 3.7).
159
Nous ne pouvons pas ici prsenter les conclusions de ces diffrentes tudes
et renvoyons le lecteur intress vers le manuel (manuel 2, p. 63-83).
160
Analyse du QIT
Pour justifier le calcul du QIT, chaque subtest doit donc prsenter une
liaison non ngligeable avec les autres subtests, liaison qui indique bien
que toutes les situations du test valuent une mme dimension, que lon
interprte ici comme lintelligence globale. Si on consulte le tableau 5.1 du
manuel 2 (p. 45) on saperoit que les intercorrlations entre les subtests
obligatoires varient de .12 pour la plus faible (entre Mmoire de chiffres
et Code) .67 pour la plus leve (entre Vocabulaire et Similitudes). Il est
tout fait normal que certains subtests prsentent entre eux des valeurs plus
leves de corrlation, explicables par la plus grande proximit de ce quils
valuent, lessentiel tant dobserver des corrlations significatives entre tous
ces subtests. Lexistence de telles corrlations valide le calcul dun indicateur
global, le QIT, reposant sur lensemble des subtests.
Analyse des notes composites
161
Tableau 3.17
Saturations factorielles des subtests sur leur chelle de rattachement
(analyses factorielles exploratoires, manuel 2, p. 49).
Les notes composites
Subtests
ICV
Similitudes
.73
Vocabulaire
.78
Comprhension
.68
(Information)
(.70)
(Raisonnement verbal)
(.67)
IRP
Cubes
.54
Identification de Concepts
.50
Matrice
.54
(Compltement dimages)
Mmoire de chiffres
Squence Lettres-Chiffres
(Arithmtiques)
IMT
(.56)
.56
.62
(.46)
Code
IVT
.69
Symboles
.67
(Barrage)
(.45)
1. Nous renvoyons le lecteur intress par ces aspects au manuel 2 (pages 51 54).
162
Indications pralables
Avant de proposer un cadre gnral dinterprtation des rsultats, les auteurs
du manuel passent en revue quelques notions essentielles sur la mesure
en gnral, et sur les indicateurs du WISC-IV en particulier. Nous avons
dj prsent ces notions mais il nous a sembl pertinent de reprendre ces
lments afin de proposer au lecteur une rapide synthse sur ces notions clefs
dont la matrise sera ncessaire dans la phase dinterprtation des rsultats.
163
Au niveau des notes composites, les notes sont exprimes sur une chelle
normalise de moyenne 100 et dcart-type 15. Le tableau 6.2 du manuel
(manuel 2, p. 86) fournit les informations concernant les rangs percentiles
de chaque valeur de note composite.
Lerreur-type de mesure
164
Comme dans les autres versions des chelles de Wechsler le manuel propose
une catgorisation des indices principaux (le QIT et les quatre notes
composites) qui reprend dailleurs globalement les catgories utilises dans la
WAIS-III : de la catgorie trs faible (score de 69 et moins) la catgorie
trs suprieur (score de 130 et plus).
On remarquera ici labandon de la dnomination retard mental , qui
figurait dans le manuel du WISC-III pour les scores les moins levs, au
profit ici de la dnomination trs faible pour les mmes scores.
Cette grille de catgorisation est reprise en dernire page du cahier de
passation, accompagne des pourcentages de sujets appartenant chaque
catgorie. Le psychologue est invit situer le niveau de performance de
lenfant de la manire suivante :
Par rapport aux enfants du mme ge, le fonctionnement intellectuel de
cet enfant, mesur laide dun test standardis, se situe actuellement dans
la zone [insrer ici la catgorie qualitative approprie]. (manuel 2, p. 87)
Lquivalence en niveau dge
165
166
rfrence ?
Aprs cette analyse globale du QI T, le psychologue va adopter la mme
procdure (score, intervalle de confiance, classification du score observ,
rang percentile, ...) pour analyser les quatre notes composites. Il va sagir
galement de prciser ce qui est valu par chaque indicateur. Ce sont les
tapes 2 5 que nous allons maintenant aborder.
tape 2 : Description de lindice ICV
LIndice de Comprhension Verbale, qui repose sur trois subtests obligatoires (Similitudes, Vocabulaire et Comprhension), est une mesure du
raisonnement partir de situations dans lequel le langage intervient, mais
cest aussi une estimation de lintelligence cristallise qui repose en partie
sur les apprentissages raliss par lenfant.
tape 3 : Description de lindice IRP
167
peut remarquer que la corrlation est en ralit plus leve avec lchelle
de processus simultans (.41) quavec lchelle des processus squentiels
(.30), ce qui tendrait montrer que, contrairement ce que nous indique
le manuel (manuel 2, p. 90), lIVT serait plus proche dun traitement
simultan. Ce point ncessiterait un approfondissement ;
Le fait quun traitement plus rapide (score lev en IVT) permet de
traiter plus dinformations et/ou dpargner les ressources de la mmoire
de travail explique la corrlation souvent observe entre niveau de
performance et vitesse de traitement.
Arriv la fin de cette cinquime tape, le psychologue a donc caractris le
sujet sur les indicateurs principaux du WISC-IV. Parmi ces cinq indicateurs
168
(QIT, ICV, IRP, IMT et IVT), on peut considrer les trois premiers (QIT,
ICV et IRP) comme les principaux indicateurs des capacits cognitives
globales de lenfant, IMT et IVT apportant des informations sur des
aptitudes plus spcifiques.
Dans les tapes suivantes, le psychologue va sintresser aux ventuelles
diffrences entre ces indices.
Rappelons ici deux rgles fondamentales dans linterprtation dune
diffrence entre deux scores :
Il convient dune part de vrifier le caractre significatif, au sens statistique,
Il faut ici analyser les diffrences entre les indices pris deux deux,
soit 6 comparaisons. Le psychologue dispose pour cela dun tableau
comparaisons des diffrences (tableau situ en haut de la page 2 du
cahier de passation) quil est invit complter. Il note les valeurs des quatre
indices, calcule les diffrences, puis se reporte au tableau B.1 du manuel
(manuel 1, p. 256) pour connatre la valeur critique de chaque diffrence,
valeur partir de laquelle une diffrence sera statistiquement significative.
Le tableau B1 donne ces valeurs critiques en fonction de lge de lenfant et
du seuil de confiance retenu (.15 et .05).
Si la diffrence observe nest pas suprieure la valeur critique lue dans
le tableau B.1 (au seuil .15), on considre que les rsultats de lenfant sont
du mme niveau dans les deux indicateurs.
169
Un enfant de 15 ans qui obtient un QIT de 115, avec un indice ICV de 120 et un
indice IRP de 108 aura une diffrence ICV-IRP de + 123 .
Le tableau B.1 nous indique que cette diffrence est statistiquement significative
au seuil de .15 (mais elle ne lest pas au seuil de .05) et le tableau B.2 nous
apprend quune diffrence gale ou suprieure sobserve chez 23 % des enfants
de mme niveau de QIT.
Cette dernire information modre alors limportance que lon peut accorder
cette diffrence : elle nest pas considre ici comme inhabituelle car elle
sobserve chez prs dun enfant sur quatre et ne donnera donc pas lieu
interprtation.
170
171
172
173
4.
La WAIS-III
Cette chelle de Wechsler pour adultes version WAIS1 (ge minimum
de 16 ans) reste trs proche dans ses fondements thoriques, dans le
choix des subtests, comme dans les principes de passation, de cotation
et dinterprtation, des chelles WISC-III et WISC-IV pour enfants et
adolescents qui viennent dtre prsentes.
Tout en reprenant le plan gnral que nous avons suivi pour la prsentation
des chelles WISC, ce chapitre sera un peu moins dtaill compte tenu que
nombre de propos sur le WISC peuvent tre gnraliss la WAIS-III.
174
Historique
La premire version de cette preuve amricaine, version Wechsler-Bellevue,
date de 1939, et est adapte en France en 1956. La version WAIS est dite
en 1955 et adapte en France en 1968. Cette version est ensuite rvise en
1981, version WAIS-R, et adapte en France en 1989. Enfin, la version la
plus rcente, WAIS-III parat en 1997, puis est adapte en France en 2000.
Le matriel
Comme pour le WISC-III, la WAIS-III se prsente sous la forme dune
mallette qui contient tout le matriel ncessaire la passation. Le psychologue
dispose dun manuel bien document de 357 pages. Le praticien consigne
sur un cahier de passation les rponses du sujet et il dispose dun document
rcapitulatif pour reporter lensemble des scores.
Les subtests
La WAIS-III prsente la mme organisation que le WISC-III : un ensemble
dpreuves indpendantes (les subtests) qui sont regroupes en deux sous
chelles (une chelle verbale et une chelle de performance).
Au total la WAIS-III comporte 14 subtests, dont 11 proviennent de la
prcdente version WAIS-R. Lchelle verbale comprend 7 subtests (dont
1 optionnel), lchelle de performance comprend galement 7 subtests (dont
2 sont optionnels). Chaque subtest comporte plusieurs items prsents au
sujet selon leur niveau de difficult.
Lune des grandes modifications par rapport la version WAIS-R concerne
lintroduction dIndices Factoriels (ce point sera dvelopp plus loin).
Nous prsenterons rapidement chacun de ces subtests :
175
176
Standardisation
La passation
La passation est individuelle et ncessite un temps denviron 1 heure
1 heure 30 minutes (dure variable en fonction du niveau de russite du
sujet). La passation des subtests est effectue selon un ordre dtermin, avec
alternance entre les subtests verbaux et les subtests de performance afin de
prserver chez le sujet un certain niveau de motivation. Certains subtests
sont en temps limit (utilisation alors dun chronomtre), dautres en temps
libre. Le manuel indique trs prcisment les rgles de passation pour chaque
subtest.
Dans certains subtests, la passation ne dbute pas au premier item mais
un item donn (par exemple, le quatrime) avec administration des premiers
items si le sujet choue aux deux premiers items proposs. Ces rgles de
dpart spcifiques chaque subtest permettent dviter de faire passer
tous les sujets les items de faible niveau de difficult tout en conservant ces
premiers items pour diffrencier les sujets les plus faibles. Selon la mme
logique, des rgles darrt sont indiques pour chaque subtest. Ces rgles de
dpart et darrt permettent ainsi de ne faire passer au sujet que les items les
plus en relation avec son niveau de comptence et de rduire le temps de
passation.
On peut galement noter que le praticien peut dcider de ne faire passer
quune partie des subtests sil ne souhaite pas recueillir tous les indicateurs
de cette chelle (voir plus loin le tableau 3.18).
177
partir des notes standards il est possible alors de calculer sept indicateurs
de la performance du sujet :
les trois Q.I. classiques (QIV, QIP et QIT),
les quatre Indices Factoriels : Indice Comprhension Verbale (I.C.V),
Indice Organisation Perceptive (I.O.P), Indice Mmoire de Travail
(I.M.T) et Indice Vitesse de Traitement (I.V.T).
On peut remarquer ici la proximit de la structure de la WAIS-III avec
la structure du WISC-IV, mme si ce dernier ne comporte plus les QIV et
QIP.
Le tableau 3.18 nous indique les rattachements des subtests aux diffrents
indicateurs.
Tableau 3.18
Rattachement des subtests de la WAIS-III aux indicateurs globaux
(les parenthses signalent les subtests optionnels).
Les 3 Q.I.
Subtests
QIT
I.C.V
Vocabulaire
Similitudes
Arithmtique
Information
Comprhension
Squence Lettres-chiffres
QIV
QIP
(X)
I.O.P
(X)
Code
Cubes
Matrices
Symboles
(X)
(X)
Assemblage dobjet
(X)
(X)
I.VT
Compltement dimages
Arrangement dimages
I.M.T
X
X
On peut observer dans ce tableau que les sept indicateurs ne reposent pas
tous sur le mme nombre de subtests :
les deux QI (QIV et QIP) reposant respectivement sur 6 et 5 subtests ;
les Indices Factoriels reposant sur 3 subtests (sauf I.V.T qui ne repose
que sur 2 subtests) ;
178
Valeur Mini
Valeur maxi
Moyenne
cart type
Notes standards
19
10
45
155
100
15
50
150
100
15
179
La sensibilit
La sensibilit dun test reprsente sa capacit diffrencier les sujets. Il sagit
ici de sassurer que les diffrents scores permettent bien de discriminer les
sujets. Nous pouvons vrifier sur le tableau 3.19 que cette diffrenciation est
assure par ltendue des diffrents indicateurs talonns (notes standards,
Q.I. et Indices Factoriels) et par la rpartition gaussienne de ces scores.
Exemple
La fidlit
Rappelons que la fidlit concerne la prcision et la stabilit de la mesure.
Diffrents types de fidlit sont analyss dans le manuel de la WAIS-III
(daprs Wechsler, 2000) :
La fidlit, ou consistance, interne, est value par la mthode pair-impair.
Les coefficients de fidlit varient de .68 .90 selon les subtests, de .92
.97 selon les Q.I. et de .86 .95 selon les Indices Factoriels. La valeur de
ces indicateurs de fidlit est trs satisfaisante ;
180
Valeur
observe
de 103
QIV
QIP
QIT
ICV
IOP
IMTa
IVTb
98-107
96-109
99-107
97-108
96-109
97-109
95-111
a. La valeur 103 nexistant pas pour cet indice nous avons pris les valeurs intermdiaires situes entre
celles correspondant un score observ de 102 et celles correspondant un score observ de 104.
b. Mme remarque.
181
lintervalle le plus important. Nous avons observ dans le tableau 3.18 que
cet Indice I.V.T nest constitu que de deux subtests, ce qui peut expliquer
cette faiblesse.
La validit
Cette qualit fondamentale dun test peut se rsumer en la question suivante :
le test mesure-t-il ce quil est cens mesur ?
Pour rpondre cette question, deux aspects principaux seront ici
analyss :
La WAIS-III est-elle une mesure de lintelligence ?
Quelle est la validit des diffrents indicateurs de ce test (Q.I. et Indices
Factoriels) ?
Il sagit ici danalyser les corrlations observes entre les scores obtenus, par
les mmes sujets, la WAIS-III et dautres tests dintelligence.
Nous partons ici avec un a priori largement positif : comme nous
lavons dj indiqu, la validit des chelles de Weschler comme mesures
de lintelligence nest plus dmontrer. Le manuel prsente un grand
nombre dtudes de validation, mais nous pouvons regretter que la plupart
portent sur des populations amricaines et/ou sur lancienne version de cette
chelle (WAIS-R). Nous ne prsenterons ici que les rsultats des tudes qui
concernent lchantillon franais et la version WAIS-III.
Liaison entre WAIS-R et WAIS-III
182
deux scores (QIV et QIP), doit tre justifie par lobservation de fortes
liaisons entre subtests dune mme chelle ;
Le calcul dun indice total, le QIT, doit reposer sur le fait que tous les
subtests valuent bien une mme dimension commune ;
Le calcul des Indices Factoriels, doit lui aussi tre valid par des mthodes
statistiques appropries. Dautant plus que ces Indicateurs reprsentent
une nouveaut par rapport la WAIS-R.
Concernant le premier aspect, le manuel donne les rsultats danalyses
factorielles descriptives qui valident la distinction classique entre les deux
chelles, donc le calcul spar des deux Q.I : QIV et QIP. En effet, les
corrlations entre les subtests de lchelle Verbale sont bien plus leves
183
184
plus proche des donnes, donc plus valide, que la simple addition des notes
standard des subtests concerns.
Par exemple, le tableau 6.7 du manuel (Wechsler, 2000, p. 266) indique
que pour lIndice Factoriel I.M.T, la saturation est de .76 avec le subtest
Squence lettres-chiffres mais seulement de .42 avec le subtest Arithmtique.
Pourtant, dans le calcul de cet indice, on accorde le mme poids ces deux
subtests. Une autre possibilit aurait pu tre envisage qui consisterait
pondrer chaque subtest en fonction de la valeur de sa saturation.
Enfin, toujours propos de ces Indices Factoriels, Grgoire prsente les
rsultats danalyses complmentaires qui confirment la validit de cette
structure factorielle. Cette dcomposition des rsultats de la WAIS-III en
quatre Indices Factoriels lui parat mme prfrable lutilisation des deux
indicateurs classiques QIV et QIP, car ces indices reprsentent des mesures
plus robustes et plus homognes que les deux Q.I. classiques (2004, p. 207).
Les bases de linterprtation
185
du gnral pour se diriger vers le particulier. Il va donc sagir danalyser lindicateur le plus gnral (le QIT) puis les indicateurs spcifiques (QIV, QIP et
les Indices Factoriels) et enfin danalyser les rsultats aux diffrents subtests.
Avant de prsenter les diffrentes tapes de lanalyse, il faut rappeler que
tous les indicateurs talonns de la WAIS-III se rfrent aux performances
observes chez des sujets de mme ge. Ce point est trs important
rappeler, surtout dans le cas o le sujet est relativement g. En effet, avec
le phnomne de dclin de certaines aptitudes avec lge, un sujet de 70 ans
ayant un Q.I. de 100 aura en fait un niveau de performance moins lev
quun sujet de 30 ans qui a pourtant le mme Q.I. de 100. Ces deux
sujets se situent de la mme manire (ici trs prcisment au centre de
la distribution, au niveau de la moyenne) mais dans des populations de
rfrence diffrentes. Prenons par exemple deux subtests particulirement
sensibles ce phnomne de dclin, le subtest mmoire des chiffres et le
subtest matrices. Le tableau 3.21 donne les notes talonnes (notes standards)
pour un mme niveau de russite (score brut) en fonction du groupe dge.
Tableau 3.21
Comparaison des diffrentes notes standard attribues un mme score brut selon la classe
dge (daprs Wechsler, 2000, p. 302 307).
Notes standards selon le groupe dge
Score brut observ
20-34 ans
55-64 ans
70-74 ans
80-89 ans
Matrices : 21 points
10
12
16
17
10
12
13
14
Les donnes illustrent bien le phnomne que nous voulions dcrire : les
notes talonnes (notes standards) dpendent bien du niveau de russite
observ dans chaque classe dge.
Exemple
Pour un mme niveau de russite au subtest matrice (un score brut de 21 points),
le sujet sera situ juste dans la moyenne sil est g de 25 ans (avec une note
standard de 10) mais plus il sera g, plus sa note standard sera leve, avec ici
par exemple une note standard de 17 sil est g de 80 ans. On peut galement
observer un processus quivalent pour lautre subtest (mmoire des chiffres).
186
rapport aux sujets de mme ge) mais galement les valeurs de rfrence
proposes (le groupe dge 20-34 ans), surtout si le sujet est loign de cette
classe dge. Cest pour ces raisons quil est conseill de faire figurer sur
le document rcapitulatif /profil les valeurs des notes standard pour le
groupe 20-34 ans qui correspond un groupe de rfrence ventuellement
diffrent du groupe dge du sujet (voir la colonne rserve cet effet
en troisime page de ce document). Enfin rappelons quil est fortement
conseill dentourer chaque score calcul dun intervalle de confiance.
Abordons maintenant les diffrentes tapes danalyse des rsultats.
Tableau 3.22
Classification des Q.I. et des Indices Factoriels au test WAIS-III (daprs Wechsler, p. 280).
Q.I ou Indice Factoriel
% thorique de sujets
Classification (catgorie)
130 et plus
2,2 %
Trs suprieur
120-129
6,7 %
Suprieur
110-119
16,1 %
Moyen suprieur
90-109
50 %
Moyen
80-89
16,1 %
Moyen infrieur
70-79
6,7 %
Limite
69 et moins
2,2 %
Trs faible
187
Cette classification, qui concerne plus largement tous les Q.I. et tous
les Indices Factoriels, peut tre utilise par le psychologue pour situer de
manire plus qualitative le niveau de performance du sujet.
Les valeurs des diffrents seuils qui dterminent les classes ont t dfinies
en fonction de la rpartition thorique des sujets (par exemple, la valeur de
130 correspond une performance situe deux carts types au-dessus de la
moyenne). Sur la justification de ces seuils, nous renvoyons le lecteur aux
rflexions que nous avons proposes dans la prsentation des WISC-III et
IV.
188
De mme, IOP peut tre dfini comme une mesure plus pure de
lintelligence fluide.
Enfin, les Indices Factoriels IMT de IVT, sont des mesures assez
spcifiques, qui apportent des lments complmentaires sur deux aspects de
fonctionnement intellectuel : la mmoire de travail et la vitesse de traitement
des informations.
Aprs avoir situ le niveau de performance du sujet dans chaque indicateur,
le psychologue analysera, comme pour le WISC, le profil des rsultats du
sujet autour de la question suivante : le profil est-il homogne (cas dune
faible diffrence entre les indicateurs) ou htrogne (diffrence importante
entre les indicateurs) ?
Attention !
Comme pour le WISC, toute diffrence observe nest pas obligatoirement
significative.
En effet, pour que cette diffrence ait un sens au niveau du fonctionnement
cognitif il est ncessaire quelle soit la fois assez importante (statistiquement significative) et relativement rare. Les valeurs de rfrence fournies
dans le manuel permettent de guider linterprtation des diffrences
ventuellement observes.
Par exemple, pour la WAIS-III, la diffrence moyenne entre QIV et QIP
est proche de 10 points (9,7 points) et prs de 20 % des sujets prsentent
une diffrence gale ou suprieure 16 points (p. 320).
Ces informations relativisent ainsi grandement la singularit des profils
qui prsenteraient une diffrence entre QIV et QIP infrieure ou gale
ces valeurs.
Le manuel propose deux exemples dinterprtation des diffrences
observes, lun concerne une diffrence entre les deux Q.I., lautre une
diffrence entre deux Indices Factoriels (voir p. 289 et 290).
En conclusion, on ne peut que conseiller au praticien de se rfrer aux
informations du manuel (valeurs significatives des diffrences, rpartition
de ces diffrences dans lchantillon de rfrence, exemples dinterprtation
de profils...) avant deffectuer toute interprtation des diffrences observes.
Enfin, on peut rappeler que Grgoire est plus favorable lanalyse des
Indices Factoriels qu lanalyse traditionnelle des deux Q.I. (QIV et QIP),
les Indices ayant une fiabilit plus importante :
189
190
La WAIS-III, chelle de Wechsler pour adulte, qui repose sur une conception
globale de lintelligence, permet donc au final de disposer de sept indicateurs
de lefficience du sujet :
les trois Q.I. classiques : QIT, QIV et QIP ;
les quatre Indices Factoriels : ICV, IOP, IMT et IVT.
Les donnes disponibles confirment la fiabilit de ce test et de ses diffrents
indicateurs. Pour cette version WAIS-III, et contrairement aux rserves que
nous avions formules pour le WISC-III, les Indices Factoriels apportent
bien ici des informations spcifiques sur le fonctionnement cognitif du sujet.
Dailleurs, pour certains auteurs (Grgoire, 2004), en raison dune fiabilit
plus leve, lutilisation de ces Indices est prfrable lutilisation classique
des QIV et QIP. Il est probable dailleurs que dans la prochaine version
(WAIS-IV) le praticien ne dispose plus de ces indicateurs QIV et QIP, mais
uniquement des indices factoriels, accompagns du QIT, comme cela est
dj le cas dans la version WISC-IV.
Il serait intressant de connatre la proportion de praticiens qui conserve
une utilisation traditionnelle de la WAIS-III (analyse prfrentielle du QIV
et du QIP) et celle qui privilgie lutilisation et linterprtation de ces Indices
Factoriels. Il est fort probable que ce changement de pratique demande un
peu de temps...
Enfin, signalons quil nexiste pas de version abrge de cette preuve1
(comme ctait le cas pour le WISC-III) mais quune certaine latitude est
laisse au praticien lors de la passation, lui permettant, en fonction des
indicateurs quil souhaite obtenir (les Q.I. et/ou les Indices Factoriels), de
ne faire ventuellement passer quune partie des subtests de lchelle.
1. De telles versions font lobjet de recherche (voir par exemple Rmy, 2008).
CHAPITRE
4
Sommaire
Page 194
Page 215
Page 231
4. Le test R85/R2000 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Page 244
Page 248
193
ANS
Nous analyserons ici de manire dtaille les preuves de facteur g les plus
connues et/ou les plus utilises en France :
les matrices de Raven,
le test NNAT,
194
1.
Un exemple ditem est donn dans la figure 4.1 : le sujet doit slectionner,
parmi les 8 lments possibles, celui qui vient complter la srie propose.
195
Figure 4.1
Exemple dun item (fictif) des Progressives Matrices de Raven (daprs Huteau, 2002, p. 47).
Exemple
Dans cette tche complexe le sujet doit prendre en compte lensemble des
informations disponibles, et ne pas slectionner trop vite une solution qui
lui apparatrait premire vue correcte, mais qui ne comporterait pas en
ralit tous les lments constitutifs de la bonne rponse. Lune des erreurs
prototypiques (voir plus loin la partie consacre lanalyse des erreurs) est
justement la slection dun distracteur proche de la bonne rponse, mais ne
comportant pas toutes les caractristiques de celle-ci.
1. Une version encastrable (avec manipulation) destine de jeunes enfants (ou enfants prsentant
un handicap) est galement diffuse en France (Kaufman et al., 1993).
196
donc trois versions des tests Progressives Matrices capables de couvrir une
large gamme de niveaux diffrents et adaptes un large public allant des
enfants aux adultes de haut niveau. Chaque version dispose de son propre
manuel et il existe galement un manuel commun dintroduction aux tests
de Raven (Manuel des Raven, section 1).
Nous ne prsenterons ici que les versions utilisables auprs dadolescents
et dadultes : la version standard SPM et la version APM (diffuses par les
ECPA).
Prsentation de la version SPM de Raven
197
198
199
1. Les sries tant elles-mmes prsentes selon leur niveau de difficult (la srie A tant la plus facile,
la srie E la plus difficile).
200
Recommandation
Nous recommandons donc vivement dutiliser la version SPM en temps
libre, et de prfrer, si lon souhaite effectuer les passations en temps limit,
utiliser la version APM (version Advanced) car dans cette version, comme
nous allons le prsenter plus loin, dune part la phase dapprentissage
est distincte de la phase valuation et, dautre part, les items ne sont pas
organiss en srie ce qui vite ce type de biais.
2. Notre seconde remarque porte sur les modalits de rponse. Nous
avons indiqu que dans le test SPM, comme dailleurs dans les autres
versions des tests de Raven, le sujet ne cre pas la rponse mais il la choisit
parmi plusieurs possibilits proposes selon le principe des rponses choix
multiples. Comme nous lavons indiqu, dans les sries les plus faciles, le
nombre de choix possibles est de six (la bonne rponse + cinq distracteurs1 ),
puis ce nombre augmente partir de la srie C qui comporte huit possibilits
de rponse. Nous savons quavec des rponses de type QCM, la possibilit
de trouver la bonne rponse par hasard nest jamais ngligeable. Cest
pour cette raison quil est ncessaire, dune part, de proposer un nombre
significatif de distracteurs (ce qui est le cas ici) et, dautre part, de sassurer de
lgale attractivit de chaque distracteur. Sur ce dernier point, il nous semble
que pour certains items du SPM, les caractristiques de certains distracteurs
sont si loignes dune rponse probable quun sujet peut rapidement les
carter, ce qui lui laisse au final un nombre plus faible de possibilits de
rponses avec une probabilit non ngligeable de trouver quelques bonnes
rponses par hasard .
De plus, le fait de fournir les rponses possibles, lui permet de mettre en
uvre une stratgie consistant essayer chaque matrice en lappliquant
mentalement sur la partie problme, stratgie du type essais/erreurs qui,
selon nous, relve probablement dun autre type de logique que celle qui est
vise par cette preuve. Pour ces raisons il est souvent prfrable dlaborer
des preuves dans lesquelles le sujet doit produire sa rponse, comme cest
le cas par exemple dans les tests de type dominos ou sries logiques (voir
plus loin en 4.4).
201
Il sagit ici de vrifier la liaison existante entre ce que mesurent les SPM et
ce que mesurent dautres tests dintelligence.
Chez les enfants et les adolescents anglophones on observe des liaisons
comprises entre .54 et .86 avec des chelles dintelligence comme celle de
Binet ou celle de Wechsler, avec des liaisons plus leves au niveau du Q.I.
Performance quau niveau du Q.I. Verbal. Cet aspect nest pas surprenant
car le Q.I. Performance est plus proche de lintelligence fluide que le Q.I.
Verbal. On constate dailleurs de faon gnrale dans de nombreuses tudes,
que les liaisons avec les SPM sont plus leves avec des tests non verbaux.
Ce constat vaut galement pour les comparaisons avec les versions
Wechsler pour adultes, comme lindiquent les donnes du tableau 4.1.
Tableau 4.1
Corrlations entre les SPM et la WAIS-III (daprs Grgoire, 2004, p. 224).
WAIS-III
SPM
QI Total
QI Verbal
QI Performance
Subtest Matrices
.64
.49
.79
.81
On retrouve bien ici les rsultats observs avec les autres versions des
chelles de Wechsler : les SPM corrlent de faon relativement importante
avec le QI Total (.64) mais la corrlation est plus leve avec le QI
202
Les corrlations des SPM avec des critres lis la russite scolaire ou la
russite professionnelle varient largement selon les tudes. Les valeurs sont
justes significatives pour certaines et beaucoup plus leves (allant jusqu
.70) pour dautres (voir Manuel section 3, p. 26 et 27). La plupart des tudes
cites dans le manuel sont assez anciennes mais cest sur cette base que le test
a acquis une bonne rputation de validit prdictive. Les ralits scolaires
et professionnelles ayant largement volu, des tudes plus rcentes sur cet
aspect seraient minemment souhaitables.
Validit de concept
Les SPM, comme les autres tests de Raven sont souvent considrs comme
fournissant une mesure relativement pure de facteur g. Cette conception
est nuancer. Les analyses factorielles confirment effectivement une forte
saturation en facteur g des SPM. Mais les tudes concluent galement une
composante spatiale non ngligeable. Pour Carroll1
Les performances aux matrices de Raven sont la fois dtermines par
lintelligence fluide (niveau II) et par le facteur induction (niveau I).
1. Voir les propositions de Carroll sur le modle hirarchique de lintelligence dans le chapitre 1.
203
Diffrentes tudes font tat de coefficients autour de .90 pour des intervalles
assez courts entre les deux passations et autour de .80 pour des intervalles
plus longs, donnes qui sont trs satisfaisantes.
Les auteurs indiquent une tendance une baisse progressive des scores
avec lge, surtout partir de 50 ans, avec par exemple un score moyen de
48 pour les sujets de moins de 30 ans et un score moyen de 29 pour les plus
de 50 ans (daprs le tableau SPM1, p. 21, Manuel section 3), mais il faut
prendre ces repres avec prudence car les auteurs ne donnent ici aucune
indication sur la constitution des chantillons de sujets. Ce phnomne de
dclin des performances avec lge justifiera la prsence, chez les adultes,
dtalonnages par classes dges.
La sensibilit
La standardisation
La passation
204
Attention !
Il faut que le psychologue sassure des caractristiques des talonnages
quil veut utiliser afin de dterminer sil doit limiter le temps de passation.
En effet, les talonnages disponibles sont assez htrognes de ce point
de vue et lon trouve certains talonnages de passations en temps libre,
condition prfrable, mais galement en temps limit (l encore la vigilance
est de rigueur car, selon les talonnages, le temps de passation est de 20
ou 30 minutes !).
Les consignes de passation fournies par les auteurs diffrent en fonction
de la modalit de passation : individuelle ou collective. Pour une passation
individuelle, le psychologue va se servir des premiers items de la premire
srie (items A1 A5) comme items dexemples. Lpreuve proprement dite
ne dbutant alors qu litem A6. Mais pour une passation collective, il ny
a quun seul item exemple, litem A1, lpreuve dbutant alors litem A2.
Ces diffrences selon les modalits de passation dans le nombre ditems
exemples, et donc dans le nombre ditems pris en compte dans la notation,
sont un peu surprenantes et peuvent mme tre sources de biais pour les
sujets de faible niveau, susceptibles de ne pas russir tous les items de la
srie A. Il est vrai que, pour ce type de sujet, il est prfrable dutiliser la
version Couleur.
Les auteurs indiquent lexistence de versions informatises des SPM
(Manuel section 3, p. 41) mais, notre connaissance, ces versions ne sont
pas diffuses en France.
La cotation
205
206
207
Percentiles
6e
5e
4e
95
48
51
53
90
46
50
51
75
43
46
48
50
40
44
45
25
36
38
42
10
30
31
36
27
27
33
Moyenne
38,9
42
44,6
cart type
6,4
7,1
8,1
208
scolaire ont un score infrieur au sien. Ce nest pas le signe dun bon
niveau de performance.
Une seconde tape consiste utiliser la grille de catgorisation propose
dans le manuel. Les auteurs proposent une catgorisation des sujets en cinq
classes symtriques, du groupe I capacits intellectuelles suprieures
au groupe V dficience intellectuelle (manuel SPM, section 3, p. 51) :
Classe I : Capacit intellectuelle suprieure si le score atteint ou
Le manuel ne nous propose aucune tude de cas, ce que lon peut regretter,
mais consacre un chapitre au compte rendu des rsultats (voir Manuel
section 3, p. 51 58). Mais celui-ci prsente peu dintrt lorsque le sujet
a pass uniquement le SPM car ce chapitre est plutt consacr lanalyse
compare de deux preuves de Raven (le test SPM et le test de vocabulaire
Mill Hill, qui relve plus de lintelligence cristallise et du vocabulaire).
Dans cette partie du manuel on trouve galement des informations
concernant lanalyse des sous-scores, dont nous avons dj parl, partir
209
des carts entre chaque sous-score et des rfrences thoriques (voir tableau
SPM II, manuel SPM section 3, p. 59). En cas dcarts de plus ou moins
2 points, les auteurs invitent questionner la cohrence des rsultats du sujet.
Sans reprendre nos propositions dveloppes un peu plus haut concernant
lanalyse des sous-scores, nous ne pouvons que conseiller galement aux
praticiens de se pencher attentivement sur le protocole du sujet : analyser
son profil de rponse, reprer les items chous...
Concernant le diagnostic des erreurs, bien que certains chercheurs en
proposent un cadre gnral danalyse (pour une revue de questions sur ce
point voir par exemple Grgoire, 2004, p. 225-229), la pertinence dune
telle analyse semble rduite pour les auteurs du manuel car, selon eux :
Le diagnostic des erreurs demanderait la cration dau moins une nouvelle
version du test. (Manuel section 3, p. 56)
Cette absence est galement releve par Grgoire qui prcise que :
Aucune donne nindique en effet quil soit possible de diffrencier les
individus en fonction du type derreurs commises ou du type de problme
o les erreurs sont observes. (Grgoire, 2004, p. 229)
La version APM des matrices de Raven
210
211
La standardisation
La passation
212
La cotation
Nous pouvons ici renouveler les observations que nous avions formules
propos des talonnages de la version SPM :
Les talonnages sont nombreux mais htrognes (du point de vue de la
213
Attention !
Dune part, il faut bien distinguer ce que reprsente ici lindicateur Q.I.
(qui diffre de ce quil reprsente, par exemple, pour un Q.I. estim partir
dune chelle de Wechsler), dautre part, tout en nous proposant cette
conversion des scores le manuel indique quil ne faudrait pas lutiliser en
raison de la distribution non gaussienne des donnes ! (Manuel section 4,
p. 101). Deux bonnes raisons donc dtre particulirement prudent dans
lutilisation de ce tableau.
214
Daprs les donnes du manuel, les erreurs de type 1 et 2 sont les plus
frquentes : elles reprsentent environ 50 % des erreurs, mais il faut signaler
que cette rpartition fluctue en ralit, selon le niveau des sujets et selon les
items. Le tableau APM 2 (p. 17) fournit ainsi la rpartition des erreurs les
plus frquentes et le praticien pourra y trouver quelque utilit.
Mais rappelons galement que, pour dautres chercheurs, une analyse des
erreurs ne semble pas rellement justifie (Grgoire, 2004, p. 229).
Il peut galement tre intressant danalyser ces erreurs partir des
traitements cognitifs ncessaires la rsolution des items. Nous pouvons
signaler ici que de nombreuses recherches portent sur cette question depuis
celle de Hunt en 1974 jusquaux travaux plus rcents des annes 1990-2000.
Nous citerons en particulier deux exemples de ces recherches :
Carpenter, Just et Shell (1990) ont ralis une analyse cognitive de cette
215
Il est de fait probable que la majorit des utilisateurs du SPM utilise cette
preuve en temps limit. Il est alors, dans ce cas, ncessaire de sinterroger
sur la validit du protocole, par exemple, en analysant la rpartition des
sous-scores par srie.
2. Quelle version utiliser : SPM ou APM ? En temps libre ou limit ?
Le premier critre prendre en compte doit tre le niveau du sujet. Le
praticien doit identifier lavance, en fonction du niveau dtude du sujet, la
version la plus adapte (SPM ou APM) ainsi que les modalits de passation
(temps libre ou limit en fonction des talonnages quil souhaite utiliser).
Sil hsite, il peut faire passer le Set I de la version APM et, en fonction des
rsultats, slectionner la version la plus approprie.
Un second critre : limportance de la possibilit dapprentissage au
cours du test. Les auteurs conseillent dutiliser la version SPM (en temps
libre) pour les sujets peu familiariss avec le type de situation propos, en
raison du caractre progressif des items qui fournit au sujet des possibilits
dapprentissage en cours de tche.
3. Des talonnages insuffisants
Quelle que soit la version nous avons signal plusieurs reprises les limites
des talonnages fournis dans les manuels. Il serait ncessaire de pouvoir
disposer :
2.
Prsentation de lpreuve
Le NNAT (Naglieri Non verbal Aptitude Test) a t labor dans les annes
1980 par Naglieri. Il sagit dune rvision et extension dun autre test de
matrice de Naglieri, le MAT (Test de Matrice Analogique), test dit
216
aux tats-Unis en 1985 mais jamais adapt en France. Le test MAT est une
preuve de raisonnement non verbal, assez semblable aux matrices de Raven,
mais destin aux enfants gs de 5 17 ans (manuel NNAT, p. 13).
Directement issu du MAT, le NNAT est donc un test de facteur g et
dintelligence fluide qui sinspire largement des preuves de Raven, comme
on peut le constater figure 4.2.
Figure 4.2
Exemple (modifi) ditem du test NNAT (daprs Naglieri, 1998).
Les items sont assez proches de ceux des preuves de Raven : le sujet
doit reprer les rgles de progression (de transformation) entre les diffrents
lments du problme, puis appliquer ces rgles afin de slectionner la
rponse correcte.
Le NNAT a t dit en 1996 aux tats-Unis, puis adapte en France en
1998. Lpreuve est dite par les ECPA et accompagne dun manuel de
81 pages.
Le NNAT prsente trois caractristiques principales qui le diffrencient
des autres tests de facteur g :
il se dcline en diffrentes formes,
il permet le calcul de sous-scores,
il propose deux types dtalonnage (par niveau scolaire et par classe dge).
217
Maternelle
CP
CE1
CE2-CM1
CM2-6e
5e , 4e , 3e
2e
Terminale
Alors que la plupart des tests de facteur g (par exemple, les matrices de
Raven, les tests de type dominos...) ne caractrisent la performance du sujet
que par un score unique1 , le NNAT fournit un score gnral et quatre
sous-scores. Ainsi, partir de lanalyse des types de raisonnement prsents
dans les items du MAT, Nagliri distingue quatre types ditems (appels
galement clusters) :
1. La version SPM de Raven permet, comme nous venons de le voir, de calculer cinq sous-scores
mais dans un objectif trs diffrent.
218
219
220
221
Une seule tude est prsente ici : elle concerne lanalyse de la relation entre
le test NNAT, plus prcisment la forme G, et lpreuve non verbale de
la batterie GAT2 , auprs dun chantillon de 125 lves. La corrlation
obtenue est de .33, ce qui est faible (et les auteurs en conviennent dailleurs,
cf. Manuel, page 42) et beaucoup plus faible que la valeur attendue car
les deux preuves (NNAT et GAT) sont senses valuer le mme type
daptitude.
Pour tenter dexpliquer cette (trop) faible valeur les auteurs proposent
une argumentation reposant sur le contenu mme des items de la forme
NNAT utilise, la forme G, qui est compose dune grande majorit ditems
de visualisation spatiale (24 sur 38) et dont la rsolution suppose des
manipulations mentales spcifiques : rotation dans lespace, superpositions
de figures complexes (manuel, p. 42). Cette argumentation ne nous semble
pas suffisamment convaincante et il aurait t prfrable de pouvoir disposer
dautres lments de validit concourante avec un test comparable, comme
par exemple les matrices de Raven, lments qui viendraient confirmer la
validit du test NNAT comme preuve de raisonnement non verbal de type
facteur g.
Nanmoins, du fait que le NNAT repose sur le mme type de tche que
les matrices de Raven on peut estimer quil value globalement la mme
dimension, mme si la corrlation observe ici peut nous questionner.
1. Ce qui signifie que si un sujet obtient une note brute de 24, il a deux chances sur trois que sa
vraie note se situe entre les notes 22 et 27 (manuel, p. 37).
2. La batterie GAT (Test daptitude gnrale) value laptitude au raisonnement logique.
222
De plus, et cest tonnant que les auteurs ne rappellent pas ici ce point,
les tudes amricaines font tat de corrlations leves (de .63 .78 selon
les formes) entre le NNAT et le MAT (tableau 4, p. 25). Il reste quil est
regrettable de ne pas disposer, sur un chantillon franais, dautres donnes
que la seule tude prsente. Des tudes complmentaires mriteraient donc
dtre menes.
La validit concourante avec des tests scolaires
Niveau scolaire
CE2
CM2
E
6e
F
5e et 3e
preuves
Effectif
Corrlation r
NNAT et TNO
50
.45
99
.50
97
.53
97
.48
102
.63
NNAT et TNO
104
.32
Les valeurs se situent autour de .50 et nous pouvons observer les points
suivants :
Les corrlations avec le Test dAcquisition Scolaire (TAS) varient de .50
Une tude est cite ici qui relie NNAT et apprciations scolaires, partir
dune chelle en trois points : lve bon, moyen ou faible.
Les apprciations sont gnrales ou spcifiques deux matires scolaires
(franais et mathmatiques). Ltude porte sur six niveaux scolaires
223
La validit thorique
224
Une analyse comparative selon le sexe a t ralise pour les diffrents niveaux
scolaires. Les rsultats montrent quune seule diffrence est significative :
pour les lves de classes de 2de on observe un rsultat suprieur pour les
garons avec une moyenne de 26,55 points contre 23,99 points pour les
filles, soit une diffrence de 2,56 points (manuel, tableau 7, p. 35). Cette
seule diffrence justifierait un talonnage par sexe pour ce niveau dtude.
Pourtant, cet talonnage na pas t labor...
Mme si elles ne sont pas statistiquement significatives, les diffrences
de moyennes qui figurent dans le manuel vont quasiment toujours dans le
mme sens avec une diffrence en faveur des garons dans 9 cas sur 12 (voir
dans le manuel les donnes du tableau 7, p. 35). La non significativit des
diffrences est en outre nuancer compte tenu des effectifs assez restreints
des groupes2 .
Ces remarques nous amnent donc temprer les conclusions des auteurs
concernant lindpendance de la mesure en fonction du sexe et attirer
lattention des praticiens, au moins sur le niveau des classes de 2de pour
lequel un talonnage par sexe aurait t ncessaire.
1. Rappelons que dans cette adaptation les auteurs nont pas retrouv sur lchantillon franais
lorganisation des aptitudes qui avait t observe sur les sujets amricains (voir le chapitre 3 : le
WISC-III).
2. Une mme valeur de diffrence entre deux moyennes sera considre comme statistiquement non
significative lorsque les effectifs sont rduits, et significative lorsque les effectifs sont plus importants.
225
La passation
Le test NNAT est une preuve collective.
Le psychologue doit slectionner la version correspondant au niveau du
(ou des) sujets(s) concern(s). Rappelons ce propos quil existe sept formes
diffrentes correspondant aux niveaux scolaires suivants :
226
La cotation
On attribue classiquement 1 point par bonne rponse, les scores bruts
peuvent donc varier de 0 38.
Les modalits de cotation diffrent selon les versions :
Pour les formes les plus simples, le sujet rpond directement sur le cahier
Les talonnages
Ils ont t raliss en 1997 sur un chantillon de 1 781 lves de diffrents
niveaux dtudes : des classes de Grande Section de Maternelle aux classes
Terminales de Lyce. Chaque groupe compte environ 120 150 lves.
talonnages du score total
niveau scolaire : il utilise alors les talonnages par niveaux scolaires partir
de la note brute totale du sujet (talonnages normaliss en 11 classes) ;
partir de la note dchelle (voir plus loin) il est possible dobtenir le rang
percentile du score du sujet par rapport aux diffrents niveaux scolaires ;
Soit le psychologue souhaite situer le sujet par rapport aux sujets du
mme ge, il doit alors transformer sa note brute en une note dchelle
(notes T), puis transformer cette note dchelle en Index dAptitude Non
verbale (notes NAI). Au final cet index NAI sexprime dans une chelle
de moyenne 100 et dcart-type 15, cest--dire dans la mme mtrique
quune chelle de Q.I.
227
Attention !
Cette note NAI, nest pas assimilable un Q.I. et ne doit pas donc tre
interprte comme un Q.I., mme si elle en possde la mme mtrique.
Rappelons que le Q.I, indice dintelligence globale, est lindicateur typique
des chelles de dveloppement de type chelles de Wechsler, qui reposent
sur un ensemble vari de situations et en particulier des items et subtests
reposant sur des aptitudes verbales (exemples : le QIV et lIndice de
Comprhension Verbale ICV), ce qui nest pas le cas ici.
Le NNAT est bien un test non verbal de type facteur g et non un test de
type QI.
Enfin, le manuel propose galement un tableau de conversion entre note
dchelle et ge quivalent , ce qui est assez surprenant car cette notion,
proche de la notion dge mental, nest gure utilise actuellement.
Nous avons vu que le NNAT permet le calcul de sous scores qui constituent
diffrents indicateurs de la performance. On pouvait alors lgitimement
sattendre disposer dtalonnages par sous-scores. Cependant, en raison
sans doute de la faiblesse de certaines donnes dexprimentation (voir plus
haut), mais aussi, daprs les indications du manuel (manuel, p. 12), en
raison du trop faible nombre ditems qui composent certains clusters, les
auteurs nont pas labor dtalonnages spcifiques pour chaque sous-score
et conseillent de ninterprter que de faon qualitative ces sous-scores.
Le manuel propose comme seule rfrence de comparaison les moyennes,
carts types et erreurs de mesure des diffrents sous-scores pour les diffrentes
formes du test (voir tableau 9 du manuel, p. 38 et 39). Ces lments nous
semblent trop succincts pour tre vritablement utiles au praticien.
Nous regrettons cette absence dtalonnages spcifiques car elle limite
lutilisation de ces indicateurs qui auraient permis de procder une
valuation diagnostique. Cela est dautant plus regrettable que, comme
le prcisent Bernier et Pietrulewicz :
Dans ce type de test, le total ou le score compos est peu significatif ;
ce sont les scores partiels ou les pourcentages de bonnes rponses
des regroupements ditems particuliers qui constituent les mesures
recherches. (Bernier et Pietrulewicz, 1997, p. 224).
228
229
Si on utilise ltalonnage par niveau scolaire, son score brut de 17 le situe dans
la classe 5 de ltalonnage normalis en 11 classes (manuel NNAT, tableau 5,
p. 71), cest--dire dans la classe centrale. Son score est donc, par rapport aux
lves de 6e , un score moyen.
Mais si cette fois on tient compte de son ge, partir de son score brut
on dtermine sa note dchelle : il obtient une note de 652 (manuel NNAT,
tableau 1, p. 55). On convertit ensuite cette note en indice NAI (Index dAptitude
Non verbale) pour obtenir un indice NAI de 87 (tableau 2, p. 60), cest--dire
presque un cart-type en dessous de la moyenne des lves de son ge.
Ce second type de comparaison, par rapport aux enfants de son ge, montre
alors un lve plus en difficult que lorsquon le compare aux lves de son
niveau de scolarisation. Cest sans doute encore plus visible lorsque lon tient
compte de son rang percentile : par rapport aux lves de 6e , il est situ au
percentile 47, cest--dire lgrement en dessous de la mdiane des lves de
6e (46 % des lves de 6e ont un score infrieur au sien), par contre par rapport
aux enfants de son ge (13 ans 12 ) il est situ cette fois au percentile 19, avec ici
seulement 18 % des enfants (de son ge) qui obtiennent un rsultat infrieur
au sien.
La mme illustration pourrait tre ralise, dans un sens diffrent cette fois,
avec un lve ayant une ou deux annes davance.
Nous voyons bien ici tout lintrt que peut prsenter cette double possibilit
de comparaison pour ces deux types dlves.
Pour interprter le score total il est important, selon nous, car aucun
conseil ne figure dans ce sens dans le manuel, de prendre en galement en
compte la rpartition des types ditems dans chaque forme de test.
Comme nous lavons dj indiqu, chaque forme ne comprend pas
obligatoirement les quatre clusters, et la rpartition entre les clusters est
diffrente selon les formes. La prise en compte de ces combinaisons
diffrentes ditems peut permettre de mieux estimer ce qui est valu plus
particulirement dans chaque version du NNAT. Ainsi, la version G (niveau
Lyce) avec 24 items de type SV, et seulement 7 items SR et 7 items RA,
comporte donc une forte majorit ditems qui reposent sur une logique
spatiale de rsolution (63 % des items de cette forme G sont des items de
type SV), tandis que la version D (niveau CE2/CM1), un peu plus quilibre
dans la rpartition des diffrents types ditems (6 items PC, 10 items RA,
8 items SR et 19 items SV) prsente de manire moins affirme cette
caractristique (cette version D ne comportant que 50 % de ces items SV).
Le praticien aura donc intrt analyser plus prcisment la rpartition
des items de la version quil utilise afin de mieux estimer ce qui est valu
plus spcifiquement dans le test utilis (la rpartition des items est indique
dans le manuel, tableau 2, p. 3).
230
231
3.
Les tests de type dominos sont assez bien connus des psychologues
franais. Rappelons que dans ces preuves il sagit de trouver les deux faces
dun domino qui vient continuer une srie propose. La figure 4.3 nous
prsente un exemple de ce type ditem.
Figure 4.3
Exemple ditem dun test de type dominos (ECPA).
Le sujet doit indiquer les valeurs du domino qui figure en traits pointills
et qui complte la srie propose.
232
1. Une autre cause de ces rnovations rgulires est la ncessit dtablir rgulirement des talonnages
rcents (effet Flynn).
233
234
Dans ce cas, le sujet peut sappuyer sur leur symtrie, rptition, inversion
etc. pour trouver la bonne rponse (Dickes et Martin, 1998, p. 35) ;
Les items numriques : il sagit ici dappliquer des rgles dincrmentation
entre les faces des dominos pour trouver la bonne rponse (par exemple :
ajouter 2 sur une face, retrancher 1 sur lautre face...)
1. Le test R2000 fait lobjet dune prsentation un peu plus loin.
235
par une rgle spatiale tandis que lautre face ncessite lapplication dune
rgle numrique ;
Les items arithmtiques : la solution est trouve ici par lapplication dune
rgle arithmtique simple (de type a + b = c) entre les faces de trois
dominos.
Les auteurs de cet article nous proposent alors une catgorisation des
22 items impairs de lpreuve D70 et observent, dune part, une forte
proportion ditems spatiaux (ils reprsentent 8 items, soit 36 % des 22 items
analyss) et, dautre part, des diffrences dans le niveau moyen de difficult :
les items spatiaux tant les plus faciles, les arithmtiques les plus difficiles.
Enfin, les mmes auteurs indiquent que cette caractristique du D70,
avec le caractre composite du score total1 , contribue la validit du D70
comme test de facteur g.
Dans le manuel du D70 il est bien spcifi que les items de ce test,
directement inspirs des items du D48, peuvent se diffrencier sur leur
logique de rsolution mais ces logiques ne sont pas mentionnes.
Dans le manuel du D2000 il est indiqu quune catgorisation des items a
t effectue lors de llaboration de lpreuve, avec dans la version provisoire
de 44 items la rpartition suivante : 21 items numriques, 9 items spatiaux,
8 de type mixte et 6 numriques2 (manuel D2000, p. 7). Mais aucun dtail
supplmentaire nest donn pour la version dfinitive comportant 40 items...
(voir plus loin nos propositions de catgorisation des items du D2000).
La standardisation
La passation
Les rgles de standardisation sont comparables pour les deux versions : il
sagit de tests collectifs de type papier/crayon (cahiers de passation et feuilles
de rponse).
1. Qui ne semble pas, pour les auteurs, remettre en cause lunidimensionnalit de la mesure.
2. Il semble quil y ait une erreur dans le manuel qui indique deux reprises des items numriques...
Nous supposons quil sagit ici de 6 items arithmtiques (voir manuel D2000, p. 7).
236
La cotation
La cotation est simple et rapide : on accorde 1 point par bonne rponse.
Il faut signaler que la bonne rponse correspond aux deux faces correctes
et quil ny a pas de points, ou de 12 point, si lune seulement des faces est
correcte.
Les scores bruts possibles peuvent donc varier de 0 44 points pour le
D70, et de 0 40 pour le D2000.
Les talonnages
Les talonnages disponibles dans les manuels nous renseignent sur le niveau
des sujets pour lesquels il est possible dutiliser ces tests.
Quelle que soit la version, on dispose dun nombre trs limit dtalonnages.
Pour le D70, un seul talonnage figure dans le manuel (page 17) : un
talonnage normalis en 11 classes valable pour la population adulte
partir de 18 ans et de niveau culturel BEPC (manuel D70, p. 16). Celui-ci
a t tabli dans les annes 1970, auprs dun chantillon de 623 adultes,
gs de 18 45 ans. Les valeurs caractristiques (moyennes et carts type)
sont indiques pour diffrents niveaux scolaires (du BEPC suprieur au
Bac).
Du fait de lanciennet de cet talonnage, il nous semble peu prudent
dutiliser cet talonnage (en particulier en raison de leffet Flynn : voir
chapitre 1 de ce livre).
Pour la version D2000 lchantillon dtalonnage regroupe 682 sujets,
gs de 18 ans plus de 55 ans. Il doit dater des annes 1999, mais aucune
date nest indique. On peut remarquer quil prsente un dsquilibre au
niveau du sexe (avec seulement 40 % dhommes), au niveau de lge (avec
53 % de sujets gs de 18 24 ans), au niveau du diplme (avec par exemple
29,2 % de niveau dtude Bac +3 Bac + 5) ainsi quau niveau de la
profession exerce.
Ces lments seront prendre en considration dans la phase dinterprtation des rsultats.
237
Attention !
Les auteurs du manuel conseillent dutiliser cet talonnage uniquement
dans les situations enjeux comparables (situation de concours...).
En effet, pour cet chantillon (N = 398), ils observent un niveau moyen
de russite plus lev que sur le reste de lchantillon dtalonnage (N =
682).
1. Except pour le test NNAT qui propose, comme nous lavons dj indiqu, le calcul de quatre
sous-scores.
238
Si le praticien souhaite effectuer une analyse plus fine des rponses du sujet,
il peut analyser le patron de rponse (pattern) du sujet. Cette approche peut
permettre, au psychologue comme au sujet, daller au-del de la simple interprtation du score global, de rechercher la comprhension de la performance
ralise par la prise en compte des items russis et des items chous. Elle
fournit galement des informations supplmentaires permettant denrichir
la restitution des rsultats, de faciliter la comprhension et lintgration des
rsultats par le sujet.
Pour procder cette analyse, nous pouvons nous rfrer aux premires
recherches de Dickes et Martin (1998) concernant la mise en vidence de
quatre types ditems dans ce type dpreuve (voir plus haut la prsentation
synthtique des principaux rsultats de cet article). Mais rappelons ici que
les donnes ne concernaient que la moiti des items de la version D70. Afin
de complter ces premiers travaux nous avons ralis une analyse plus large
portant cette fois sur lensemble du test D70 (les 44 items) ainsi que sur la
version D2000.
Lapproche que nous proposons ici a fait lobjet de plusieurs communications (voir en particulier Chartier, 2002b) et dun article de
239
240
Tableau 4.5
Proposition de catgorisation des 44 items du test D70.
Type ditem
Nombre ditems
Pourcentage ditem
Spatial
20
45,5 %
1-2-3-4-6-8-11-12-13-14-15-16-17-1819-23-31-32-41-44.
Numrique
12
27,3 %
5-7-10-21-22-29-34-35-36-39-40-42.
Arithmtique
6,7 %
37-38-43.
Mixte
20,5 %
9-20-24-25-26-27-28-30-33.
Total
44
100 %
1. Les constats sur les items arithmtiques mritent dtre nuancs car, dune part, ils sont situs en
fin dpreuves et tous les sujets ne les ont pas abords (du fait de la limite de temps), dautre part, le
sous-score arithmtique repose que sur un faible nombre ditems (3).
241
que nous avions utilises dans notre analyse du D70. Les rsultats de cette
analyse figurent dans le tableau 4.6.
Tableau 4.6
Proposition de catgorisation des 40 items du test D2000 (Chartier, 2008a).
Type ditem
Nombre ditems
Pourcentage
Spatial
22,5 %
2-9-10-12-14-30-32-35-40
Numrique
21
52,5 %
1-3-4-5-7-8-13-16-17-19-21-22-23-2425-26-27-28-29-31-34
Arithmtique
12,5 %
8-33-37-38-39
Mixte
12,5 %
6-11-15-20-36
Total
40
100 %
Le constat global est le suivant : la majorit des items de cette version D2000 relvent dune logique numrique (21 soit 52,5 % des items de
lpreuve), une plus faible proportion relve dune logique spatiale (9 items,
soit 22,5 %), et une proportion encore plus faible (12,5 %) pour les deux
autres logiques de rsolution.
242
de la version D70 : si le test D70 repose surtout sur des items ncessitant
des rgles spatiales de rsolution, la version D2000 repose plutt sur des
items qui ncessitent des rgles numriques. Bien que lon considre ces
deux versions comme proches, cette diffrence mrite notre attention ;
Pourquoi ne pas avoir profit de cette rnovation du test des dominos pour
quilibrer les diffrentes catgories ditems ? Ce qui aurait ventuellement
permis le calcul de quatre sous scores reposant chacun sur un nombre
suffisant ditems ;
On peut sinterroger sur la pertinence de placer la majorit des items
Arithmtiques en fin dpreuve du D2000 (les items 37, 38 et 39 soit
3 items sur 5) ce qui a comme consquence de limiter grandement le
nombre de sujets qui auront loccasion daborder ces items, par manque
de temps.
Recommandation
Ces deux sries dobservation, dune part la diversit des logiques de
rsolution des items, dautre part, le dsquilibre dans leur rpartition
selon les versions des tests (D70 et D2000), peuvent tre des informations
utiles au praticien.
En effet, elles lui permettent de mieux connatre ce qui est principalement
valu par chaque version du test et concourent alors amliorer les
donnes concernant la validit de ces tests. Elles permettent galement
didentifier les diffrentes logiques de rsolution qui doivent tre
appliques par le sujet tout au long de lpreuve et contribuent ainsi
lidentification des difficults rencontres par un sujet dans un item
particulier, ou dans une catgorie ditems.
Plus globalement, la dmarche danalyse des rponses que nous proposons
ici permet galement au praticien denrichir la phase de restitution des
rsultats qui reste centre trop souvent, sur ce type de test, autour de
linterprtation du seul score total. En effet, et ceci est valable plus
gnralement dans tout test de facteur g, il est souvent difficile de dpasser
le constat du seul score total car on sait que ce type dindicateur donne peu
dinformation sur les conditions de ralisation de la performance (Huteau et
Lautrey, 1999a ; Huteau, 2001 ; Lautrey, 2001). Cette dmarche danalyse
que nous proposons ici, qui se place plus globalement dans le cadre dune
243
Les versions D70 et D2000 que nous venons de prsenter sont considres
comme des tests mesurant le facteur g. Pourtant, sans remettre en question
cette considration, les donnes dtudes disponibles dans les manuels nous
semblent insuffisants. Il manque, par exemple, une tude de validit portant
sur les liaisons entre le D2000 et un autre test de facteur g (la faiblesse de la
seule tude prsente dans le manuel2 est dailleurs souligne par les auteurs :
voir page 24 du manuel D2000).
244
4.
Le test R85/R2000
Prsentation de lpreuve
245
Pour laborer la forme R2000 les auteurs sont partis de la forme R85 (qui
comporte 40 items) et ont labor 80 nouveaux items. Ces 120 items ont
t tests ( partir de 2 versions parallles) et 40 items ont t slectionns
pour la version dfinitive du R2000 : 15 items verbaux, 10 items mixtes et
15 items numriques.
Cette version dfinitive a t exprimente sur un chantillon de 625 sujets
adultes, de niveau minimum Bac, en situation professionnelle dvaluation
(recrutement, bilan, gestion de carrire...).
La sensibilit de lpreuve
Avec un score brut moyen de 15,12 points, soit un taux moyen de russite
de 37,8 %, nous pouvons constater la difficult de lpreuve. Cette difficult
est progressive avec 92,8 % de russite sur litem 1 et 9,8 % sur le dernier
item (voir table 3, p. 23 du manuel). La version R2000 est plus difficile que
la version R85.
Lcart type de 6,56 points tmoigne dun bon niveau de dispersion.
La fidlit
Lhomognit interne est value par le calcul de lalpha de Cronbach : la
valeur observe de .89 est satisfaisante.
246
Les corrlations items tests phi sont toutes significatives au seuil de .01,
et varient de .06 .47.
Lerreur-type de mesure est estime 2,13 points.
La validit
Concernant la validit, le manuel fait tat des rsultats de trois recherches :
Une comparaison avec le R85, sur un chantillon de 62 sujets, sur lequel
La passation
Le R2000 est un test de type papier/crayon, dans lequel le sujet rpond
directement sur le cahier de passation (1 feuille A4, pli en A5). Aprs les
6 exemples, la passation des 40 items de lpreuve se droule en temps limit
(20 minutes).
La cotation
La correction est rapide et seffectue laide dune grille. On accorde 1 point
par bonne rponse. Le score brut peut donc varier de 0 40 points.
247
Les talonnages
Lchantillon dtalonnage comporte 625 sujets adultes, gs de 18 54 ans.
Cet talonnage doit dater des annes 1999 mais aucune date nest indique.
Lchantillon comporte des dsquilibres par rapport au sexe, avec une
majorit de femme (elles reprsentent prs de 72 % de lchantillon), par
rapport lge, avec une majorit de sujets dans la classe 18-24 ans, ainsi
que par rapport au niveau scolaire. Mais seule la diffrence entre les sexes
est significative, avec des rsultats en faveur des hommes. Pour cette raison
les auteurs proposent un talonnage spar par sexe.
Au total quatre talonnages figurent dans le manuel. Il sagit dtalonnages
en 11 classes, quon suppose tre des talonnages normaliss (mais aucune
indication ce sujet ne figure dans le manuel) :
Aucune tude de cas ne figure dans le manuel (qui ne comporte que 31 pages).
Linterprtation des scores suivra ici la mme dmarche que celle propose
pour le D2000 : il sagira de situer prcisment le niveau de performance du
248
sujet dans ltalonnage le plus appropri (nous ne reprenons pas ici lexpos
de cette dmarche et renvoyons le lecteur vers la partie interprtation du
D2000).
Dans linterprtation de ce score il faudra bien entendu prendre en compte
les spcificits de lchantillon dtalonnage, qui sert de rfrence.
Conclusion sur le test R2000
Ce test R2000 est un test qui semble difficile et quil faut rserver aux
sujets de niveau dtude minimum Bac/Bac +2. Du fait de son niveau de
difficult, et du support vari, il peut susciter un niveau lev de stress lors
de la passation. Stress quil faudra ventuellement prendre en compte, par
exemple en questionnant le sujet dans la phase de restitution des rsultats.
Ce test prsente cependant lavantage de discriminer les sujets de haut
niveau de qualification (par exemple des ingnieurs). Il est rapide et facile
corriger.
Il mriterait cependant dtre accompagn dtalonnages spcifiques par
niveau dtudes et/ou professions.
5.
Le Culture Fair Intelligence test de Cattell, labor en 1940, est une des
tentatives de mesure de lintelligence fluide, indpendante de la culture
(culture free) ou encore culturellement quitable (culture fair). Lune des
249
Une version de 1986 est dite par les ECPA mais, selon Grgoire,
certaines qualits psychomtriques semblent un peu faibles (Grgoire, 2004,
p. 236).
Le BLS 4
Il sagit dun test assez ancien de Bonnardel, labor dans les annes 1950
et qui a t rnov en 2000 et diffus par les EAP. Bonnardel prsente
son preuve comme une preuve de facteur g et de potentiel intellectuel
(Thibaut, 2000). Dans cette preuve le sujet doit continuer une srie
propose.
MODLES
RPONSES
3
4
Figure 4.4
Exemple ditem de BLS 4.
Exemple
Dans cet exemple, le sujet doit slectionner la rponse (parmi 6 possibilits)
qui vient continuer le modle . Le BLS4 comporte 30 items de ce type.
250
3
1
Figure 4.5
Exemple ditem du B53.
Exemple
Le sujet doit indiquer ici quelle est la figure de droite, parmi les six possibilits,
qui doit continuer la srie propose.
Le B53 comporte 65 items de ce type (dont les 5 exemples), de diffrents
niveaux de difficult. Le temps de passation est limit (15 minutes).
La feuille de rponse, auto-corrective, permet une correction trs rapide.
Ce test est utilisable auprs dun public vari : du niveau BEP au niveau
Bac + 2 : 10 talonnages sont disponibles Enfin, on peut signaler que le
manuel est commun aux deux tests BLS4 et B53.
Le test RCC1
251
raisonnement identifies) ;
une analyse des erreurs.
CHAPITRE
5
Sommaire
1. La batterie NV7 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Page 255
2. La batterie NV5-R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Page 271
3. La batterie DAT 5 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Page 283
255
1.
La batterie NV7
Prsentation de lpreuve
La batterie NV7 est une cration franaise (Bernaud, Priou, Simonet) dite
en 1993 aux EAP.
Lobjectif des auteurs tait de crer une batterie multifactorielle dvaluation des aptitudes destine un public faiblement qualifi. Pour laborer
cette preuve, les auteurs ont slectionn un certain nombre de tests, diffuss
antrieurement, pour les runir sous forme dune batterie. La NV7 a t
dite en 1993 mais elle regroupe en ralit des tests beaucoup plus anciens,
256
257
1
A = exact
B = inexact
Figure 5.1
Exemple ditem du subtest Raisonnement dductif (R1).
(type de graphisme, images en noir et blanc) ce qui peut avoir un effet sur
la motivation du sujet, dautant plus quil sagit de la premire preuve
de la batterie ;
Le mode de rponse propos, choix entre la rponse A et la rponse B,
a comme inconvnient majeur de laisser une probabilit importante de
trouver la bonne rponse par le fait du hasard (50 %). Cela aurait pu
tre vit en demandant au sujet de produire lui-mme le classement des
images.
258
Figure 5.2
Exemple ditem de Raisonnement analogique.
Figure 5.3
Exemple ditem de Raisonnement pratique-technique.
259
Figure 5.4
Exemple ditem de lchelle Spatiale.
preuve de Problmes
Dans laquelle le sujet doit rsoudre de courts problmes arithmtiques,
prsents par un nonc de quelques phrases. Alors que les quatre oprations
mathmatiques lmentaires sont values plus prcisment dans une autre
preuve (Oprations) on cherche ici rendre compte de la capacit du
sujet appliquer des notions mathmatiques dans des situations-problmes.
Comme dans lexemple suivant, le sujet doit slectionner sa rponse parmi
5 possibilits. Exemple (fictif) ditem :
Exemple
Une corde de 39 m est coupe en trois parties gales. Quelle est la longueur
de chaque partie ?
1) A : 14 m
2) B : 12 m
3) C : 13 m
4) D : 23 m
5) E : 10 m
260
preuve dOprations
Vise explicitement sassurer de la matrise des quatre oprations de base :
addition, soustraction, division et multiplication. Pour chaque opration
prsente (49 items au total) le sujet doit slectionner ce quil considre
comme tant la bonne rponse (5 choix possibles). Temps limit de
10 minutes.
preuve dAttention
Consiste reprer si un mot, ou groupe de mots, a t correctement recopi.
On vise ici estimer les capacits dattention et de concentration. Le sujet
doit dcider si les deux sries sont identiques ou non.
Banque Mondiale
Banque Mondial
Lpreuve comporte 55 items (dont 2 items dexemple) rsoudre en
4 minutes. On peut noter ici la proportion leve de slectionner la bonne
rponse en se fiant uniquement au hasard (comme dans le subtest R1 : 50 %
de chance).
preuve dOrthographe
Comporte 55 items (dont 2 items dexemple). Le sujet doit indiquer si
chaque mot propos (de langage courant) est correctement orthographi.
Temps limit 4 minutes. On peut remarquer quon ne demande pas au
sujet dcrire lorthographe correcte du mot mais uniquement de slectionner
la rponse parmi 2 possibles, oui/correcte ou non/incorrecte.
261
Analyse de la sensibilit
Les auteurs sintressent ici au pouvoir discriminant des preuves. Les
donnes de 1993 nous indiquent un bon niveau de sensibilit (formes
gaussiennes des distributions globalement respectes et indicateurs de
dispersion satisfaisants) mais il faut tre attentif aux points suivants :
Le subtest Problmes est un peu trop difficile, avec seulement environ 30 %
Analyse de la fidlit
Deux mthodes ont t utilises pour rendre compte de lhomognit de
chaque preuve : la mthode pair-impair et lindice de Kuder-Richardson
(KR 20). Le tableau II du manuel (p. 30) nous en donne les valeurs1 .
1. Nous attirons lattention du lecteur sur le point suivant : ce tableau comporte des erreurs au niveau
de lintitul des colonnes : la colonne moyenne correspond en fait aux indicateurs des corrlations
pair-impair et la colonne cart type correspond aux valeurs des KR20 !
262
Analyse de la validit
Validit structurale
263
une partie des preuves de la NV7. Le tableau VI du manuel (p. 32) fournit
les diffrentes valeurs de saturation1 .
Lune des applications possibles de ces analyses est de donner des
indications concernant ici la construction dindices composites, cest--dire
dindices combinant diffrentes preuves. Les auteurs proposent deux
indicateurs composites, EIG et ES, directement relis ces facteurs
statistiques.
Le facteur 1, qui explique plus dun tiers de la variance totale, sature
264
Effets du sexe
La passation
La NV7 est une preuve de type papier-crayon. Le sujet dispose dun livret
de passation de 64 pages (format A4) dans lequel se trouvent les dix subtests
de lpreuve. Le psychologue dispose dun manuel qui runit lensemble des
consignes.
Rappelons que le psychologue peut dcider de ne faire passer quune
partie seulement des subtests. Chaque subtest se droule en temps limit
(certains subtests sont trs courts : 4 minutes, dautres plus longs : 10 minutes
maximum). Pour une passation complte de la batterie il faut compter une
dure minimum d1 heure 45 minutes, exemples compris.
Le sujet dispose dune feuille de rponse de type auto-scorable sur laquelle
il inscrira ses rponses en noircissant les cases correspondantes. Chaque
colonne correspond un subtest.
Recommandation
On peut noter ici que cette feuille nest pas trs attrayante pour le sujet
et quune erreur de retranscription est possible. Nous ne pouvons que
conseiller au praticien dtre trs attentif aux ventuelles erreurs ce
265
La cotation
La feuille de rponse de type auto-scorable permet une cotation rapide
du protocole du sujet (une correction automatise par lecture optique est
galement propose dans le manuel).
Aprs avoir dpli la feuille de rponse afin de faire apparatre les grilles
de cotation, on procde la correction : on attribue 1 point par rponse
correcte, puis on en effectue la somme par colonne afin dobtenir un score
brut pour chaque preuve.
On reporte ensuite ces dix scores bruts dans la colonne notes brutes
du tableau danalyse du profil.
En plus de ces dix scores, le praticien peut calculer les deux indicateurs EIG
(Efficience Intellectuelle Gnrale) et ES (Efficience Scolaire) partir des
formules suivantes (manuel, p. 12) :
Score brut EIG (Efficience Intellectuelle Gnrale) = R1 + R3 + R4 + Spatial
1. Voir par exemple les recommandations internationales dans lutilisation des tests, qui seront prsentes
et commentes dans le chapitre 8 de ce livre.
266
Enfin, le praticien peut galement calculer des indicateurs supplmentaires : un indicateur R de rapidit et un indicateur P de prcision, partir
des formules suivantes (manuel, p. 13) :
R = (nombre de rponses produites / nombre de rponses possibles) x 100
P = (nombre de bonnes rponses / nombre de rponses produites) x 100
Les talonnages
Au total, le praticien dispose de douze scores bruts : les dix scores aux subtests
et les deux scores composites ES et EIG.
Il dispose galement, pour chaque subtest, des scores bruts aux indices R
et P.
Chaque note brute doit tre transforme en note talonne afin de pouvoir
tre interprte.
Trois tudes dtalonnage sont prsentes dans le manuel :
Une tude de 1990-1991 ralise dans le cadre de bilans dorientation sur
267
Notes talonnes
Codage
Classe
Rpartition
thorique
4%
0
3
+
6
++
8
9
4%
Les auteurs proposent un guide danalyse des rsultats la NV7 trs utile
au praticien pour linterprtation et la restitution du test.
Ce guide comprend douze tapes allant de la connaissance pralable
du sujet la restitution des rsultats (manuel, p. 20 24). Les auteurs y
prcisent galement, pour chaque subtest, ce qui est plus spcifiquement
valu. Enfin, ils proposent huit tudes de cas (p. 24 28).
268
269
par exemple, les propres points forts dun sujet, cest--dire ses meilleurs
rsultats parmi les dix subtests).
270
Comme les auteurs lont souhait, la batterie NV7 est adapte une
population de faible niveau de qualification. Ses qualits mtriques sont
globalement satisfaisantes
Les indicateurs de la performance du sujet sont nombreux, dix scores
daptitudes et deux scores composites, et permettent une analyse assez
complte des aptitudes du sujet.
Le praticien dispose en outre de deux indicateurs, R et P, qui peuvent
apporter des informations utiles pour apprcier le fonctionnement de la
personne, informations gnralement ngliges dans les autres tests.
Le praticien trouvera dans le manuel un bon soutien mthodologique
linterprtation des rsultats, ainsi que des tudes de cas.
271
Cela en fait une batterie intressante pour les niveaux les plus faibles qui
mriterait dtre mise jour pour corriger les quelques erreurs et manques
du manuel ainsi que les aspects dsuets de certains subtests.
2.
La batterie NV5-R
Prsentation de la NV5-R
La batterie NV5-R est en partie inspire de la batterie NV7 mais elle est
destine des publics de niveau de qualification plus lev (au minimum
quivalent au niveau Baccalaurat). Elle est donc complmentaire, au regard
de la population cible, de la batterie NV7. Elle est adapte un public
dadolescents et dadultes
Cette batterie, diffuse en 2003 est une version rnove de la batterie NV5
de 1987. Comme la NV7, la NV5-R est compose dune combinaison de
tests anciens mais les auteurs indiquent que les sous-chelles (ou subtests)
ont t slectionnes en fonction dune thorie de rfrence : le modle
du Radex . Cette rfrence thorique est assez originale et mrite dtre
souligne. Rappelons que, daprs ce modle, les tests dintelligence peuvent
tre positionns dans un espace bidimensionnel avec en position centrale les
tests de facteur g. Une prsentation synthtique de ce modle est propose
dans Dickes et Martin (1998) qui nous empruntons la figure qui illustre
ce modle (voir figure 5.5).
Linterprtation de ce que mesure un test va alors dpendre de sa position
sur ce Radex, partir des principes suivants :
Plus le test est proche du centre de la figure, mieux il mesure (plus il
272
spcifique figuratif
spcifique verbal
FIGURATIF
COMPLEXIT
VERBAL
NUMRIQUE
spcifique numrique
Figure 5.5
Exemple de reprsentation dun espace bidimensionnel de type Radex
(daprs Dickes et Martin, 1998, p. 31).
273
8. Calcul,
9. Attention.
Comme pour la NV7, on peut remarquer ici que certaines preuves
valuent un raisonnement et/ou des aptitudes, alors que dautres preuves
relvent plutt de connaissances scolaires (comme par exemple Orthographe
ou Calcul).
Pour chaque preuve, ou subtest, on dispose de consignes et dtalonnages
spars, ce qui offre une souplesse dutilisation (le praticien, par exemple,
peut ne faire passer quune partie des preuves).
Enfin, comme nous allons le voir, certaines de ces preuves sont
directement issues de la NV7 avec parfois des modifications concernant les
temps de passation (afin sans doute de rendre les preuves plus difficiles1 .)
Dtaillons maintenant chacune de ces 9 preuves :
1. Le manuel de la NV5 R ne donne pas de prcisions ce sujet. Il nous semble pourtant important
que lorigine des items et/ou des subtests soient prcise.
274
preuve de Calcul
Cette preuve est directement issue de lpreuve Opration de la NV7 avec
ici 48 items rsoudre en 10 minutes.
1. Certains items semblent dailleurs largement inspirs du BV9 de Bonnardel, sans que les auteurs
le prcisent explicitement.
2. Comme pour tous les subtests issus de la NV7 nous renvoyons le lecteur aux exemples ditems
donns dans la partie prcdente (NV7).
275
preuve dAttention
Elle aussi est issue de la NV7 et comporte 52 items, avec un temps de
passation de 3 minutes.
preuve de Vocabulaire
preuve dOrthographe
Le sujet doit indiquer si le mot prsent est correctement orthographi.
Cette preuve comporte 54 items, rsoudre en 3 minutes. Il nest pas
demand au sujet dorthographier correctement le mot mais dindiquer si
le mot prsente, ou non, une erreur. Ici encore la probabilit de trouver la
bonne rponse au hasard nest pas ngligeable. Exemple ditems :
Le tiroire
276
Analyse de la sensibilit
Les taux moyens de russite des subtests varient entre 33 % (pour le
raisonnement pratique-technique) 77 % (pour le raisonnement inductif).
On observe donc une variabilit assez importante des subtests de la
batterie NV5-R : ils ne sont pas tous de mme niveau de difficult. Lanalyse
des dispersions montre que les scores bruts ne se rpartissent pas tous
selon une courbe gaussienne. Cest sans doute ce qui explique lutilisation
dtalonnages par dciles (voir plus loin).
Comme attendu, les taux de russite varient en fonction du niveau
dtudes.
Analyse de la fidlit
La fidlit est value partir de lindice dhomognit interne alpha de
Cronbach et de lindice KR 20. Les valeurs prises pour ces indices pour
chaque preuve figurent dans le tableau 5.2.
Tableau 5.2
Indices de fidlit interne de la NV5-R (daprs le manuel, p. 41-43).
Subtests
Alphas de
Cronbach
R.
gnral
R.
spatial
Comp.
verbale
Calcul
R.
pratique
R.
inductif
Attention
Voc.
Orth.
0,86
0,88
0,83
0,85
0,75
0,89
0,94
0,94
0,88
277
Lerreur standard de mesure est variable selon les subtests, mais il faut
signaler ici que le manuel fournit une estimation de cette erreur pour chaque
score possible dans certains subtests (voir tableau 12, p. 45 du manuel).
Analyse de la validit
Une analyse statistique de la validit structurelle de la NV5-R, permet de
situer les subtests sur une structure en Radex. Rappelons que ce modle
de rfrence (le radex) est assez peu utilis dans les tests, et sans doute peu
familier nombre de psychologues, mais que le manuel est bien document
ce sujet.
Les auteurs cherchent alors savoir si leurs donnes sont bien conformes
ce modle thorique. Par un traitement statistique particulier (analyse par
chelonnement multidimensionnel) on peut observer que la configuration
des subtests de la NV5-R est bien compatible avec le modle thorique
suppos. On observe, par exemple, un positionnement central de lpreuve
de Raisonnement gnral, et un positionnement dans la zone attendue pour
les preuves reposant plutt sur un contenu verbal.
Les subtests se rpartissent galement en fonction de leur niveau de
gnralit. Comme attendu, les tches les plus complexes apparaissent vers
le centre et les tches les plus spcifiques en priphrie. Les dtails de la
structure observe figurent dans le manuel (voir en particulier la figure 10,
p. 39). Ces donnes apportent des lments de validit interne de lpreuve.
Par contre, aucun lment dinformation ne nous est donn sur le niveau
des liaisons entre les diffrents subtests de la NV5- R.
Comme pour la NV7, aucun rsultat dexprimentations concernant la
validit prdictive de lpreuve ou encore la validit de chaque subtest avec
une autre preuve (validit concourante) nest malheureusement prsent
dans le manuel. Il serait par exemple pourtant utile de disposer de donnes
dtudes comparant les rsultats du subtest Raisonnement gnral avec ceux
dune preuve de type facteur g.
Recommandation
Nous signalons cependant un article postrieur au manuel (Thibaut et al.,
2005) qui apporte des lments dinformation sur les qualits prdictrices
de cette batterie NV5-R. Larticle prsente les rsultats dune recherche,
mene la demande dune entreprise, visant analyser lefficacit de
278
La passation
La NV5-R est une preuve de type papier-crayon, utilisable en individuel
ou en collectif.
Le matriel se compose dun manuel pour le psychologue (de 108 pages),
de cahiers de passation et de feuilles de rponse auto-scorables. Chaque
subtest se droule en temps limit (de 3 20 minutes selon les subtests) avec
au total un temps denviron 2 heures si le sujet passe toutes les preuves.
La feuille de rponse est organise comme celle de la NV7 : le sujet doit
inscrire ses rponses en noircissant les cases correspondantes sur une feuille
de rponse de type auto-scorable. Chaque colonne correspond un subtest.
Recommandation
Nous signalons, comme pour la NV7, que cette feuille nest pas trs
attrayante pour le sujet et quune erreur de retranscription est possible.
Nous ne pouvons que conseiller au praticien dtre trs attentif
lexactitude de lemplacement des rponses du sujet.
La cotation
Aprs avoir dpli la feuille de rponse afin de faire apparatre les grilles de
correction, on procde la cotation. On accorde 1 point par bonne rponse
(sauf cas particuliers1 signals dans le manuel). Le psychologue additionne
les points obtenus dans chaque subtest (chaque colonne) afin dtablir les
1. Il sagit ditems dans lesquels le sujet doit donner 2 rponses : on accordera alors 1 point si et
seulement si les 2 rponses sont correctes.
279
neuf scores bruts. Il reportera ensuite ces neuf scores bruts dans le tableau
Profil dtaill qui figure en haut de la feuille de profil.
Les talonnages
Ils permettent de transformer les scores bruts en notes talonnes. Le manuel
propose ici plusieurs talonnages :
un talonnage htrogne, sur lchantillon total de 632 sujets, avec trois
possibilits : total, garons, filles ;
des talonnages par niveau dtudes : niveau dtudes infrieur au
baccalaurat (139 sujets), gal au bac (258 sujets) et suprieur au Bac
(212 sujets). Par contre on ne dispose pas ici de donnes spares selon
le sexe.
Tous ces talonnages sont de type dcilage1 . Ce choix est expliqu par le
fait que les distributions des scores ne respectent pas suffisamment la courbe
de Gauss pour tablir des talonnages standardiss.
Recommandation
280
Recommandation
Attention pour le calcul des scores composites : il sagit bien ici dutiliser
les notes talonnes et non pas, comme dans le cas de la NV7, les scores
bruts.
Deux types de scores composites sont ici envisags :
les notes du profil daptitude,
les notes du profil cognitif.
Pour dterminer le profil daptitudes, on regroupe les preuves relevant
1. Profil daptitude
Aptitude gnrale : Raisonnement gnral.
Aptitude verbale : Comprhension verbale + vocabulaire + attention +
orthographe (et diviser cette somme par 4).
Aptitude spatiale : Raisonnement spatial + Raisonnement pratique
technique (et diviser cette somme par 2).
Aptitude numrique : Raisonnement inductif + calcul (et diviser cette
somme par 2).
281
2. Profil cognitif
Gnral : Raisonnement gnral.
Intermdiaire : Comprhension verbale + vocabulaire + Raisonnement
spatial + Raisonnement inductif (et diviser cette somme par 4).
Spcifique : attention + orthographe + Raisonnement pratique technique + calcul (et diviser cette somme par 4).
Rappelons que chaque note de profil est tablie partir des notes
talonnes des subtests. Par la division du total de ces notes on obtient alors
directement une note de profil talonne, comme les subtests, de 1 10.
Au final, le praticien peut disposer des indicateurs talonns suivants :
9 notes de subtests ;
4 notes du profil daptitudes : aptitude gnrale, aptitude verbale, aptitude
spatiale et aptitude numrique ;
3 notes du profil cognitif : gnral, intermdiaire et spcifique.
282
praticien trouvera dans le manuel des informations sur ce qui est valu plus
prcisment dans chaque subtest (p. 71 75).
Lanalyse des neuf subtests permet de dresser le profil du sujet, de
cerner ses points forts et ses points faibles. On procdera, comme pour la
NV7, une analyse interindividuelle (comment se situent les neufs scores
dun sujet par rapport ltalonnage ?) mais galement intra-individuelle
(reprer, par exemple, ses points forts, cest--dire ses meilleurs rsultats
parmi les neuf subtests).
Lanalyse du profil daptitudes prend la forme, assez classique, dune
interprtation des rsultats du sujet en fonction de trois domaines :
aptitude verbale, aptitude spatiale et aptitude numrique. La note
daptitude gnrale, compose, rappelons-le, uniquement du subtest
Raisonnement gnral, peut tre considre comme lexpression du niveau
de facteur g.
Le psychologue pourra cette tape faire des liens entre le profil daptitudes
du sujet et ses projets de formation et/ou ses projets professionnels, dans
la mme logique dinterprtation des rsultats que celle expose dans la
prsentation de la batterie NV7.
Pour lanalyse du profil cognitif, linterprtation des scores doit se faire
en relation avec la thorie de rfrence : le modle en Radex.
La note gnrale, qui correspond en fait la note daptitude gnrale du
profil daptitudes, est ici interprte comme lindicateur des capacits du
sujet rsoudre des tches gnrales (que lon peut retrouver dans un
grand nombre de situations) et complexes.
La note intermdiaire va rendre compte des capacits du sujet face
des tches un peu moins complexes. Enfin, la note spcifique est relative
aux tches spcifiques, relativement simples, le plus souvent rduites
lapplication de rgles.
Les quatre tudes de cas prsentes dans le manuel permettent dillustrer
les grandes lignes dinterprtation des rsultats selon les diffrents niveaux
danalyse (subtests ; profil aptitudes ; profil cognitif).
Le psychologue pourra ventuellement analyser les rsultats du sujet en
rfrence aux profils de rponse caractristiques de quatre groupes de sujets
identifis dans le manuel (voir p. 48 56). En ce qui nous concerne, nous
ne trouvons quun intrt relatif cette possibilit de comparaison.
283
La batterie NV5-R est une batterie assez difficile, adapte des sujets de
niveau minimum Baccalaurat.
Elle regroupe des subtests assez varis et comprend une mesure fiable de
lintelligence gnrale (ou facteur g) par le subtest Raisonnement gnral. Le
psychologue peut dailleurs, sil le souhaite, nutiliser dans un premier temps,
que ce subtest, afin dtablir une estimation du niveau gnral du sujet. Puis,
par la suite et en fonction des besoins, utiliser les autres subtests de lpreuve.
Cette batterie permet dobtenir neuf scores, reprsentatifs de neuf
aptitudes distinctes, ainsi que des indices composites, certains assez classiques
(les quatre scores du profil daptitudes), dautres plus originaux (les trois
scores du profil cognitif).
Lune des spcificits de la NV5-R est quelle repose sur un modle
thorique assez peu utilis en psychomtrie : le modle en Radex. Ce modle,
largement dvelopp dans le manuel, permet de caractriser le sujet par son
profil cognitif. Cette possibilit dinterprtation des scores vient sajouter
linterprtation classique en terme daptitudes.
Le manuel gagnerait tre complt dtudes concernant la validit
prdictive de la batterie (mais comme nous lavons indiqu le lecteur pourra
consulter larticle de Thibaut et al., 2005). Il fournit, par contre, des
indications pertinentes ainsi que des tudes de cas apportant une aide utile
dans linterprtation des rsultats.
3.
La batterie DAT 5
Prsentation
La batterie DAT 5 (Differential Aptitude Tests : Tests Diffrentiels dAptitudes) est issue de lpreuve DAT qui a t publie la premire fois en 1947
aux tats-Unis. Cette 5e dition DAT5 est la version franaise de la dernire
rvision de lpreuve, dite aux tats-Unis en 1990, et adapte en France
par les ECPA dans les annes 1998-2000, avec une diffusion en 2002. Cest
une preuve trs utilise aux tats-Unis.
Avant la publication de cette dernire version nous ne disposions en
France que de la premire version de 1974.
284
1. Sternberg a propos une analyse (composantielle) de ce type de tche (Huteau & Lautrey, 1999,
p. 214).
285
Rponse B : chien...miauler
Rponse C : chien...griffer
Rponse D : chien...chaton
Rponse E : se rfugier...griffer
Rponses
Figure 5.6
Exemple ditem de Raisonnement Abstrait.
286
(manuel DAT 5, p. 5). Tout en tant des preuves indpendantes, elles sont
regroupes dans un mme cahier de passation. Elles constituent le noyau
central de la DAT 5 et permettent dvaluer les capacits de raisonnement
partir de trois types de support : verbal, numrique et non verbal.
Les autres preuves de la DAT 5 valuent des aspects de lintelligence
considrs comme plus spcifiques (le raisonnement mcanique, laptitude
spatiale et la vitesse de perception) ou des aspects plus lis aux connaissances
en Franais (Orthographe et Grammaire).
Les huit preuves de la DAT 5 ne se situent donc pas sur le mme plan
par rapport limportance des aptitudes values.
Les autres preuves de la DAT 5
Figure 5.7
Exemple ditem du subtest Relations Spatiales.
287
Lpreuve dOrthographe
Cette preuve consiste reprer le mot qui est crit de faon incorrecte parmi
quatre mots prsents. Il sagit dvaluer les connaissances orthographiques
partir de mots franais assez courants. Cette preuve comporte 30 items
rsoudre en 8 minutes. Exemple ditem :
A : papier
B : soleille
C : chaise
D : agrable
Lpreuve de Grammaire
Ici le sujet doit indiquer dans quelle partie dune phrase se trouvent
ventuellement des fautes de grammaire, de conjugaison ou de majuscule. Il
ne sagit pas de corriger ces fautes mais uniquement dindiquer lendroit o
elle est situe (ou indiquer labsence derreur). Lpreuve comporte 30 items
rsoudre en 12 minutes. Exemple ditem :
Nous serat-il / possible daller / travailler la / semaine prochaine.
A
B
C
D
288
289
Subtests de la DAT 5
Forme dfinitive
amricaine
Forme
exprimentale
franaise
Forme dfinitive
franaise
Raisonnement Verbal
40
50
25
Raisonnement Numrique
40
60
25
Raisonnement Abstrait
40
45
25
Relations Spatiales
50
55
30
Raisonnement Mcanique
60
67
30
Orthographe
40
60
30
Grammaire
40
60
30
Analyse de la sensibilit
290
Analyse de la fidlit
Sur lchantillon scolaire
Les indicateurs alpha de Cronbach varient de .74 .96 selon les subtests, ce
qui tmoigne dun niveau global satisfaisant dhomognit interne.
La fidlit test-retest a t estime partir dun chantillon dlves
de 3e . Les coefficients de corrlation varient entre .56 et .86 selon les
subtests. Certaines valeurs sont donc un peu faibles (Vitesse de prcision .56
et Raisonnement Abstrait .58).
Signalons que les valeurs caractristiques (moyennes, cart-type), les
coefficients alpha de Cronbach, ainsi que les erreurs de mesure figurent,
pour chaque niveau scolaire, en annexe du manuel.
Sur lchantillon adulte
Analyse de la validit
Sur lchantillon scolaire
291
Tableau 5.4
Corrlations entre les subtests de la DAT et les subtests de la DAT 5.
Raisonnement Verbal
.77
Raisonnement Numrique
.43
Raisonnement Abstrait
.45
Relations Spatiales
.55
Raisonnement Mcanique
.71
Orthographe
.65
Grammaire
.50
Certaines corrlations obtenues ne sont pas aussi leves que ce que lon
pouvait attendre. (manuel DAT 5, p. 59).
Les auteurs du manuel proposent une explication qui repose sur les
volutions temporelles entre les deux versions au niveau du contenu des
items et des chantillons. Sans vouloir ngliger ces explications, la faiblesse
de certaines corrlations (par exemple,.45 pour le Raisonnement Abstrait)
devrait amener les auteurs envisager une autre exprimentation sur un
chantillon plus vaste de sujets.
Enfin une dernire tude de validit, validit critrie, porte sur les
liaisons entre DAT5 et rsultats scolaires. partir des moyennes annuelles
en mathmatiques et en franais dlves de 3e , on observe des valeurs
satisfaisantes : .54 entre le Franais et le Raisonnement Verbal (R.V) et .63
entre les mathmatiques et le Raisonnement Abstrait (R.A). Une valeur plus
leve (.68) est obtenue, comme ctait dj le cas dans la version amricaine,
entre deux scores composites : un indicateur RV + RN et un indicateur
composite scolaire (Franais + Mathmatiques). Toutes ces valeurs indiquent
un bon niveau de validit prdictive de la batterie DAT5.
Sur lchantillon adulte
Une seule tude porte sur cet chantillon. Elle concerne lanalyse interne
des intercorrlations. On observe ici des variations un peu moins leves
que celles observes sur lchantillon scolaire avec des valeurs de .15 (entre
Relations Spatiales et Orthographe) .62 (entre Orthographe et Grammaire),
mais on retrouve globalement le mme patron de rsultats (par exemple des
valeurs autour de .55 entre les trois principales preuves de raisonnement).
292
La standardisation
La passation
Le matriel DAT 5 se compose dun manuel (81 pages), de livrets de
passation et de grilles de cotation. Il ny a pas de feuille de passation (except
pour lpreuve de Vitesse de Perception) : le sujet rpond directement sur le
cahier de passation.
Le matriel est de type papier-crayon, destin une utilisation collective
mais bien entendu, comme tout test collectif, une utilisation en individuelle
est possible.
Les huit preuves sont organises en cinq cahiers : le cahier 1 regroupe les
trois aptitudes principales (Raisonnement Verbal, Numrique et Abstrait),
les subtests Orthographe et Grammaire sont regroupes dans le cahier 2, les
autres aptitudes tant sur des cahiers spars. Les consignes et les exemples
de chaque preuve figurent au dbut des cahiers de passation.
Sont indiqus galement au sujet le nombre dexercices (ditems) et le
temps de passation. Les temps varient de 6 minutes (VPP) 20 minutes
selon les preuves.
La cotation
La cotation est trs rapide : elle seffectue partir de grilles de correction
transparentes que lon superpose aux rponses des sujets. On attribue 1 point
pour chaque bonne rponse afin dobtenir un score brut pour chaque subtest
valu.
Le psychologue peut galement additionner le score brut Raisonnement
Verbal et le score brut Raisonnement Numrique pour obtenir un score
composite (RV + RN). Au total, le sujet peut donc tre caractris par neuf
scores.
Les talonnages
Les talonnages comportent onze classes (de 0 10). Aucune indication
nest cependant fournie concernant le type dtalonnage qui a t utilis. Par
dduction on suppose quil sagit dun talonnage normalis en 11 classes,
mais cest au psychologue de le dcouvrir !
Rappelons quil existe deux types dtalonnages (les talonnages normaliss
et les talonnages par quantilage), et quil est ncessaire de connatre le
293
type dtalonnage qui est propos dans le manuel afin dviter des erreurs
dinterprtation (voir chapitre 2 de ce livre si ncessaire).
Les auteurs nindiquent pas non plus les proportions thoriques de sujets
de chaque classe, ce qui ne facilite pas la tche du praticien. Rappelons que
dans ce type dtalonnage la classe centrale (ici la classe 5) regroupe toujours
leffectif les plus important (ici 15,9 %), avec une diminution progressive
de la proportion de sujets au fur et mesure que lon se dplace vers les
classes extrmes, avec par exemple ici1 14,6 % dans la classe 4 (ou 3) mais
3,6 % dans la classe 10 (ou 0).
Les talonnages portent sur deux types de population, adolescents
scolariss et adultes, avec distinction entre plusieurs niveaux de formation :
Concernant les talonnages adolescents , quatre niveaux scolaires sont
294
295
296
Dans le cadre dune pratique de conseil, mais dans une moindre mesure,
dans le cadre dune pratique de slection, il ne sagit pas, comme nous
lavons dj signal propos des autres batteries, de rechercher une parfaite
adquation entre le profil du sujet et les activits professionnelles exerces
et/ou envisages, mais plutt daider le sujet prendre conscience des
ventuels dcalages qui peuvent exister entre son projet professionnel et
lestimation de ses aptitudes. Ces dcalages pouvant dailleurs faire lobjet
dchanges avec le sujet lors de la procdure de restitution des rsultats.
Conclusion sur la DAT5
TROISIME PARTIE
CHAPITRE
6
De la mesure
des performances
lanalyse des stratgies
Sommaire
1. La notion de stratgie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Page 302
2. Vicariance et affordance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Page 305
Page 307
Page 311
301
Cette approche peut tre qualifie de cognitivo-diffrentielle . Elle prsente de nombreux points communs avec, dune part, lapproche intgrative1
propose par dautres chercheurs (Rozencwajg, 2005 et 2003), et, dautre
part, avec lapproche du diagnostic cognitif2 (Richard, 1996). Lobjectif de
cette approche nest donc plus de diffrencier les sujets (uniquement) sur leur
niveau de performance mais de les caractriser galement sur les modalits de
ralisation de cette performance, sur la singularit de leur fonctionnement
cognitif, et plus prcisment, comme nous allons le prsenter ensuite, sur
leur(s) stratgie(s) de rsolution.
1. Lapproche intgrative consiste identifier les diffrents aspects du fonctionnement au sein de tches
complexes par lidentification des stratgies de rsolution. Ces stratgies, qualitativement diffrentes, sont
rvlatrices de fonctionnements individuels diffrents. (Rozencwajg, 2005, p. 105).
2. Le diagnostic se rattache une approche diffrentielle de ltude des processus cognitifs.
(Richard, 1996, p. 4).
302
1.
La notion de stratgie
303
Cette diversit, aussi bien au niveau des processus mentaux que des
stratgies, permet alors des individus diffrents dutiliser des moyens
diffrents dans la rsolution dune mme tche :
Des composantes ou processus diffrents peuvent tre mis en uvre par
des stratgies diffrentes permettant toutes de rsoudre le problme pos.
(Reuchlin et Bacher, 1989, p. 136)
304
Enfin, distinguer les sujets sur des diffrences de stratgies, sur des
diffrences de processus, cest les diffrencier sur des variables qualitatives :
Nous rservons lexpression diffrences de stratgie des diffrences
qualitatives dans la nature des processus mobiliss pour rsoudre un mme
problme. (Huteau et Lautrey, 1999a, p. 232)
305
Plus de 70 ans plus tard, en relisant ces propositions nous pourrions nous
demander si les principes de lanalyse cognitivo-diffrentielle ntaient pas
dj noncs par Kreutz en 1934, mme si nous ne reprenons pas notre
compte toutes ses conclusions.
2.
Vicariance et affordance
Dans un article de 1978, Maurice Reuchlin prsente avec le modle de la
vicariance, un cadre conceptuel visant expliquer les diffrences individuelles.
Il propose de considrer quun mme individu dispose de plusieurs processus
vicariants (processus pouvant se substituer les uns aux autres) pour laborer
sa rponse et sadapter une situation. Chaque sujet disposerait ainsi dun
rpertoire1 intra-individuel de processus vicariants. Le recours tel ou tel
processus pourrait varier selon les individus certains de ces processus tant
plus vocables chez un individu donn ce qui permettrait dexpliquer les
diffrences interindividuelles observes au niveau de la performance, tous les
processus ntant pas quivalents en terme defficacit. Ainsi les individus
pourraient tre diffrencis sur leur hirarchie dvocabilit des processus, en
raison de la diversit gntique interindividuelle et la diversit des histoires
individuelles (Reuchlin, 1978, p. 135).
Cette pluralit de processus permet alors au sujet de sadapter diffrentes
situations : les processus mis en uvre par un mme sujet pouvant tre
diffrents dans des situations diffrentes. Pour Reuchlin il sagit dun modle
probabiliste, qui pourrait tre formalis ainsi : pour un individu I plac
dans une situation S, le processus P a une certaine probabilit dtre voqu ,
et qui distingue deux types de paramtres : individuels et situationnels.
Pour les paramtres individuels, Reuchlin envisage lexistence dune
certaine stabilit dans le fonctionnement :
Il se trouve, pour des raisons encore mal dfinies, que chaque individu,
mme sil dispose potentiellement de tout le rpertoire procdural
1. On trouve aussi dans la littrature le terme catalogue .
306
307
Les recherches dOhlmann vont alors porter principalement sur ces interactions individu-situation dans la cognition spatiale, et plus prcisment sur
lanalyse des conduites posturales et des situations de conflit vision/posture
(Ohlmann, 1990a, 1990b, 1991, 1995, 2000).
3.
stratgies possibles), ;
Slectionner les indicateurs pertinents pour chacune de ces stratgies ;
laborer un dispositif adapt de recueil de donnes.
Nous avons vu prcdemment que, ds 1934, Kreutz proposait dobserver
les diffrents modes de rsolution des items de test. Il envisageait alors trois
possibilits mthodologiques :
1 Recourir lintrospection ;
308
diffrents ;
Des patrons identiques peuvent traduire des traitements diffrents.
partir danalyses de rsultats de recherches, ces auteurs nous indiquent
bien que ce type dindicateur nest pas toujours valide.
309
Cette mthode, qui consiste suivre pas pas la dmarche du sujet dans
la rsolution du problme, a t trs utilise pour ltude de la rsolution
ditems de tests. Plusieurs mthodes de recueil des donnes sont utilisables :
ltude des mouvements oculaires ;
lenregistrement vido ;
lautomatisation du recueil des variables.
Nous prsentons quelques recherches qui illustrent ces diffrentes
mthodologies.
310
311
4.
Lpreuve des cubes de Kohs est une preuve trs connue des psychologues.
Rappelons quelle a donn lieu de multiples versions et de nombreuses
recherches (Chartier, 2002a). Nous nous intresserons tout particulirement
dans cette partie aux donnes concernant lanalyse des stratgies de
rsolution.
Wechsler, qui avait introduit un subtest cubes ds les premires versions
de ses chelles dintelligence, notait ds 1944 (Wechsler, 1956 pour la
1. Items permettant lutilisation des deux stratgies (soit lune, soit lautre) pour arriver la bonne
rponse.
312
traduction franaise) quil existait une liaison entre la faon dont les sujets
se reprsentaient le modle et le niveau de russite lpreuve :
Assez curieusement, les individus russissant le mieux ce test ne sont pas
ceux qui voient, ou tout au moins suivent, le modle comme un tout, mais
ceux qui sont capables de le fractionner en petites portions. (Wechsler,
1956, p. 113)
313
314
315
Une procdure dans laquelle les sujets positionnent directement les faces
316
Gestalt
lmentaire :
la bande
Gestalt
complexe :
le losange
Gestalt
complexe :
le bande
Modle a
Modle b
Modle c
Modle d
Figure 6.1
Les formes gomtriques lmentaires (gestalts) identifies par Rozencwajg (daprs
Rozencwajg, 2005, figure 10, p. 145) reproduit avec laimable autorisation de lauteur.
317
318
Cette rptition de faces, critre de redondance intra-figurale (caractristique descriptive des modles de cubes dj tudie dans le cadre de lanalyse
de la difficult de la tche) serait alors support dun mode de rsolution
spcifique, ventuellement automatis. Les rsultats indiquent aussi que
cette stratgie de rptition nest pas observe chez tous les sujets et que son
utilisation nest pas lie aux aptitudes cognitives. Nanmoins, lexistence de
cette quatrime stratgie mriterait dtre confirme par dautres recherches.
Le logiciel SAMUEL de Rozencwajg
319
Figure 6.2
Prsentation de la situation du test SAMUEL (daprs Rozencwajg, 2005, figure 11,
p. 148) reproduit avec laimable autorisation de lauteur.
320
Anticipation
Frquence des
regards
Ordre de construction
par gestalts
Ordre de
construction
linaire
Stratgie
Synthtique
0.20
Stratgie
Analytique
0.40
0.50
0.50
0.50
0.50
Stratgie
Globale
1. Bien quil nexiste pas, notre connaissance, dtudes comparatives sur lutilisation des mmes
stratgies, par les mmes sujets, dans les deux situations.
321
322
323
La cotation
La cotation est effectue par le logiciel. Plusieurs variables sont mesures pour
chaque item : russite, temps de rsolution, frquence des regards, temps de
regard total, temps de regard moyen, indices stratgitaires (segmentation,
anticipation, ordre de placement). partir des modles thoriques des trois
stratgies (voir plus haut) le sujet est catgoris pour chaque item dans la
stratgie la plus proche de son profil. Le logiciel dtermine galement, sur
lensemble des 4 items, la stratgie dominante (ou prfrentielle) de chaque
sujet.
Les talonnages
Le manuel comporte des indications sur six classes dge : 9, 11, 13, 15, 17
et 25 ans. Pour chacune de ces classes on dispose de donnes descriptives
concernant les variables prcites (moyenne, cart-type, mini, maxi).
Pour les rsultats talonns, ils sont organiss selon deux possibilits : par
groupe dge (les six classes) et par stratgies. Il sagit dtalonnages deffectifs
gaux (cinq classes comportant chacune 20 % de lchantillon).
sur sa stratgie dominante et sur ses rsultats obtenus sur les diffrentes
variables mesures, comparativement aux sujets du mme groupe dge ;
Lanalyse de la variabilit intra-individuelle, dans laquelle lattention sera
porte ici sur les volutions ventuelles de la stratgie utilise par le sujet
travers les quatre items (stabilit ou flexibilit ; apprentissage en cours
dpreuve...).
Les tudes de cas du manuel reposent sur lanalyse des protocoles de
12 sujets, avec confrontation des indices de SAMUEL avec des rsultats
lchelle de Wechsler dintelligence (version WAIS) et des informations
recueillies lors dentretiens.
Le praticien dispose aussi du second logiciel, SAMUEL-Diagnostic, sur
lequel sont enregistres toutes les actions effectues par le sujet.
324
325
1. De manire lui viter davoir raliser une nouvelle demande de consultation visuelle du modle.
2. Un lien est possible ici avec des variables conatives : par exemple, on peut envisager quun sujet
plus anxieux va vrifier plus souvent le modle quun autre sujet utilisant pourtant la mme stratgie...
326
CHAPITRE
7
Lvaluation dynamique
Sommaire
Page 329
Page 330
Page 331
Page 336
Page 341
Page 346
Page 352
8. Prsentation dpreuves . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Page 354
Page 363
A
1.
329
il y a une vingtaine dannes dans le paysage de la psychomtrie, lvaluation dynamique a t prsente (cf. Brown &
French, 1979 ; Sternberg, 1985 ; Lidz, 1987) comme innovante
et susceptible de renouveler les pratiques de diagnostic cognitif.
De quoi sagit-il et quelles mthodes existe-t-il ?
PPARUE
Dfinition
330
Lvaluation dynamique
2.
331
values lors dune premire passation tout fait classique. Vient ensuite
une session dapprentissage au cours de laquelle des explications sur la
manire de rsoudre les problmes poss et sur la faon dviter les erreurs
quils ont commises lors du test sont fournies aux sujets. Une seconde
passation de la mme preuve ou dune version parallle de la premire
preuve est ensuite propose. Le progrs du sujet entre le test et le retest
donnera la mesure de son potentiel dapprentissage.
Dans la procdure Aide au Cours du Test (ACT), la passation est unique
et individuelle. Les aides sont fournies au sujet en cours de passation,
chaque item chou. Le plus souvent ces aides sont standardises et
hirarchises, permettant loprateur de donner dabord des indices
minimaux puis de les enrichir progressivement si ncessaire. La mesure
du potentiel dapprentissage tient alors compte de la quantit et de la
nature des aides fournies et des russites qui en dcoulent.
Prsentation schmatique des 2 procdures
Procdure
Test
Indicateurs Score
Apprentissage
Retest
test
Score retest
Procdure
Item 1
si chec
aide 1
si russite
si russite
Item 2
Item 2
si chec
aide 2
etc
Indicateurs
Figure 7.1
Prsentation des deux procdures.
3.
332
Lvaluation dynamique
lintelligence que celui fourni par les tests conventionnels mais nen serait
pas de nature trs diffrente ;
La seconde : le potentiel dapprentissage recouvrirait strictement la notion
de Zone Proximale de Dveloppement de Vygotski et se dmarquerait
donc de lintelligence value par les tests statiques ;
La troisime : dfendue par Feuerstein qui dcrit sous le terme de
modifiabilit cognitive , une entit la fois distincte de la ZPD de
Vygotski et de lintelligence classiquement value.
30 A
erreurs
20
10
D
E
0
10
20
30
40
50
60 essais
Figure 7.2
Les tests de plateaux dAndr Rey.
333
Cette premire conception est partage par les auteurs qui, comme Andr
Rey, estiment que les tests classiques ne disent rien sur les conditions dans
lesquelles ont t raliss les apprentissages antrieurs permettant de les
russir, et qui pensent que lon peut obtenir une meilleure mesure du
potentiel de lindividu en lvaluant dans une situation dapprentissage dont
on contrle les paramtres.
Cest la position dfendue par Milton Budoff et ses collaborateurs (Budoff,
1987 ; Budoff et Corman, 1974 ; Budoff et Hamilton, 1976) dont la
figure 7.3 illustre le modle.
Test defficience
Gagnants
Scores levs
Test dapprentissage
Non gagnants
Figure 7.3
Modle de Budoff (daprs Loarer, 2001).
334
Lvaluation dynamique
335
Rubtsov, 1981) mais aussi aux tats-Unis (Brown, & French, 1979 ;
Campione & Brown, 1987 ; Rogoff & Wertsch, 1984 ; Wertsch et Tulviste,
1992). Pour ces auteurs, le potentiel dapprentissage est diffrent de
lintelligence classiquement value. Ainsi, par exemple, la conception de la
complmentarit des mesures statiques et dynamiques apparat clairement
dans une recherche mene par Campione & Brown (1987). Les auteurs ont
ralis auprs denfants dge prscolaire une tude sur la validit prdictive
dun test de QI (le WPPSI) et dun test de potentiel dapprentissage
(procdure T-A-R des Matrices de Raven). Intgrant dans une rgression
multiple comme critre le score de gain rsiduel au test dapprentissage et,
comme prdicteurs, le nombre daides dans ce test et le score de QI au
WPPSI, ils concluent que les deux scores ne se confondent pas, puisque
chacun explique une fraction diffrente de la variance des scores de gain.
De mme, Guthke et collaborateurs qui ont dvelopp Leipzig depuis
le milieu des annes soixante des travaux sur les tests dapprentissage ,
proposent de sparer (Guthke, 1980 cit par Guthke, 1992) ce quils
appellent lintellectual status que lon pourrait traduire par statut (ou
tat) intellectuel et ce quils appellent le potentiel intellectuel (intellectual
potential).
336
Lvaluation dynamique
4.
337
338
Lvaluation dynamique
Les tests daptitudes classiques sont frquemment utiliss en bilan dorientation pour pronostiquer la russite scolaire ou ladaptation des formations
professionnelles. Ils remplissent dailleurs assez bien cette fonction. Dans
ce cas, le pronostic des acquisitions futures est fait laune du niveau des
acquisitions antrieures, et donc du constat actuel. Pourtant, nombreux
sont les auteurs qui critiquent cette dmarche (e.g. Wagner & Sternberg,
1984) et certains considrent plus valide pour diagnostiquer les capacits
dapprentissage dune personne de la placer directement en situation relle
dapprentissage. Le pronostic dapprentissage nest plus alors fond sur un
chantillon de performances mais sur un chantillon dapprentissage. Cette
recherche dune meilleure homognit de contenu entre la variable observe
et la variable prdite est de mme nature que celle qui motivait les expriences
menes dans les annes vingt (dcrites par Caroll, 1962, cit par Hurtig,
1995) o lon faisait apprendre aux enfants des langues artificielles pour
estimer leur aptitude lapprentissage des langues trangres. La dmarche
est galement dans lesprit des tests in basket qui consistent prlever un
chantillon de la situation pour laquelle on cherche prdire ladaptation
339
340
Lvaluation dynamique
341
5.
342
Lvaluation dynamique
peuvent dpendre de lapprciation du psychologue, ce qui rend alors la procdure peut standardisable et destine lpreuve uniquement au cadre dune
intervention clinique. Dans ce cadre, on ne pourra attendre de lpreuve
quelle prsente les qualits mtrologiques classiquement attendues dun test.
Certains auteurs ont souhait standardiser la procdure dintroduction
des aides ainsi que la nature mme de ces aides. Cest le cas de lpreuve
de Ionescu prsente ci-dessous. Nanmoins, mme dans ce cas, plusieurs
problmes mthodologiques demeurent. Nous citerons en particulier la
difficult interprter les indices de performance. Par exemple, le nombre
de russites conscutives une aide, indice qui peut reflter la capacit du
sujet tirer profit de laide (et donc son potentiel dapprentissage ), est
fortement dpendant du nombre daides fournies et donc du niveau initial
de russite aux items. Il faut chouer litem pour se voir proposer laide
correspondante. Le potentiel dapprentissage devient alors artificiellement
corrl ngativement avec le niveau de russite initiale. Le calcul dun rapport
aide russie/aide fournie ne rsout que trs partiellement le problme.
Par ailleurs, les aides tant fournies en cours dpreuve, le score de russite
spontane un item inclut les effets des aides ventuellement donnes aux
items prcdents. Cette procdure ne permet donc pas de disposer dune
mesure trs pure du niveau initial du sujet. Enfin, cette procdure ne peut
que trs difficilement aboutir des mesures fidles. Cest ce que dmontrent
de nombreuses tudes. Cette faiblesse de fidlit peut en particulier tenir au
fait que les scores daides ne se distribuent souvent pas normalement, ce qui
affecte le calcul de coefficients de fidlit.
Compte tenu de ces difficults nous recommandons de rserver le recours
cette procdure une approche clinique de lvaluation, notamment
lorsquil sagit de dtecter un potentiel individuel apprendre, sans que
lon ait le souci dune comparaison quelconque avec dautres sujets ou de
rfrence prcise avec des critres externes, ou encore lorsque lon sintresse
principalement au rapport subjectif du sujet aux situations de rsolution de
problme et dapprentissage.
Problmes mthodologiques relatifs la procdure T-A-R
343
344
Lvaluation dynamique
sont rarement satisfaits dans les situations concrtes et leur mise en uvre
ncessite un nombre lev de sujets.
Il est donc utile denvisager dautres indices refltant le potentiel
dapprentissage qui prsenteraient moins dinconvnients que le score de
simple diffrence mais seraient plus oprationnels que ceux qui sappuient
sur les modles IRT.
On peut, par exemple, corriger les effets de rgression vers la moyenne
en calculant un score de gain rsiduel. Le score de gain rsiduel (GR) est
la part du score observ qui nest pas attribuable la rgression du pr-test
sur le post-test. La dmarche consiste calculer un score attendu Y grce
lquation de la droite de rgression des scores au retest sur les scores au
pr-test, pour tous les sujets ayant un score donn au pr-test, et de calculer
ensuite la diffrence entre ce score attendu Y et le score observ Yobs .Ce
score ne permet cependant pas de distinguer entre deux sources de gains :
celle qui est lie la sance dapprentissage (effet dapprentissage) et qui peut
concerner les principes logiques sollicits dans la tche, et celle qui est lie
la rptition de la passation du test (effet du retest) et qui dcoule dune
meilleure familiarisation la situation et du temps gagn par le sujet dans
les items dont il se souvient. Or, on peut penser que ces deux effets nont
pas le mme sens ni la mme capacit prdire les apprentissages futurs.
Cela nous a amens proposer un nouvel indice (Loarer & Chartier,
1994) que nous avons appel score de gain rsiduel diffrentiel (GRD) qui
consiste estimer le score attendu Y non plus sur le groupe exprimental,
mais sur un groupe contrle ne bnficiant pas de la sance dapprentissage.
Le pronostic calcul par rapport ce groupe (soit Ycont = aX+b) donne
leffet propre du retest. Pour un sujet du groupe exprimental, le score de
potentiel dapprentissage sera la diffrence entre le score attendu sil avait
fait partie du groupe contrle Ycont et le score observ Yobs. Il sagit dun gain
hypothtique, reprsentant la part de la note observe non attribuable leffet
de retest. Lavantage de cette mesure est donc disoler leffet de la sance
dapprentissage. Linconvnient est la lourdeur du dispositif dvaluation
qui la destine principalement la recherche.
Le score au retest apparat cependant comme un compromis intressant
puisquil permet dviter les problmes lis la rptition de la mesure tout
en tant dobtention aise. Il a nanmoins linconvnient de mler dans
un score global le niveau initial et le gain d lapprentissage. Huteau
et Lautrey (1999a, p. 256) proposent une faon lgante de sparer ces
deux lments lorsque lon possde un critre extrieur, en calculant la
corrlation partielle du post-test avec le critre lorsque la corrlation avec
345
346
6.
Lvaluation dynamique
347
Pour dautres auteurs, il semble que les deux dimensions soient fondamentalement distinctes. Les tests classiques et les tests de potentiel dapprentissage
mesureraient des ralits diffrentes. Pour Vygotsky, par exemple, et donc
pour les auteurs qui sen inspirent (Brown & Ferrara, 1985 ; Campione &
Brown, 1987 ; Day, 1983), la zone proximale de dveloppement dbutant
l ou finit la zone de dveloppement actuel, les tests classiques et les tests
de potentiel dapprentissage mesureraient donc, par dfinition des entits
psychologiques distinctes. Cette hypothse semble tre confirme par les
rsultats obtenus par plusieurs auteurs (Guthke, 1982 ; Lidz, 1987) qui
montrent que les scores de russite spontane (ou prtests) et les scores
dapprentissage (post-tests ou scores de gains) sont faiblement intercorrls.
Cependant Flammer & Schmid (1995, p. 193) expliquent que ces rsultats
peuvent tre dus des artefacts mthodologiques.
348
Lvaluation dynamique
349
Gnralit de la mesure
Au cours de lvaluation dynamique, lentranement est ralis dans
un domaine donn et dans des conditions donnes. Lhypothse que
cet chantillon particulier dapprentissage soit reprsentatif de tous les
apprentissages que la personne sera amene effectuer nous parat trs
audacieuse et dire vrai peu fonde. Bien sr, on constatera que les tches
retenues par la majorit des auteurs (Feuerstein, Guthke, Budoff, Ionescu,
...) pour servir la fois de support lvaluation et lapprentissage sont des
tests fortement saturs en facteur g. Est-ce dire que laptitude apprendre,
avec laide dun psychologue, rsoudre des tests de facteur G tmoigne
dune capacit gnrale dapprentissage ?
Les travaux mens en psychologie cognitive durant ces trente dernires
annes sont nombreux conclure limportance des contenus et des
contextes spcifiques dans lacquisition et la mise en uvre des procdures
cognitives (Chi, 1978 ; Borkowski & Cavanaugh, 1979 ; Lautrey et al. 1986 ;
Pignault, 2007). Ces rsultats concernent directement la problmatique de
lvaluation dynamique. On a vu galement plusieurs reprises (Loarer et
al., 1995 ; Loarer, 2001) comment ils justifiaient la rvision des postulats
de base de certaines mthodes de remdiation cognitive.
Une tude que nous avons mene afin de tester le degr de gnralit
ou de spcificit de la capacit apprendre (Loarer & Chartier, 1994)
renforce ce point de vue. Nous avons bti, selon la procdure T-A-R
trois preuves de potentiel dapprentissage, chacune explorant un domaine
cognitif diffrent : raisonnement inductif, raisonnement spatial et crativit.
350
Lvaluation dynamique
351
Fidlit de la mesure
Le pronostic dapprentissage suppose une certaine stabilit dans la faon
de changer et renvoie au problme de la fidlit de la mesure du potentiel
dapprentissage.
352
Lvaluation dynamique
7.
353
(Grigorenko & Sternberg, 1998). Force est de constater quelles ne vont pas
toutes dans le sens de lhypothse. Ainsi, par exemple, Sewell (1979, 1987)
observe dans une tude de ce type mene en premire anne de primaire que
la meilleure prdiction est donne, pour lensemble de lchantillon test,
par les tests conventionnels. Taylor & Richards (1990) arrivent aux mmes
conclusions : le Wisc-R savre tre un meilleur prdicteur de la russite
scolaire en primaire que les tests dapprentissage quils ont utiliss. Une tude
conduite par Guthke (1990) fournit galement des rsultats allant dans le
mme sens. Il constate, sur un chantillon de 400 enfants faisant lobjet
dun suivi durant leur scolarit primaire, que les rsultats obtenus par un
test classique de facteur G (MPC) prdit mieux la russite scolaire (value
par les notes, les apprciations des matres et des tests de rendement scolaire)
que ne le font les rsultats dun test de potentiel dapprentissage (le RKL).
Ce type de rsultats a amen certains auteurs (par exemple Flammer, 1974,
cit par Flammer & Schmid, 1982/1995, p. 204) conclure quavec des
sujets normaux , lapport de lvaluation dynamique ntait pas suffisant
pour justifier son cot supplmentaire.
Il nen va cependant pas de mme lorsque lon sintresse aux sujets
les plus faibles. Dans une tude de 1979, Sewell constate ainsi que, si le
score classique de QI prdit mieux la russite scolaire denfants blancs de
classe sociale moyenne, cest le score de retest de lpreuve de potentiel
dapprentissage que fournit la meilleure prdiction pour un groupe dlves
noirs de classe sociale dfavorise. De mme, Guthke (1990) rapporte que
lorsquil observe non plus lensemble de lchantillon, mais seulement les
lves (5 %) qui avaient t signals par la matresse de maternelle, leur
entre en primaire, comme prsentant un risque dchec, cest le score de
potentiel dapprentissage qui prdit le mieux leur russite scolaire.
Les rsultats que nous avons nous-mmes obtenus dans lpreuve des
SPM, et prsents ci-dessous, vont dans le mme sens. La sance daide
ou dapprentissage apparat augmenter la validit de la mesure (score au
retest). Lvaluation dynamique permet ainsi damliorer sensiblement le
pronostic de russite pour les sujets les plus faibles, alors quelle napporte
aucune information supplmentaire concernant les sujets niveau initial
lev. Ces deux lments tayent, parmi les trois conceptions du potentiel
dapprentissage que nous avons dcrites, celle qui voit dans la mesure du
potentiel dapprentissage une amlioration de la mesure de lintelligence,
notamment en limitant les biais socioculturels.
Ces rsultats illustrent un paradoxe et saccordent avec le point de vue
de Budoff (1987) : les tests dintelligence ont souvent t construits pour
354
Lvaluation dynamique
8.
Prsentation dpreuves
Les preuves dvaluation du potentiel dapprentissage sont, quelques
exceptions prs, peu diffuses et accessibles en France. Beaucoup ont t
dveloppes loccasion de recherches. Nous avons fait le choix ici de
prsenter trois preuves :
Une premire preuve adapte des cubes de Kohs (Ionescu et al., 1985,
355
Seule cette dernire preuve est disponible chez un diteur. Les deux
premires preuves sont prsentes ici afin de fournir des exemples
prototypiques de matriels et de procdures dvaluation dynamique.
Lpreuve de type Aide au cours du test de Ionescu
et collaborateurs fonde sur les cubes de de Kohs
Lpreuve
Le matriel utilis a t construit partir des neuf planches de lpreuve de
cubes de lchelle dIntelligence de Wechsler pour adultes (WAIS-R).
Les principales caractristiques de la procdure sont les suivantes :
La passation est individuelle ;
Chaque personne passe lensemble de lpreuve, compose de 9 items ;
Les aides ne sont donnes quen cas dchec mais le sont jusqu lobtention
de la russite ;
Les aides sont standardises et hirarchiss, cest--dire que loprateur
commence par donner des indices minimaux, qui sont progressivement
enrichis en cas dchec ;
Les aides sont fournies au sujet au cours de la passation en fonction des
erreurs quil commet ;
Une srie de trois aides hirarchises est prvue pour chaque item (voir
figure 7.4) :
1. La premire de ces aides consiste prsenter le modle lchelle 1
(le modle original est lchelle 1/2). Elle permet de compenser
dventuels problmes perceptifs ou des difficults lis au changement
dchelle ;
2. La seconde aide prsente un modle o sont traces les limites
des diffrents cubes, induisant une stratgie danalyse de la figure en
lments spars ;
3. La troisime aide est une dmonstration ralise par le psychologue
laide des cubes.
356
Lvaluation dynamique
Figure 7.4
Principe des aides.
Les aides ne sont donnes quen cas dchec, selon le schma de passation
dcrit dans la figure 7.5. Quel que soit litem considr, le temps de rflexion
du sujet est limit 2 minutes pour la planche standard et 1 minute pour
chacune des aides.
Les indices
Dans les tudes ralises par Ionescu et al. auprs de dficients mentaux, trois
notes ont t prises en compte, calcules soit partir des russites spontanes
des sujets (NS, note spontane) soit partir du nombre daides efficaces
fournies conscutivement un item initialement chou (NA, note daide)
ou encore du nombre de russites du modle initial aprs aide (NT, note
de transfert). Les auteurs considrent la note spontane comme quivalente
une mesure classique de laptitude. Cela nest pas notre avis tout fait
justifi, car leffet dapprentissage tient alors aussi bien la familiarisation
avec lpreuve quaux aides ventuellement fournies. Quoi quil en soit, dans
ces conditions, la prise en compte de la note de transfert dans un score global
(NG = NS+NT) amliore quelque peu la validit prdictive de lpreuve
par rapport un critre externe qui est la notation des moniteurs ayant eu
superviser le travail des sujets. Cette note globale explique 29 % de la
357
ITEM i
(planche i A) si russsite
ITEM i +1
si chec
planche i B
si russsite
planche i A
ITEM i +1
si russsite
planche i A
ITEM i +1
si chec
planche i C
si chec
faire le modle avec des cubes
devant le sujet
russite ou chec
planche i A
ITEM i+1
Figure 7.5
Schma de la passation.
Utilisation
Cette preuve, dcrite ici comme illustration dune dmarche dvaluation
dynamique est principalement destine lvaluation de lintelligence de
358
Lvaluation dynamique
sujets prsentant des carts et/ ou des carences socioculturelles par rapport
aux populations habituellement values. Elle permet en particulier, selon
une approche principalement clinique, de tester lhypothse de dficit
culturel.
preuve dvaluation dynamique base sur le SPM de Raven
Figure 7.6
Exemple daide propose correspondant lun des principes de rsolution des items des
Matrices de Raven SPM (Loarer et Chartier, 1994).
359
rBP
sign.
sign.
er
09
ns.
.30
p<.05
.02
ns.
.22
p<.05
Notes 1 trim.
Notes 3 trim.
Post-test
Nous retenons donc de cette tude que le score au retest aprs apprentissage
reflte mieux le niveau rel des sujets les plus faibles.
En passation individuelle, linterprtation du rsultat au test des fins
de pronostic de la russite ultrieure consiste alors prendre le score
au retest aprs apprentissage comme refltant le niveau rel du sujet. La
solution idale serait de disposer dun talonnage des scores de retest pour
diffrentes populations de rfrence. Il sagit l dune possibilit intressante
de dveloppement de ce test.
Le Test dvaluation Dynamique de lducabilit, 6e dition
(T.E.D.E.6) de Pasquier
Le T.E.D.E. 6 a pour objectif principal, selon son auteur (cf. Manuel, p. 5),
la mesure de lducabilit de la personne par lvaluation de son potentiel
dapprentissage . II est destin des populations adultes, apprentis ou
candidats apprentis sachant lire le Franais.
360
Lvaluation dynamique
Tche
Inspire du test de calcul des longueurs de Faverge (1955), la tche, de
nature spatiale et logico-mathmatique, est double : il sagit dune part de
composer une galit partir de segments de droites et, dautre part, de
tracer les flches figurant les superpositions de segments justifiant cette
galit (cf. figure 7.7)
6,7
12,3
15,1
?
FIGURE
2e EXEMPLE - Figure C.
On vous a donn 3 longueurs en trait fort : 6,7 ; 15,1 ;
12,3 et on vous demande de calculer une quatrime
longueur en trait fort devant laquelle on a mis un point
d'interrogation. Vous voyez quelle est la diffrence entre
15,1 - 6,7 - 8,4. La rponse est 8,4.
Il tait donc inutile de se servir de la longueur donne
12,3.
Avez-vous bien compris ?
Figure 7.7
Exemple ditem du test de calcul des longueurs de Faverge (1955) et dont sinspire le TEDE.
Matriel et passation
Le matriel comprend deux livrets (le livret dapprentissage et le livret de test)
et un dossier dinstructions. La premire phase de la passation est consacre
361
(a-b+c)
(a+b-c+d)
(a+b+c-d)
Figure 7.8
lments de validation
Le manuel prsente de nombreuses donnes de validation, tant en ce qui
concerne la validit interne du test (analyse des items, cohrence interne,
analyse de biais diffrentiels, fidlit) quen ce qui concerne les validits
externes (concourantes et prdictives). Ainsi, le manuel fait tat dune
cohrence interne (coefficient alpha de Cronbach) de 0,92 et dune stabilit
temporelle (corrlation test-retest une semaine dintervalle de 0,94). Ces
deux indices ont des niveaux trs satisfaisants. On peut cependant regretter
que la stabilit soit value sur un chantillon trs restreint (15 sujets). Les
donnes relatives la validit prdictive relativement des indicateurs de
russite en formation sappuient sur des chantillons plus larges (n=161
pour lchantillon adulte et n=244 pour lchantillon apprentis) et sont en
moyenne leves : les corrlations vont de 0,40 0,83 pour les diffrents
groupes composant lchantillon adultes et de 0,38 0,71 pour les diffrents
groupes composant lchantillon des apprentis.
362
Lvaluation dynamique
363
Cinq cas de figures ont t rpertoris : russite ritre (litem est russi
lapprentissage et au test) ; gain (litem non russi lapprentissage lest au
test) ; perte (litem russi lapprentissage ne lest plus au test) ; chec ritr
(litem nest russi ni lapprentissage ni au test) ; omission ritre (litem
nest ralis ni lapprentissage ni au test). Ces profils donnent accs une
information qui peut tre utile dans une perspective psychopdagogique, ce
que peu de tests permettent.
talonnages
Les talonnages disponibles portent sur une population dadultes et sur une
population dapprentis.
Des talonnages spcifiques sont en outre proposs :
Pour la population adulte selon 4 niveaux de qualification :
groupe 1 : les hommes et femmes de niveau II et ID, les hommes de
niveau IV, tous ges confondus,
groupe 2 : les hommes juniors (16- 29 ans) de niveau V et les femmes
juniors (16-29 ans) de niveau IV,
groupe 3 : les femmes de niveau V, les hommes seniors (29-58 ans) de
niveau V et les femmes seniors (29-58 ans) de niveau IV,
groupe 4 : les hommes et femmes de niveau VI, tous ges confondus ;
Pour la population des apprentis et candidats apprentis, selon 4 niveaux
de qualification des diplmes prpars : CAP, BEP, BP, Bac.
Restitution
Le manuel fournit un modle de fiche de synthse et des indications
concernant la restitution des rsultats la personne qui a pass lpreuve.
Cette restitution sappuie en particulier sur lanalyse des profils qui a t
faite.
9.
364
Lvaluation dynamique
CHAPITRE
8
Sommaire
Page 367
Page 380
Page 394
4. diteurs de tests . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Page 409
367
Q
1.
UI
368
la vente relve donc plus dun accord informel entre diteurs et auteurs (et
organisation professionnelle ?) que de lexistence de rels textes lgislatifs.
Certaines preuves sont ainsi accessibles aux non psychologues, cest
par exemple le cas, pour rester dans le champ des tests de logique, des
matrices de Raven, qui peut tre considr comme le, ou lun des exemples
prototypiques dun test dintelligence. Laccs libre cette preuve nous
semble regrettable car le titre de psychologue constitue une garantie des
capacits de lutilisateur utiliser de manire pertinente ce test.
Ce qui est en jeu nest pas la dfense dun titre professionnel et de
ses prrogatives, mme si cet argument doit tre pris en compte dans la
rflexion sur le sujet, mais bien la protection des intrts de la personne
qui fait lobjet dune valuation. Le psychologue est gnralement, du fait
de sa formation et de son exprience, et de son code de dontologie,
mme dapprcier la pertinence dutiliser ou non un test, de choisir le
plus appropri une situation donne, destimer le niveau de fiabilit de
lpreuve slectionne compte tenu de la situation et du contexte, capable
den interprter correctement les rsultats et de les restituer de faon adquate
la personne... Bref, il possde les connaissances et comptences qui
conditionnent un bon usage des tests.
Car il existe bien de mauvais usages des tests, et une personne non
psychologue pourra tre amene, non pas ncessairement en raison de
mauvaises intentions mais plus simplement par manque de connaissances
et de vigilance sur certains aspects, mettre en uvre de telles pratiques
nfastes, par exemple en utilisation mcaniquement le test, en linterprtant
sans nuance ou encore en lappliquant hors de son champ de validit.
On peut argumenter quune grande diversit existe dans les formations
de psychologie et que toutes ne fournissent pas de formation pousse en
psychomtrie. Cela est vrai et plus encore aujourdhui depuis lorganisation
des formations universitaires selon le systme europen de formation (LMD)
qui a abouti augmenter la diversit des parcours de formation universitaires.
Nanmoins, lvaluation psychologique et la pratique des tests font partie
des connaissances et comptences de base du psychologue et, mme si tous
les psychologues ne sont pas au sens strict du terme, spcialiss dans ce
domaine, la formation quils ont reue et le code de dontologie qui encadre
leur pratique constitue ce jour la meilleure garantie en la matire.
Un article de Castro et al. (2001) est justement consacr ce problme
de lutilisation des tests psychologiques par des psychologues et des non
psychologues. partir dune enqute auprs de psychologues il ressort
que ces derniers regrettent une absence totale de rglementation ce
369
niveau et ne souhaitent pas que des non psychologues puissent utiliser des
tests psychologiques : lensemble des rpondants soppose formellement
lutilisation des tests psychologiques par des non-psychologues et ce pour
deux raisons distinctes lies la formation et la notion de responsabilit
(p. 105). Lactivit dvaluation par des tests psychologiques est perue
comme un acte psychologique ncessitant un haut niveau de formation
en psychologie. Les auteurs de larticle, dans leurs commentaires sur les
rsultats de lenqute, avancent les arguments suivants :
370
1. Que pourrait tre une Validation des Acquis de lExprience sur ce point ?
371
Cette capacit de matrise des tests, outils et mthodes doit faire lobjet
dune formation spcifique dans laquelle :
Il est enseign aux tudiants que les procdures psychologiques concernant lvaluation des individus et des groupes requirent la plus grande
rigueur scientifique et thique dans leur maniement (prudence, vrification) et leur utilisation (secret professionnel et devoir de rserve), et que
les prsentations de cas se font dans le respect de la libert de consentir
ou de refuser, de la dignit et du bien-tre des personnes prsentes.
(article 32.)
372
373
Le lecteur souhaitant approfondir la rflexion sur les aspects dontologiques de lactivit de psychologue pourra consulter les publications de
Bourguignon (2000 et 2003) ainsi que le numro spcial de janvier 2000
de la revue Bulletin de psychologie consacr thique en psychologie et
dontologie des psychologues .
Les tests sont diffuss en France par des entreprises dditions. Historiquement en France, les plus anciennes, et sans doute les plus connues,
sont les EAP1 et les ECPA2 , regroupes depuis quelques annes au sein
des ECPA. On peut galement signaler la prsence, plus rcente, dautres
diteurs de tests tels quEurotests, Hogrefe, OPP... Nous avons recens
en fin de chapitre les coordonnes des principaux diteurs de tests en
France. Le psychologue pourra consulter sur internet le catalogue de ces
diffrents diteurs et sapercevra rapidement que certaines maisons ddition,
plus anciennes, possdent un nombre important dpreuves tandis que
dautres, plus petites et/ou plus rcentes, ont un catalogue plus rduit
et/ou en cours de dveloppement. Signalons enfin que certaines de ces
entreprises organisent des prsentations de tests, et de nouveauts, sous
forme de petits-djeuners . Cest loccasion, pour le psychologue, de se
tenir inform de lactualit des tests.
Les politiques de ces diteurs peuvent tre sensiblement diffrentes :
certains sont plus spcialiss dans les outils destinations des adultes,
dautres proposent galement des tests destination denfants ; certains
tentent de diffuser des preuves europennes et/ou francophones alors que
dautres adaptent surtout des tests dorigine anglo-saxonne.
Avant dacheter un test il est fortement conseill, si lon ne connat pas
lpreuve, de se rendre chez lditeur afin de pouvoir consulter lpreuve
dans son ensemble, et tout particulirement les informations contenues dans
le manuel qui accompagne le test.
374
Nous pouvons distinguer ici trois types de formation offrant des enseignements sur la pratique des tests : les formations universitaires en Psychologie,
les formations de psychologues statut fonctionnaires et les organismes de
type formation continue.
375
La formation continue
Le psychologue est tenu de maintenir ses connaissances jour et doit pouvoir
bnficier de stages de formations. Les universits et des instituts spcialiss
(comme par exemple lINETOP), mais aussi des cabinets privs ou encore
les diteurs de tests, proposent des formations continues dans le domaine
de lvaluation psychologique. Il peut sagir de formations portant sur des
modles thoriques, sur la pratique dune preuve ou dun groupe dpreuves
(analyse de protocoles, tudes de cas...), ou encore de formations spcifiques
accompagnant la sortie dune nouvelle preuve, ou dune version rnove
(comme par exemple les formations sur le WISC-IV proposes par les ECPA
et lINETOP).
376
Il sagit de proposer la fois des critres dvaluation pour les tests mais
galement des normes dans la pratique de ces instruments de mesure afin
den garantir une bonne utilisation :
Pour tre efficace, le testing et lvaluation requirent de tous ceux qui
participent au processus la possession de connaissances, dhabilets et
daptitudes (p. 2).
Sont ainsi viss les utilisateurs de tests mais galement les concepteurs et
diteurs.
Louvrage est structur en trois parties. Dans la premire, Construction
de tests, valuation et documentation, sont abordes les principales notions
psychomtriques (qui ont t prsentes dans le chapitre 2 de notre livre).
La deuxime, quit en valuation, est relative lanalyse de biais potentiels
dans les tests2 . La troisime partie, Application du testing, est consacre aux
conditions dune bonne utilisation des tests.
Chaque partie est compose de plusieurs chapitres et la fin de chaque
chapitre figure une liste de normes. Prenons quelques exemples afin
dillustrer la dmarche des auteurs :
Norme 1.2, relative la validit des tests (partie I du livre) :
Les concepteurs de tests devraient expliquer clairement la faon
dinterprter et dutiliser les scores dun test. La ou les populations pour
lesquelles le test a t conu devraient tre clairement dlimites et la
377
construction mentale que le test est cens mesurer devrait tre dcrite avec
prcision (p. 19).
378
379
dans une situation dvaluation donne, choisir des tests techniquement fiables
et appropris la situation, sassurer de labsence de biais, faire les prparations
requises pour la sance de tests, administrer les tests de manire approprie,
corriger et analyser les tests avec exactitude, interprter les rsultats de manire
approprie, communiquer les rsultats clairement et prcisment aux personnes
concernes, contrler ladquation du test et de son utilisation].
Les objectifs de ce texte rejoignent les objectifs du travail sur les normes
que nous venons de prsenter. En effet, il sagit de promouvoir une
bonne utilisation des tests et dencourager des pratiques exemplaires dans le
domaine de lvaluation (p. 9). Mais ici le but ultime nest pas de dfinir
des normes mais plutt de lister les comptences que devrait possder tout
utilisateur de test : le but long terme de ce projet comprend la production
dun ensemble de recommandations qui se rapportent aux comptences
(connaissances, capacits, savoir-faire et autres caractristiques personnelles)
requises des utilisateurs de tests. Ces comptences sont dfinies en terme de
critres de performances valuables. (p. 10).
On trouve ainsi une liste de connaissances et comptences que devrait
possder tout utilisateur de test :
380
2.
Quelques rappels
Le manuel du test
Comme nous lavons dj indiqu plusieurs reprises, tout test doit tre
accompagn dun, ou de plusieurs, manuel(s). La consultation du manuel
est trs importante et une premire information sur la qualit probable
du test pourra tre infre partir de lpaisseur de celui-ci : en effet
certains manuels sont trs minces alors que dautres sont plus consquents,
avec parfois sparation en plusieurs volumes. Cest le cas par exemple du
WISC-IV qui propose deux manuels : un manuel pour la passation et la
cotation et un manuel pour les qualits psychomtriques et linterprtation
des rsultats (voir prsentation de ce test dans le chapitre 3 de ce livre).
Que doit comporter un manuel ? Bien entendu le psychologue va y trouver
toutes les indications utiles pour la passation et la cotation de lpreuve
(consignes, temps, matriel, talonnages...). Il peut y trouver galement des
aides pour linterprtation des rsultats (comme par exemple des tudes de
381
Lerreur de mesure
Il convient toujours de se rappeler que le score observ (la mesure) nest
quune estimation du score vrai du sujet. Comme nous lavons indiqu, il
est possible destimer cette erreur de mesure (le manuel comporte souvent une
rubrique ce propos), certains tests incitant mme fortement le psychologue
encadrer chaque score obtenu dun intervalle de confiance (voir par
exemple les chelles de Wechsler).
Si lon ne souhaite pas, pour diffrentes raisons, procder ce calcul,
il faut, au minimum, prendre en compte lerreur de mesure de manire
plus qualitative dans lanalyse des rsultats, en relativisant par exemple la
caractrisation des performances du sujet par un seul score talonn (et tout
particulirement lorsque le score brut du sujet est proche du seuil qui spare
deux scores talonns).
Les biais
Bien que lanalyse des biais dans les tests soit de plus en plus frquente, elle
reste le plus souvent assez superficielle (Vrignaud, 2002a). Le psychologue
devra toujours sinterroger sur les biais potentiels dutilisation dune preuve
sur un sujet, ou un groupe de sujets, particulier. Il sera, par exemple, attentif
au vocabulaire contenu dans lpreuve (est-il connu de tous les sujets ?), aux
aspects culturels, et sociaux, qui pourraient avoir une influence, dans un
sens comme dans lautre, sur les rsultats des sujets (connaissance a priori
382
Les talonnages
Rappelons ici quil est indispensable de sinterroger sur ltalonnage, en
particulier sur la date de recueil des donnes (effet Flynn), mais galement
sur la composition de lchantillon des sujets de ltalonnage (C.S.P, sexe...).
Un examen minutieux de ces lments permettra destimer dans quelles
limites la comparaison des rsultats dun sujet avec la population de rfrence
de ltalonnage est adapte.
Rappelons galement quil est parfois possible dobtenir des talonnages
supplmentaires (postrieurs la publication du manuel par exemple) auprs
de lditeur du test.
383
384
8. La restitution orale,
9. La restitution crite (le compte rendu).
Bien entendu cette dcomposition en 9 tapes nest quune des possibilits
de rendre compte des diffrentes phases dune pratique valuative et doit
tre adapte au contexte de lvaluation (situation de slection, de conseil,
dexpertise...). Le plus important, quel que soit le nombre des tapes, est de
prendre le temps daborder tous ces aspects.
385
Cette phase danalyse de la demande est essentielle car elle permet, bien
souvent, de rvler la complexit dun problme prsent comme une simple
valuation.
386
une srie ditems (un livret dapprentissage), srie non value qui servira
de prparation la passation de lpreuve proprement dite (voir dans le
chapitre 4 de ce livre la prsentation de la version APM des Matrices de
Raven).
Si lon pousse ce dispositif lextrme, nous nous retrouvons dans
des situations proches de celles proposes dans le cadre dune valuation
dynamique (voir chapitre 7 de ce livre).
1. Essayer de reprer les rponses visiblement donnes au hasard (par exemple : cochage systmatique
des rponses en ligne ou en colonne...).
387
388
ensuite les scores les plus spcifiques (notes aux diffrentes sous chelles,
voire scores certains subtests).
Quest-ce que chaque score reprsente ? Le manuel doit fournir des
informations sur ce point. Il faut ici revenir vers le modle thorique de
rfrence (par exemple le facteur g sil sagit dun test de ce type) afin
de situer la performance observe dans un cadre thorique plus large. Il
faut galement prendre en compte les ventuelles spcificits de lpreuve
(type ditems, type de rponse, temps libre ou limit...) qui donnent une
coloration de ce qui est plus prcisment valu par lpreuve utilise. Il
peut tre intressant ce propos de distinguer la comptence (ce que lon
cherche mesurer) de la performance (mesure ralise dans un contexte
prcis, avec un certain test...) pour aborder les limites de la gnralisation
de ce qui a t valu.
Enfin, il faut mettre en relation les rsultats observs et ce que lon connat,
par ailleurs, du sujet (exprience, qualification, mtiers exercs, projets...) :
quels sont les rsultats concordants ? Les rsultats discordants ? Quels sont
les ventuels dcalages ?...
Analyse des erreurs ?
Il peut tre parfois utile de procder une analyse des erreurs en reprant
quels sont les items chous et en essayant den comprendre la cause. On
peut ainsi envisager de revenir sur ces checs lors de lentretien de restitution,
afin de tenter de mieux comprendre le raisonnement du sujet.
On peut galement distinguer labsence de rponse dune rponse fausse.
Il peut sagir galement de reprer les absences de rponse en distinguant
celles situes en cours dpreuve (assimilables un chec) de celles situes
en fin dpreuve (attribuables, au moins en partie, un manque de temps
dans le cas dpreuve temps limit). Il peut tre intressant par exemple
de confronter le sujet aux items quil na pas eu le temps daborder lors
de la passation de lpreuve afin destimer sa capacit rsoudre les items
situs en fin dpreuve, qui sont souvent les plus difficiles. Bien entendu,
on ne tiendra pas compte de ses ventuelles russites supplmentaires dans
son score, car elles se situent hors limites de temps, mais ces informations
peuvent tre utiles. Rappelons ce propos que certaines preuves proposent
des talonnages avec passation en temps libre (par exemple les Matrices de
Raven).
389
Prparation de la restitution
390
391
392
393
394
3.
1. Pour une prsentation des psychologues scolaires le lecteur peut consulter Cognet (2006).
395
396
397
Tableau 8.1
Classement des mthodes dvaluation utilises en France dans le recrutement
selon le % total des services les utilisant (daprs Bruchon-Schweizer et Ferrieux, 1991).
Frquence demploi
Techniques utilises
Systmatique
Occasionnel
Total
Entretien(s)
95
99
55
38
93
31
32
63
Tests de personnalit
35
26
61
Mini-situations de travail
7,5
26,5
34
Techniques projectives
12
8,5
20,5
15
398
399
400
401
Mthodes dvaluation
Validit prdictive
(corrlation avec la performance au travail)
chantillons de travail
0,54
0,51
Entretiens structurs
0,51
0,49
0,48
Tests dintgrit
0,41
Assessment centers
0,37
Inventaires biographiques
0,35
Tests de personnalit
0,31
Rfrences
0,26
0,18
0,10
0,10
Graphologie
0,02
402
403
404
405
406
Le bilan de comptences
Le bilan de comptences est institu en France depuis 1991 la France
semble dailleurs en avance ce niveau comparativement dautres pays,
comme lAllemagne par exemple (Eckert et al., 2008) et est rgi par
des textes rglementaires. Ainsi, une loi de 1991 instituant le bilan de
comptences en dfini les objectifs : les actions permettant de raliser un
bilan de comptence ont pour objet de permettre des travailleurs danalyser
leurs comptences professionnelles et personnelles ainsi que leurs aptitudes
et leurs motivations afin de dfinir un projet professionnel et, le cas chant,
un projet de formation (cit par Aubret et Blanchard, 2005, p. 23)
Pour effectuer ce bilan, les professionnels sont, le plus souvent, des
psychologues.
407
Par contre, aucune information nest donne dans cet article sur les tests
utiliss. Daprs nos propres constats, nous pouvons avancer que les preuves
cognitives les plus utilises dans le contexte du bilan de comptences sont
les batteries factorielles, telles que la NV5 et la NV7, mais galement, en
fonction des caractristiques du bnficiaire (et essentiellement de son niveau
de formation), des preuves de facteur g comme par exemple le D2000 ou
encore le R2000.
Dans la formation des adultes
Lusage des tests sexplique ici essentiellement par leur pouvoir prdictif1
quant la russite en formation. Dans le processus de slection des
demandeurs de formation, mais aussi dans le cadre de conseil, il est judicieux
dintgrer des tests dintelligence logique. Cest le cas, par exemple, pour
les formations proposes par lAssociation Nationale pour la Formation
1. Nous ne reprendrons pas ici la prsentation des tudes de validit prsentes dans la partie
recrutement (voir plus haut).
408
Professionnelle des Adultes (A.F.P.A). Cest cet exemple que nous allons
maintenant rapidement dvelopper.
409
4.
diteurs de tests
Nous prsentons les coordonnes des principaux diteurs de tests franais
(classs par ordre alphabtique).
ditions Delta Expert, 15, bis rue des Pas Perdus, BP-8338, 95804 Cergy
Cedex
www.delta-expert.com
410
Fiches pratiques
1.
Le test DAT5
Prsentation du test
412
2.
Prsentation du test
Fiches pratiques
413
3.
Prsentation du test
414
4.
Prsentation du test
Fiches pratiques
415
5.
Prsentation du test
416
cest--dire dfinir les relations existant entre les diffrents lments dune
matrice afin de slectionner llment qui vient complter la srie propose.
Indicateurs : un score unique
Populations vises : adolescents et adultes de niveau de formation jusqu bac
+2 (au-del il est prfrable dutiliser la version APM).
Passation
Fiches pratiques
6.
417
Prsentation du test
418
passer lpreuve, ltalonnage qui lui semble le plus adapt afin de dfinir
les conditions de passation (en particulier le temps de passation).
Informations diverses
7.
Le test Samuel
Prsentation du test
Fiches pratiques
419
Passation
8.
Le test TEDE 6
Prsentation du test
420
sujet doit montrer que lgalit est vraie par superposition des segments en
oprant les projections ncessaires).
Populations vises : populations adultes, apprentis ou candidats apprentis
sachant lire le franais.
Passation
Fiches pratiques
421
9.
Prsentation du test
Nom du test : Wechsler Intelligence Scale for Children version III (WISC-III)
Auteur : David Wechsler.
diteur : ECPA.
Dates ddition et de rnovation : 3e version de lpreuve de Wechsler pour
enfant. Version adapte en France en 1996.
Format : variable selon les subtests : questionnement du psychologue et tests
de performance.
Type dpreuve : chelle composite dintelligence pour enfant.
Type ditems : la structure du WISC-III comporte deux chelles, une chelle
verbale et une chelle de performance. Chaque chelle est compose de
diffrents subtests qui composent des situations trs varies dvaluation
(approche globale de lintelligence). Pour lchelle verbale (13 subtests)
lenfant doit rpondre oralement des questions poses par le psychologue :
trouver la relation entre deux notions, connaissance de son environnement,
petits problmes arithmtiques... Pour lchelle de performance (7 subtests)
lenfant doit raliser diffrentes tches : constructions laide de cubes,
arrangements dimages en ordre chronologique, assemblages dlments de
type puzzle...
Dans chaque subtest les items sont prsents selon leur niveau de difficult.
Indicateurs : comme toutes les chelles de Wechsler, les performances sont
exprimes sous forme de QI : un QIT (ou QI Total) et un QI pour
chaque chelle (QIV et QIP). Le psychologue dispose galement de scores
standardiss pour chaque subtest (analyse du profil des rsultats).
Pour cette version WISC-III se rajoute la possibilit de calculer 3 indices
factoriels : Indice de comprhension verbale (ICV), indice dorganisation
perceptive (IOP) et indice vitesse de traitement (IVT).
422
Fiches pratiques
423
Prsentation du test
Nom des tests : Wechsler Intelligence Scale for Children version IV (WISCIV)
Auteurs : David Wechsler.
diteur : ECPA.
Dates ddition et de rnovation : 4e version de lpreuve de Wechsler pour
enfant. Version adapte en France en 2005.
Format : variable selon les subtests : questionnement du psychologue,
papier/crayon et tests de performance.
Type dpreuve : chelle dintelligence pour enfant.
Type ditems : la structure du WISC-IV est sensiblement diffrente de celles
des anciennes versions du Wechsler pour enfant. En effet disparaissent ici
les deux chelles classiques, lchelle verbale et lchelle de performance, au
profit de quatre indices factoriels : Indice de Comprhension Verbale (ICV),
Indices de Raisonnement Perceptif (IRP), Indice de Mmoire de Travail
(IMT) et Indice de Vitesse de Traitement (IVT). Seul lindicateur QIT est
conserv. Il sagit donc plus dune relle transformation du WISC que dune
simple rnovation.
Chaque indice est compos de diffrents subtests qui sont proches des
subtests de lancienne version WISC-III ou de la version pour adulte
WAIS-III. Ces situations dvaluation restent assez varies : trouver la
relation entre deux notions, comprhension de situations de la vie courante,
devinettes, petits problmes arithmtiques, constructions laide de cubes,
matrices analogiques... Dans chaque subtest les items sont prsents selon
leur niveau de difficult.
Au total le WISC-IV comporte 15 subtests, certains dentre eux tant
optionnels.
Indicateurs : par rapport aux versions prcdentes seul lindicateur QIT
(quotient intellectuel total) est conserv. Le psychologue dispose de
4 indicateurs relatifs aux indices ICV, IRP, IMT et IVT (exprims dans la
mme mtrique que le QI) ainsi que des indicateurs normaliss pour chaque
subtest (analyse du profil des rsultats).
Populations vises : enfants et adolescents gs de 6 16 ans 1/2.
424
Passation
Fiches pratiques
425
426
Le psychologue calcule une note pour chaque subtest, puis combine ces
notes pour obtenir les QI et les indices.
talonnages disponibles : talonnages trs prcis, par classe dge, dans une
mtrique de type Q.I (m=100 et cart type de 15) pour les QI et les quatre
indices. talonnage pour les notes aux subtests.
Informations diverses
Fiches pratiques
427
Temps de passation : variable selon les preuves. Pour une passation de toutes
les preuves il faut prvoir un temps total de 1 h 45 2 heures environ.
Modalits de passation : individuelle ou collective.
Matriel : cahier de passation ; feuille de rponse auto-scorable ; manuel
(108 pages).
Modalits de cotation : rapide, 1 point par bonne rponse.
talonnages disponibles : un talonnage htrogne avec sparation par niveau
dtude.
Informations diverses
428
Temps de passation : variable selon les preuves. Pour une passation de toutes
les preuves il faut prvoir un temps total de 1 h 45 environ.
Modalits de passation : individuelle ou collective.
Matriel : cahier de passation ; feuille de rponse auto-scorable ; manuel (64
pages).
Modalits de cotation : rapide, 1 point par bonne rponse.
talonnages disponibles : jeunes peu qualifis ; adultes faiblement qualifis ;
jeunes apprentis.
Informations diverses
Annexes
1.
Prambule
1. Code sign par lAssociation des Enseignants de Psychologie des Universits (AEPU), lAssociation
Nationale des Organisations de Psychologues (ANOP), la Socit Franaise de Psychologie (SFP) le
22 mars 1996.
430
2. Comptence
Le psychologue tient ses comptences de connaissances thoriques rgulirement mises jour, dune formation continue et dune formation
discerner son implication personnelle dans la comprhension dautrui.
Chaque psychologue est garant de ses qualifications particulires et dfinit
ses limites propres, compte tenu de sa formation et de son exprience. Il
refuse toute intervention lorsquil sait ne pas avoir les comptences requises.
3. Responsabilit
Outre les responsabilits dfinies par la loi commune, le psychologue a
une responsabilit professionnelle. Il sattache ce que ses interventions se
conforment aux rgles du prsent Code. Dans le cadre de ses comptences
professionnelles, le psychologue dcide du choix et de lapplication des
mthodes et techniques psychologiques quil conoit et met en uvre. Il
rpond donc personnellement de ses choix et des consquences directes de
ses actions et avis professionnels.
4. Probit
Le psychologue a un devoir de probit dans toutes ses relations professionnelles. Ce devoir fonde lobservance des rgles dontologiques et son effort
continu pour affiner ses interventions, prciser ses mthodes et dfinir ses
buts.
Annexes
431
5. Qualit scientifique
Les modes dintervention choisis par le psychologue doivent pouvoir faire
lobjet dune explicitation raisonne de leurs fondements thoriques et de
leur construction. Toute valuation ou tout rsultat doit pouvoir faire lobjet
dun dbat contradictoire des professionnels entre eux.
7. Indpendance professionnelle
Le psychologue ne peut aliner lindpendance ncessaire lexercice de sa
profession sous quelque forme que ce soit.
Clause de conscience
Dans toutes les circonstances o le psychologue estime ne pas pouvoir
respecter ces principes, il est en droit de faire jouer la clause de conscience.
432
Article 3
Annexes
433
Article 9
Article 11
434
Article 13
Annexes
435
Le psychologue est averti du caractre relatif de ses valuations et interprtations. Il ne tire pas de conclusions rductrices ou dfinitives sur les aptitudes
ou la personnalit des individus, notamment lorsque ces conclusions peuvent
avoir une influence directe sur leur existence.
Article 20
436
Article 23
Annexes
437
Article 28
Article 31
438
Article 33
439
Annexes
2.
440
But et objectifs
Le but long terme de ce projet comprend la production dun ensemble
de recommandations qui se rapportent aux comptences (connaissances,
capacits, savoir-faire et autres caractristiques personnelles) requises des
utilisateurs de tests. Ces comptences sont dfinies en termes de critres de
performance valuables. Ces critres fournissent la base pour dvelopper des
normes de comptence exigible de tout candidat une qualification en tant
quutilisateur de tests. Lanalyse de telles comptences doit inclure la prise
en compte de questions telles que :
Les normes professionnelles et thiques dans le testing,
Les droits de la personne teste et des autres parties concernes par le
processus de testing,
Le choix et lvaluation du test parmi un ensemble dpreuves similaires,
Ladministration, la cotation et linterprtation du test,
Annexes
441
Dans la mesure o elles sont directement lies lutilisation des tests, les
Recommandations ont galement des implications pour :
Les normes respecter pour la construction des tests,
Les normes pour la documentation lusage des utilisateurs par exemple,
1. Une liste de tous les documents qui ont aliment ce processus peut tre obtenue sur demande
adresse aux auteurs.
442
Annexes
443
1. Un compte rendu dtaill sur ces rsultats de la premire consultation a t soumis la runion du
conseil de la CIT en aot 1998. Un compte rendu de la seconde consultation joint la Version 5.0 des
recommandations a t soumis au conseil de la CIT lors de sa runion de juin 1999. La Version 2000
contient des modifications de rdaction mineures par rapport la Version 5.0.
444
Objectif-cl
Un utilisateur de tests comptent utilise les tests de manire approprie, de
manire professionnelle, et de manire thique, en prenant en considration les
besoins et les droits de ceux qui sont impliqus dans le processus de passation des
tests, les justifications de la passation, et le contexte, au sens large, dans lequel la
passation se droule.
On permettra quil en soit ainsi en sassurant que les utilisateurs de
tests disposent des comptences ncessaires pour mener bien une telle
procdure, ainsi que les connaissances et une comprhension des tests et de
leur utilisation suffisantes pour clairer et tayer ce processus.
445
Annexes
Champ dapplication
Toute tentative pour fournir une dfinition prcise dun test ou du testing en
tant que processus chouera vraisemblablement parce quelle risque dexclure
certaines procdures qui devraient en faire partie, et den inclure dautres
qui devraient en tre exclues. Pour les besoins de ces Recommandations, les
termes tests et testing doivent tre interprts au sens large. Le fait quune
procdure dvaluation soit ou non qualifie de test reste peu probant.
Ces Recommandations sont pertinentes pour de nombreuses procdures
dvaluation qui ne sont pas appeles des tests ou pour lesquelles on cherche
viter cette appellation. Plutt que de fournir une dfinition unique, les
propositions suivantes sont une tentative pour organiser le domaine couvert
par les Recommandations.
La passation de tests comprend une large gamme de procdures destines
446
Annexes
447
Les Recommandations sont galement pertinentes pour dautres personnes impliques dans lutilisation des tests telle quelle a t dfinie
ci-dessus. Celles-ci comprennent :
les constructeurs (auteurs) de tests,
les diteurs de tests,
ceux qui sont partie prenante dans la formation des utilisateurs de tests,
ceux qui sont tests, ainsi que leur entourage (parents, pouse, partenaires
de vie),
les organisations professionnelles et les autres associations qui sont
concernes par lutilisation des tests psychologiques et ducatifs,
les dcideurs et les lgislateurs.
Bien que destines au dpart aux pratiques professionnelles, les Recommandations seront galement pertinentes pour ceux qui utilisent les tests
uniquement des fins de recherche.
Les Recommandations nont pas pour but de couvrir tous les types de
techniques dvaluation (par exemple, les entretiens structurs ou semistructurs, lvaluation des activits de groupe), ou toutes les situations dans
lesquelles une valuation a lieu (par exemple, les centres dvaluation pour
lemploi [assessment centers]). Cependant, plusieurs des Recommandations
peuvent vraisemblablement sappliquer dans des situations dvaluation
et pour des objectifs plus gnraux que ceux observs en premier lieu
dans le testing psychologique et ducatif (par exemple, lutilisation des
centres de bilan pour le placement ou la slection des salaris, les entretiens
structurs ou semi-structurs, ou lvaluation pour la slection, lorientation
professionnelle et le conseil en carrire).
Facteurs contextuels
Les Recommandations sappliquent au niveau international. Elles peuvent
tre utilises pour dvelopper des normes spcifiques et locales (par exemple,
nationales) en passant par un processus de contextualisation. Il est admis que
de nombreux facteurs affectent la manire dont les normes de qualit peuvent
tre gres et mises en place dans la pratique. Ces facteurs contextuels doivent
tre pris en considration au niveau local (national) lorsquon interprte
les Recommandations et quon cherche dfinir ce quelles veulent dire de
manire pratique dans un environnement particulier.
448
Annexes
449
450
de droulement ;
Savoir comment grer les questions poses par une personne teste
pendant ladministration du test, etc.
Savoir comment grer des situations dans lesquelles il existe une possibilit
de mauvais usage des tests ou un risque de mauvaise interprtation des
scores au test.
Prendre ses responsabilits pour un usage thique des tests
Annexes
451
452
1.3.6. Faire tout son possible pour viter de nuire ou de causer une
souffrance ceux qui sont impliqus dans le processus de test.
1.4. Sassurer que le matriel de test est conserv en scurit.
1.4.1. Scuriser le stockage du matriel de test et en contrler laccs.
1.4.2. Respecter les lois sur la proprit intellectuelle et les accords qui
existent en ce qui concerne le test, incluant les interdictions de reproduction,
ou la transmission du matriel au format lectronique ou autre dautres
personnes, que celles-ci soient ou non qualifies.
1.4.3. Protger lintgrit des tests en sabstenant de donner un entranement aux sujets sur du matriel de test ayant cours, ou un autre matriel
dentranement dont lusage pourrait influencer de manire inquitable leurs
performances aux tests.
1.4.4. Sassurer que les techniques de tests ne sont pas dcrites publiquement dune faon telle que leur utilit en soit affecte.
1.5. Sassurer que les rsultats aux tests sont traits confidentiellement.
1.5.1. Prciser qui aura accs aux rsultats et dfinir des niveaux de
confidentialit.
1.5.2. Expliquer les niveaux de confidentialit aux personnes avant que
les tests ne soient administrs.
1.5.3. Limiter laccs aux rsultats ceux qui y sont autoriss.
1.5.4. Obtenir un consentement clair avant de communiquer les
rsultats dautres personnes.
1.5.5. Protger les donnes stockes sur fichier lectronique de telle
manire que seules les personnes autorises puissent y accder.
1.5.6. tablir des rgles claires concernant la dure pendant laquelle les
donnes de tests sont conserves dans des fichiers.
1.5.7. ter les noms et autres identifiants personnels des bases de
donnes contenant des rsultats qui sont archivs des fins de recherches,
dlaboration de normes (talonnages), ou dautres traitements statistiques.
Assurer une pratique correcte dans lutilisation des tests
2.1. Estimer lintrt ventuel dune utilisation des tests dans une
situation dvaluation donne.
Les utilisateurs de tests comptents devront :
2.1.1. Produire une justification argumente de lutilisation de tests.
Annexes
453
454
1. Note des traducteurs : Le FDI est traditionnellement appel biais ditem ou biais item/test. le
FDI se manifeste lorsquun item mesure une autre variable que la variable quil est cens mesurer et
que cette variable parasite favorise ou dfavorise un des groupes en prsence. Une nuisance
est ainsi introduite dans la mesure. Pour une revue de questions rcente sur les biais dans les tests
et le FDI, on peut consulter Vrignaud, P. (2002). Les biais de mesure : savoir les identifier pour y
remdier. Bulletin de Psychologie, 55(6), 625-634.
Annexes
455
456
2.4.1. Fournir aux parties concernes, en temps opportun, une information claire concernant lobjectif de lutilisation de tests, la faon dont ils
peuvent le mieux se prparer la sance de tests et la procdure suivre.
2.4.2. Informer les personnes testes, de la langue ou du dialecte pour
lesquels le test est considr comme appropri.
2.4.3. Envoyer aux personnes testes des exercices dentranement,
chantillons, ou documents de prparation, lorsque ceux-ci sont disponibles
et lorsquune telle pratique est cohrente avec les usages recommands pour
les tests concerns.
2.4.4. Expliquer clairement aux personnes testes leurs droits et leurs
responsabilits1 .
2.4.5. Recueillir laccord explicite des personnes testes ou de leurs
reprsentants lgaux avant toute administration de test.
2.4.6. Expliquer aux parties concernes, lorsque la passation des tests est
facultative, les consquences dune acceptation ou dun refus de passer les
tests, de sorte quelles puissent faire leur choix en connaissance de cause.
2.4.7. Effectuer les amnagements matriels ncessaires en sassurant que :
a) Les prparatifs sont conformes ceux qui sont prescrits dans le manuel
de lditeur.
b) Les lieux et les installations pour la passation des tests ont t prpars
suffisamment lavance, lenvironnement physique est accessible, sr,
tranquille, ne gnant pas la concentration, et appropri lobjectif vis.
c) Les documents, en nombre suffisant, sont disponibles et ont t vrifis
afin de sassurer quaucune trace na t laisse par les utilisateurs
prcdents sur les livrets de questions ou sur les feuilles de rponse.
d) Le personnel qui sera impliqu dans ladministration est comptent ;
e) Des amnagements appropris ont t prvus pour tester les personnes
prsentant un handicap.
2.4.8. Anticiper les problmes possibles et y remdier par une prparation
minutieuse du matriel et des instructions.
2.5. Administrer les tests de manire approprie.
Les utilisateurs de tests comptents devraient :
2.5.1. tablir un climat favorable en accueillant les personnes tester et
en les informant de manire positive.
1. Voir annexe B.
Annexes
457
2.5.2. Agir pour rduire lanxit des personnes testes et viter de crer
ou de renforcer une anxit inutile.
2.5.3. Sassurer que les facteurs de distraction potentiels (par exemple, les
alarmes de montre, les tlphones portables, les bippeurs) ont t neutraliss.
2.5.4. Sassurer avant le dbut de la sance que les personnes testes ont
en leur possession le matriel ncessaire pour passer le test.
2.5.5. Administrer les tests selon des conditions de surveillance appropries.
2.5.6. Dans la mesure du possible, donner les consignes du test dans la
langue principale des personnes testes, mme quand le contenu du test a t
conu pour fournir des informations sur les connaissances et les comptences
dans une seconde langue.
2.5.7. Suivre strictement les indications et les instructions telles quelles
sont spcifies dans le manuel du test, et prvoir des amnagements
raisonnables pour les personnes handicapes.
2.5.8. Lire les instructions clairement et calmement.
2.5.9. Laisser assez de temps pour terminer les exemples.
2.5.10. Observer et noter les divergences par rapport la procdure de
passation du test.
2.5.11. Surveiller et noter les temps de rponse avec prcision, lorsque
cest prvu dans la procdure.
2.5.12. Sassurer que tout le matriel a t rcupr la fin de chaque
passation de tests.
2.5.13. Administrer les tests en sassurant dun niveau adquat de
surveillance et dauthentification de lidentit des personnes testes.
2.5.14. Sassurer que ceux qui aident ladministration des tests ont reu
une formation approprie.
2.5.15. Sassurer que les personnes testes ne restent pas sans surveillance
ou que des facteurs extrieurs ne les distraient pendant une sance de tests
surveille.
2.5.16. Fournir une assistance approprie aux personnes testes qui
montrent des signes de dtresse ou danxit excessifs.
2.6. Corriger et analyser les tests avec exactitude. Les utilisateurs de
tests comptents devront :
2.6.1. Se conformer strictement aux procdures standardises pour tablir
les scores.
2.6.2. Effectuer la transformation approprie des notes brutes en dautres
types dchelles pertinentes.
458
2.6.3. Choisir des types dchelles appropris lusage que lon se propose
de faire des scores au test.
2.6.4. Vrifier lexactitude de la conversion des scores en dautres chelles
et de toutes les autres procdures de calcul.
2.6.5. Sassurer que des conclusions invalides ne sont pas tires de la
comparaison de scores avec des normes inadaptes aux personnes testes, ou
primes.
2.6.6. Calculer, lorsque cest appropri, des scores composites en utilisant
les formules et les quations standards.
2.6.7. Mettre en uvre des procdures pour reprer des scores improbables
ou aberrants parmi les rsultats des tests.
2.6.8. Porter clairement et prcisment les noms des chelles dans les
comptes rendus et fournir des lments dinformation clairs sur les normes,
les types dchelles et les quations utilises.
2.7. Interprter les rsultats de manire approprie.
Les utilisateurs de tests comptents devraient :
2.7.1. Matriser la comprhension des fondements thoriques et conceptuels du test, la documentation technique, et les directives pour lutilisation
et linterprtation des chelles.
2.7.2. Bien comprendre les chelles utilises, les caractristiques des
normes ou des groupes de rfrence et les limites des scores.
2.7.3. Prendre des mesures pour minimiser les effets sur linterprtation
du test des biais ventuels que lutilisateur pourrait introduire lencontre
des membres du groupe culturel auquel appartient la personne teste.
2.7.4. Utiliser des normes ou des groupes de rfrence appropris lorsquils
sont disponibles.
2.7.5. Interprter les rsultats la lumire des informations disponibles
sur les personnes testes (par exemple, lge, le sexe, le niveau dducation,
la culture et autres facteurs) en prenant en compte, de manire adquate,
les limitations techniques du test, du contexte dvaluation, et des besoins
de ceux qui ont un intrt lgitime dans les rsultats du processus.
2.7.6. viter de gnraliser outrance les rsultats dun test jusqu des
traits ou des caractristiques humaines qui ne sont pas mesures par le test.
2.7.7. Prendre en considration, lorsquon interprte les scores, la fidlit
de chaque chelle, lerreur de mesure et autres caractristiques qui ont pu
modifier artificiellement les scores.
2.7.8. Prendre en compte les critres de validit, concernant la variable
mesure, pour les membres du groupe dmographique auquel appartient la
personne teste (par exemple, groupe culturel, ge, classe sociale, et sexe).
Annexes
459
460
Annexes
461
Fremer, J., Diamond, E.E. & Camara, Kendall, I., Jenkinson, J., De Lemos, M.
& Clancy, D. (1997). Supplement to
W.J. (1989). Developing a Code of
Fair Testing Practices in Education.
Guidelines for the use of Psychological
American Psychologist, 44, 1062-1067.
Tests. Australian Psychological Society.
Hambleton, R. (1994).Guidelines for Moreland, K.L., Eyde, L.D., Robertson, G.J., Primoff, E.S. & Most, R.B.
adapting educational and psychologi(1995). Assessment of Test User Qualical tests : A progress report. European
fications : A Research-Based MeasureJournal of Psychological Assessment, 10,
ment Procedure. American Psychologist,
229-244.
50, 14-23.
Joint Committee on Testing Practices. Schafer, W.D. (1992). Responsibilities of
(1988). Code of Fair Testing Practices
Users of Standardized Tests : RUST Stain Education. Washington DC : Joint
tement Revised. Alexandria, VA : AmeCommittee on Testing Practices.
rican Association for Counseling and
Development.
Joint Committee on Testing Practices.
(2000). Rights and Responsibilities of Van de Vijver, F. & Hambleton, R.
Test Takers : Guidelines and Expecta(1996). Translating tests : some practions. Washington DC : Joint Comtical guidelines. European Psychologist,
mittee on Testing Practices.
1, 89-99.
Annexes
1. NDT : En France, la loi du 31 dcembre 1992, encadre les pratiques dvaluation en milieu
professionnel.
462
Sassurer que les objectifs des personnes et des organisations sont atteints ;
Sassurer que les mauvais usages potentiels sont vits ;
Montrer son engagement envers les pratiques correctes ;
Sassurer que lusage des tests est appropri au but poursuivi ;
Sassurer que les tests ne produisent pas de discriminations inquitables ;
Sassurer que les valuations sont bases sur des informations compltes
et pertinentes ;
Sassurer que les tests ne sont utiliss que par des personnels qualifis.
Une politique sur le testing devrait couvrir la plupart, sinon toutes, les
questions suivantes :
Annexes
463
464
dautres pourront ou ne pourront pas, avoir une copie des tests, des feuilles
de rponse auxquelles elles ont, elles-mmes, rpondu, et de leurs scores1 .
b. 7. Faire administrer les tests par une personne forme et faire interprter
les rsultats par une personne qualifie.
b. 8. Sassurer que les personnes testes sont informes du caractre
facultatif ventuel dun test et dans un tel cas, des consquences de la
passation ou non de ce test.
b. 9. Sassurer que les personnes testes comprennent les conditions, si
cest le cas, selon lesquelles elles peuvent repasser les tests, demander une
vrification de la cotation des tests quelles ont passs, voire demander
lannulation de leurs scores.
b. 10. Sassurer que les personnes testes savent que leurs rsultats leur
seront expliqus aussi tt que possible aprs la passation du test dans des
termes facilement comprhensibles.
b. 11. Sassurer que les personnes testes comprennent que leurs rsultats
sont confidentiels dans les limites autorises par la loi et les pratiques
correctes.
b. 12. Informer les personnes testes de qui aura accs leurs rsultats et
quelles conditions leurs scores seront communiqus.
b. 13. Sassurer que les personnes testes sont averties des procdures pour
porter plainte ou signaler un problme.
Les utilisateurs de tests informeront les personnes testes quon attend
delles :
b. 14. Quelles traitent les autres avec courtoisie et respect pendant le
processus de testing.
b. 15. Quelles posent des questions avant le dbut du testing, si elles ne
sont pas sres des raisons pour lesquelles le test est administr, de la manire
dont il sera administr, de ce quil faudra faire et de ce quil adviendra des
rsultats.
b. 16. Quelles informent une personne comptente sur tout incident
dont elles croient quil peut rendre les rsultats du test invalides ou quelles
veulent voir pris en considration.
b. 17. Quelles suivent les instructions de celui qui administre les tests.
1. Alors que les tests et les feuilles de rponses ne sont jamais communiqus aux personnes testes,
il existe des diffrences selon les pays dans les pratiques concernant les lments que les personnes
testes ou dautres peuvent obtenir. Quoiquil en soit, il y a davantage de diffrences dans les
attentes des personnes testes en ce qui concerne les informations quon leur donnera. Il est important
que le contrat clarifie ce quelles n auront pas aussi bien que ce quelles auront.
Annexes
465
1. Aux tats-Unis, par exemple, on doit faire attention aux dispositions du Americans with Disabilities
Act (1990). Au Royaume-Uni, le Disability Discrimination Act (1995), Employment Code of Practice
stipule que les employeurs sont tenus de rviser les tests ou la manire dont les rsultats de tels
tests sont valus pour prendre en compte les candidats prsentant des infirmits spcifiques .
2. Pour des conseils dtaills ce sujet aux tats-Unis, voir Eyde, Nestor, Heaton and Nelson (1994).
466
1. Au Royaume-Uni, the Disability Discrimination Act (1995) rend galement obligatoire pour les
individus de faire connatre leurs besoins.
2. NDT : Aucune modification ne doit tre apporte une procdure de testing sans une autorisation
explicite des ayants droit.
Annexes
467
Bibliographie
470
BEUSCART-ZPHIR
M-C.,
ANCEAUX F., DUHAMEL A. &
QUENTIN S. (1996), Un exemple
dapplication du diagnostic cognitif,
Psychologie Franaise, 41, 1, 65-76.
BINET A. (1911/1973), Les ides
modernes sur les enfants. Paris, Flammarion.
BINET A. & SIMON T. (1905a), La
mesure du dveloppement de lintelligence chez les jeunes enfants. Paris,
Socit A. Binet.
BINET A. & SIMON T. (1905b), Sur
la ncessit dtablir un diagnostic
scientifique des tats infrieurs de
lintelligence, LAnne Psychologique,
onzime anne, 163-244 [Article
rdit en 2004. Paris, LHarmattan].
BLANCHARD S. (2002), De lexamen dorientation professionnelle
au bilan de comptences. Actes du
colloque La place de lvaluation dans
le processus dorientation professionnelle des adultes. Lille, INOIP AFPA.
11-23.
BLANCHARD S. (2007), Lvaluation dans le cadre du conseil
en orientation : lexemple de la
dmarche de bilan de comptences,
Les Dossiers des Sciences de lEducation, 18, 61-70.
BLANCHARD S., SONTAG J-C. &
LESKOW S. (1999), Lutilisation
dpreuves conatives dans le cadre
du bilan de comptences. LOrientation Scolaire et Professionnelle, 28,
2, 275-297.
Bibliographie
471
472
Bibliographie
473
CHARTIER P. (2002b), Vers une valuation de type diagnostic cognitif , Actes du colloque de lAFPA
La place de lvaluation dans le processus dorientation professionnelle
des adultes , p.177-181. AFPA.
474
Bibliographie
475
476
Bibliographie
477
GAUDRON J-P. (1999), La psychomtrie assiste par ordinateur : problmatiques en question et perspectives de recherches, LOrientation Scolaire et Professionnelle, 28, 1,
31-62.
GAUDRON J-P. (2008), Internet,
diagnostic informatis et bilan de comptences. Communication au colloque Autour des comptences ,
Universit de Rouen, 22 mai 2008.
GAVAND A. (2006), Prvenir la discrimination lembauche. Paris, Editions dOrganisation.
GILLES P-Y. (1991), Etude des diffrences individuelles dans les stratgies de rsolution dune preuve de
visualisation spatiale, Actes des IXes
journes de psychologie diffrentielle,
188-20. Lige, Presses Universitaires
de Lige.
GILLES P-Y. (1993), Etude des diffrences individuelles dans les stratgies
de rsolution de problmes spatiaux.
Thse de doctorat. Universit Ren
Descartes Paris V.
GILLET B. (1987). Aptitudes et capacits cognitives. In C Lvy-Leboyer
et C. Sprandio (Eds.) Trait de Psychologie du Travail. Paris, PUF.
GLASER R. & PELLEGRINO
(1982), Improving the skills of learning. In D.K. Detterman & R.J.
Sternberg (Eds.), How and how
much can intelligence be increased, pp.
197-212. Norwood, N.J., Ablex.
478
Bibliographie
479
480
Bibliographie
481
482
Bibliographie
483
LVY-LEBOYER
C.
(1996),
valuation du personnel, Quels
objectifs ? Quelles mthodes ? Paris,
Eyrolles.
LVY-LEBOYER
C.
(2002),
valuation du personnel, Quels objectifs ? Quelles mthodes ? Paris, Editions dorganisation.
LHOTTELIER A. (2000), Lacte de
tenir conseil. LOrientation Scolaire
et Professionnelle, 29, 1, 27-50.
484
Bibliographie
485
486
Bibliographie
487
488
Bibliographie
489
490
Bibliographie
491
VAN DE VIJVER F. & POORTINGA Y. (1997), Towards an Integrated Analysis of Bias in CrossCultural Assessment. European Journal of Psychological Assessment, 13,
29-37.
VERNON P.E. (1950), Structure of
human abilities. London, Methuen.
VERNON P.E. (1952), La structure
des aptitudes humaines, Paris, PUF.
VIGNEAU F., DOUGLAS A. B. &
STOKES T. L. (2001), La multidimensionnalit dun test de facteur
g ? Vers une approche exprimentale
du test des Matrices de Raven, In A.
Flieller, C. Bocran, J-L. Kop, E.
Thibaut, A-M. Toniolo et J. Tournois (Eds.), Questions de psychologie
diffrentielle. Rennes, PUR.
VOM HOFE A. & LEVY-LEBOYER
C. (1993), Evaluation of the use of
personality tests in personel selection in france. Revue Europenne de
Psychologie Applique, 43 (3), 221227.
VRIGNAUD P. (1994), Mthodologie de lvaluation. In M. Huteau
(Ed.) Actes du Colloque international
"Les techniques psychologiques dvaluation des personnes" (pp. 62-67).
Issy-les-Moulineaux, EAP.
VRIGNAUD P. (1996), Les tests au
XXIe sicle. Que peut-on attendre
des volutions mthodologiques et
technologiques dans le domaine de
lvaluation psychologique des personnes ? Pratiques Psychologiques, 4,
5-27.
492
Bibliographie
493
VALUER LINTELLIGENCE
LOGIQUE
Choix des preuves Passation
Interprtation Restitution
Conu comme un support la pratique, cet ouvrage rappelle les
rgles et les prcautions prendre pour parvenir une mesure valide
de lintelligence. Il propose une synthse des diffrentes approches
de lintelligence logique et dcrit, avec de nombreux exemples, les
mthodes utilises pour la mesurer.
Il prsente galement des approches plus rcentes de lvaluation :
lanalyse des stratgies de rsolution et la mesure dun potentiel
dapprentissage.
Chacun des grands types dpreuves fait lobjet :
dune description de son cadre thorique et des conditions de
sa validit ;
dune analyse dtaille de sa construction ;
dindications pour sa mise en uvre, son interprtation et sa
restitution.
Cet ouvrage est principalement destin aux psychologues praticiens,
ainsi quaux tudiants en psychologie soucieux de se former la
pratique de lvaluation des capacits intellectuelles dans le respect
des rgles de dontologie et de validit scientifique.
chelles dintelligence. Les chelles de Wechsler :
WISC-III, WISC-IV, WAIS-III.
Tests de facteur g
Matrices de Raven, NNAT, D48, D70 et D2000, R85/R2000.
Batteries factorielles
NV7, NV5-R, DAT 5.
preuves de Potentiel dapprentissage :
le TEDE 6.
Analyse des stratgies :
le logiciel SAMUEL.
ISBN 978-2-10-053535-4
www.dunod.com
PHILIPPE CHARTIER
est matre de confrences en
psychologie diffrentielle
lINETOP (CNAM, Paris).
EVEN LOARER
est professeur de psychologie
du travail lUniversit Paris
Ouest-Nanterre La Dfense.