Evaluer L'intelligence Logique - Approche Cognitive Et Dynamique

Philippe Chartier
Even Loarer
valuer
lintelligence
logique
APPROCHE COGNITIVE
ET DYNAMIQUE
CHELLES DINTELLIGENCE
(WISC-III, WISC-IV, WAIS III)
TESTS DE FACTEUR G
(RAVEN, DOMINOS)
BATTERIES FACTORIELLES
(NV5, NV7, DAT5)
Table des matires
TABLE DES MATIRES . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
INTRODUCTION . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Premire partie Aspects historiques, thoriques et mthodologiques

CHAPITRE 1 LES CONCEPTIONS THORIQUES
DE LINTELLIGENCE ET DE SA MESURE . . . . . . . . . . . . . . . . . . . . . . . .
Dunod La photocopie non autorise est un dlit
1.
2.
3.
Dfinir et mesurer lintelligence . . . . . . . . . . . . . . . . . . . . . . . . . . .
Dfinir lintelligence . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Mesurer lintelligence . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
11
Repres historiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
12
Les premiers tests mentaux . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
12
De la mesure des processus lmentaires celle des fonctions suprieures . . . .
13
Lapproche factorielle de lintelligence . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
15
Principaux repres actuels de la psychomtrie

de lintelligence . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
21
La structure factorielle de lintelligence : modles de synthse . . . . . . . . . . . .
21
Le niveau intellectuel est-il stable dune gnration lautre ? . . . . . . . . . . . .
24
Le niveau intellectuel est-il stable chez ladulte ? . . . . . . . . . . . . . . . . . . . . . .
27
VI
valuer lintelligence logique
Une ou plusieurs intelligences ? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
31
CHAPITRE 2 DFINITION ET PROPRITS DES TESTS . . . . . . . .
35
1.
Dfinitions pralables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
37
Quest-ce quun test ? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
37
Comment se prsente un test ? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
39
Comment passer dun comportement un score ? . . . . . . . . . . . . . . . . . . . . .
39
Les diffrents types de tests . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
40
La notion de psychomtrie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
43
La standardisation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
45
La notion de fidlit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
47
Le principe de fidlit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
47
Peut-on amliorer la fidlit dun test ? . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
50
Les diffrentes formes de fidlit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
51
3.
La notion de sensibilit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
54
4.
La notion de validit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
56
Principes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
56
Diffrents types de validit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
57
Lanalyse des items . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
63
Lindice de difficult . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
64
Lindice de discrimination . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
65
La notion de biais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
66
Quest-ce quun biais ? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
66
Diffrents types de biais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
67
Conclusion sur la notion de biais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
69
2.
5.
6.
Table des matires
7.
VII
La notion dtalonnage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
70
Principes de ltalonnage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
70
Plusieurs types dtalonnage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
73
Conclusion sur la notion dtalonnage . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
81
8.
Comment valuer un test ? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
83
9.
Les volutions des modles psychomtriques . . . . . . . . . . . . . .
87
Prsentation gnrale de lapproche des modles MRI . . . . . . . . . . . . . . . . . .
88
Les trois modles MRI . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
92
Intrts et limites des modles MRI . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
94
Conclusion sur les modles MRI . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
98
10. Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
99
Deuxime partie Les principaux tests dintelligence

CHAPITRE 3 LES CHELLES DINTELLIGENCE . . . . . . . . . . . . . . . .
1.
2.
103
De lchelle mtrique de Binet & Simon

aux chelles de Weschler . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
105
Lchelle Mtrique dIntelligence de Binet & Simon . . . . . . . . . . . . . . . . . . .
105
Les chelles de Wechsler . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
108
Le WISC-III . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
112
Prsentation de lpreuve . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
113
Standardisation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
115
Les talonnages disponibles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
119
Les qualits psychomtriques du WISC-III . . . . . . . . . . . . . . . . . . . . . . . . . . .
120
Les bases de linterprtation du WISC-III . . . . . . . . . . . . . . . . . . . . . . . . . . .
132
Une version abrge du WISC-III . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
142
Conclusion sur le WISC-III . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
143
VIII
3.
Le WISC-IV . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
144
Pourquoi une nouvelle version du WISC ? . . . . . . . . . . . . . . . . . . . . . . . . . .
144
146
149
Les talonnages disponibles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
151
Les qualits psychomtriques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
152
Les bases de linterprtation du WISC-IV . . . . . . . . . . . . . . . . . . . . . . . . . . .
162
Conclusion sur le WISC-IV . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
172
La WAIS-III . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
173
174
176
179
Les bases de linterprtation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
184
Conclusion sur la WAIS-III . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
190
CHAPITRE 4 LES TESTS DE FACTEUR G (ET DINTELLIGENCE

FLUIDE) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
191
4.
1.
2.
Les tests de Raven . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
194
Prsentation de la version SPM de Raven . . . . . . . . . . . . . . . . . . . . . . . . . . .
196
La version APM des matrices de Raven . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
209
Conclusions gnrales sur les tests de Raven (versions SPM et APM) . . . . . . .
214
Le test NNAT (Test dAptitude Non Verbal de Nagliri) . . . . . .
215
215
Les qualits psychomtriques du NNAT . . . . . . . . . . . . . . . . . . . . . . . . . . . .
219
225
Les bases de linterprtation du ou des scores . . . . . . . . . . . . . . . . . . . . . . . . .
228
Conclusion sur le test NNAT . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
231
Table des matires
3.
Les tests D48, D70 et D2000 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
231
Prsentation des tests . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
231
233
Les items des tests de dominos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
234
235
Linterprtation des scores . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
237
Propositions pour une analyse du profil de rponse . . . . . . . . . . . . . . . . . . . . .
238
Conclusion sur les tests de dominos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
243
Le test R85/R2000 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
244
244
245
246
Linterprtation des scores . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
247
Conclusion sur le test R2000 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
248
Quelques autres tests de facteur g . . . . . . . . . . . . . . . . . . . . . . . .
248
Le test Culture Fair de Cattell . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
248
Le BLS 4 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
249
Le test B53 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
250
Le test RCC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
250
CHAPITRE 5 LES BATTERIES FACTORIELLES . . . . . . . . . . . . . . . . .
253
4.
5.
IX
1.
La batterie NV7 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
255
255
Les qualits psychomtriques de la batterie NV7 . . . . . . . . . . . . . . . . . . . . . .
261
264
Linterprtation des scores de la NV7 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
267
Conclusion sur la batterie NV7 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
270
2.
3.
La batterie NV5-R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
271
Prsentation de la NV5-R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
271
276
278
Les bases dinterprtation des scores . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
281
Conclusion sur la NV5 R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
283
La batterie DAT 5 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
283
Prsentation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
283
Les autres preuves de la DAT 5 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
286
Les qualits psychomtriques de la DAT 5 . . . . . . . . . . . . . . . . . . . . . . . . . . .
288
292
Linterprtation des scores de la DAT5 . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
293
Conclusion sur la DAT5 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
296
Troisime partie Utilisation des tests dintelligence

CHAPITRE 6 DE LA MESURE DES PERFORMANCES
LANALYSE DES STRATGIES . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
299
1.
La notion de stratgie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
302
2.
Vicariance et affordance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
305
3.
Comment identifier les stratgies ? . . . . . . . . . . . . . . . . . . . . . . .
307
Lanalyse de la structure des temps de rsolution . . . . . . . . . . . . . . . . . . . . . .
308
Lanalyse dynamique de la rsolution . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
309
La cration dun matriel spcifique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
311
De lanalyse des stratgies dans lpreuve des cubes de Kohs

au logiciel SAMUEL . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
311
Lanalyse des stratgies dans lpreuve des cubes . . . . . . . . . . . . . . . . . . . . . . .
311
Le logiciel SAMUEL de Rozencwajg . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
318
4.
Table des matires
Conclusion sur SAMUEL . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
324
Conclusion sur lanalyse des stratgies dans les tests . . . . . . . . . . . . . . . . . . . .
326
CHAPITRE 7 LVALUATION DYNAMIQUE . . . . . . . . . . . . . . . . . . .
327
1.
Les principes de lvaluation dynamique . . . . . . . . . . . . . . . . . . .
329
Dfinition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
329
Lvaluation dynamique : les prcurseurs . . . . . . . . . . . . . . . . . . . . . . . . . . . .
329
2.
Les procdures dvaluation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
330
3.
Les conceptions du potentiel dapprentissage . . . . . . . . . . . . .
331
Le potentiel dapprentissage comme meilleure mesure de lintelligence . . . . .
333
Le potentiel dapprentissage comme mesure de la zone proximale de

dveloppement . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
334
Le potentiel dapprentissage comme valuation de la modifiabilit cognitive .
335
Les objectifs de lvaluation dynamique . . . . . . . . . . . . . . . . . . .
336
1r objectif : Amliorer la mesure de lintelligence . . . . . . . . . . . . . . . . . . . . .
336
2e objectif : valuer lducabilit cognitive de lindividu . . . . . . . . . . . . . . . .
337
3 objectif : Pronostiquer la russite dans les apprentissages ultrieurs . . . . . .
338
4e objectif : Recueillir des indications utiles lintervention pdagogique . . .
339
Les mrites de lvaluation dynamique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
340
Les difficults pratiques et mthodologiques de lvaluation

dynamique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
341
Problmes mthodologiques relatifs la procdure ACT . . . . . . . . . . . . . . . .
341
Problmes mthodologiques relatifs la procdure T-A-R . . . . . . . . . . . . . . .
342
Les problmes thoriques de lvaluation dynamique :

que mesure t-on exactement ? . . . . . . . . . . . . . . . . . . . . . . . . . . . .
346
Les rapports entre le potentiel dapprentissage et lintelligence . . . . . . . . . . . .
346
La nature et la signification des progrs conscutifs lapprentissage valu . .
347
4.
XI
5.
6.
XII
La nature des contenus et oprations cognitives qui sont valus et entrans

dans le cadre de lvaluation dynamique . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
348
La validation du potentiel dapprentissage et des critres de validit . . . . . . . .
349
7.
Quels usages des preuves de potentiel dapprentissage ? .
352
8.
Prsentation dpreuves . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
354
Lpreuve de type Aide au cours du test de Ionescu et collaborateurs fonde

sur les cubes de de Kohs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 355
preuve dvaluation dynamique base sur le SPM de Raven . . . . . . . . . . . . .
358
Le Test dvaluation Dynamique de lducabilit, 6 dition (T.E.D.E.6) de

Pasquier . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
359
Conclusions sur le potentiel dapprentissage . . . . . . . . . . . . . .
363
CHAPITRE 8 UTILISATION DES TESTS DINTELLIGENCE . . . . .
365
9.
1.
2.
3.
Les conditions dutilisation des tests . . . . . . . . . . . . . . . . . . . . . .
367
Qui peut utiliser des tests en France ? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
367
Le code de dontologie des psychologues . . . . . . . . . . . . . . . . . . . . . . . . . . . .
370
Qui diffuse les tests en France ? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
373
La formation lutilisation des tests . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
374
Lapproche par la dfinition de normes et par lanalyse des comptences

des utilisateurs de tests . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
375
Les recommandations internationales sur lutilisation des tests . . . . . . . . . . .
378
La pratique des tests . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
380
Quelques rappels . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
380
La pratique des tests : de lanalyse de la demande la restitution des rsultats
383
Exemples de contextes dutilisation des tests dintelligence

logique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
394
Dans le systme ducatif . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
394
Dans le recrutement et les ressources humaines . . . . . . . . . . . . . . . . . . . . . . .
396
Table des matires
XIII
Dans les pratiques de conseil, daccompagnement et dorientation tout au long

de la vie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 405
Dans la formation des adultes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
407
diteurs de tests . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
409
FICHES PRATIQUES . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
411
4.
1.
2.
3.
4.
5.
Le test DAT5 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
411
Prsentation du test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
411
Passation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
411
Informations diverses . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
412
Les tests de dominos : D48, D70 et D2000 . . . . . . . . . . . . . . . . . .
412
412
Passation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
412
413
Les tests NNAT . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
413
413
Passation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
414
414
Le test R2000 (R85) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
414
414
Passation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
415
415
Les tests de Raven : la version SPM . . . . . . . . . . . . . . . . . . . . . . . .
415
415
Passation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
416
416
XIV
6.
Les tests de Raven : la version APM . . . . . . . . . . . . . . . . . . . . . . . .
417
417
Passation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
417
418
Le test Samuel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
418
418
Passation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
419
419
Le test TEDE 6 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
419
419
Passation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
420
420
Les tests de WECHSLER : le WISC-III . . . . . . . . . . . . . . . . . . . . . . .
421
421
Passation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
422
422
10. Les tests de WECHSLER : le WISC-IV . . . . . . . . . . . . . . . . . . . . . . . .
423
423
Passation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
424
424
11. Les tests de WECHSLER : la WAIS-III . . . . . . . . . . . . . . . . . . . . . . .
424
424
Passation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
425
426
12. Le test NV5-R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
426
426
Passation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
427
7.
8.
9.
Table des matires
XV
427
13. Le test NV7 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
427
427
Passation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
428
428
ANNEXES . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
429
1.
2.
Code de dontologie des psychologues praticiens . . . . . . . . . .
Prambule . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
429
429
Titre I. Principes gnraux . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
429
Titre II. Lexercice professionnel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
431
Titre III. La formation du psychologue . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
436
Recommandations internationales sur lutilisation des tests

[extrait] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Introduction et contexte dorigine . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
439
439
Les Recommandations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
444
Prendre ses responsabilits pour un usage thique des tests . . . . . . . . . . . . . . .
450
Assurer une pratique correcte dans lutilisation des tests . . . . . . . . . . . . . . . . .
452
Bibliographie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 460
Annexes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
461
BIBLIOGRAPHIE . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
469
Introduction
ES tests dintelligence datent du dbut du XXe . Depuis cette poque
de trs nombreux ouvrages sont parus sur le sujet, destination des

chercheurs, des tudiants et/ou des praticiens. Alors... pourquoi
un livre de plus ?
La premire ambition de cet ouvrage est dapporter une vision la
fois large et actualise de lvaluation de lintelligence logique, qui intgre
la fois la prsentation des standards classiques et celle des volutions plus
rcentes dans le domaine, et cela, tant du point de vue des connaissances
thoriques que des mthodes et outils dvaluation.
La seconde ambition est quil fournisse une aide et un soutien thorique
et mthodologique au travail du praticien dans toutes les tapes et dans
tous les aspects du processus dvaluation de lintelligence logique :
pour le choix des preuves (selon les objectifs, les personnes, les contraintes
et conditions de passation, la qualit des preuves et des talonnages...) ;

pour la mise en uvre de lvaluation (en temps libre ou limit, en
individuel ou collectif...) ;
pour la correction et linterprtation des rsultats (indices, talonnages,
scatters, mise en relation avec des critres...) ;
pour la restitution aux personnes values (manire de le faire, supports...) ;
pour le respect des rgles de dontologie et la mise en ouvre de pratiques
non discriminatoires.
La troisime ambition est quil puisse tre un bon support pdagogique

la formation des tudiants de psychologie dans ce domaine. La place
accorde lenseignement de la mthodologie de la mesure en psychologie,
et en particulier la formation la mthode des tests, est assez htrogne
selon les universits, alors mme que lon observe depuis quelques annes
un fort regain dintrt des praticiens, et futurs praticiens, pour ce domaine,
mais aussi une augmentation de la demande sociale et de celle des particuliers,

en manire dvaluation.
Une formation solide la pratique des tests est dautant plus importante
dans le contexte actuel o les pratiques dvaluation, en particulier via
Internet, mais galement dans de nombreux cabinets spcialiss, ne satisfont
souvent pas aux critres qui leur garantissent un minimum de validit1 . Les
pratiques peu valides ne prservent pas le droit des personnes values
bnficier dun traitement quitable, chaque fois quune dcision est prise
sur la base de ces valuations. Elles trompent galement la personne qui
cherche plus simplement mieux se connatre .
Louvrage vise donc faire le point sur les principaux lments thoriques
et mthodologiques sur lesquels reposent les pratiques dvaluation de
lintelligence logique. Il dresse un panorama des tests dans ce domaine et
fournit un certain nombre dindications concernant les spcificits, qualits,
utilisations et limites de ces diffrents tests2 . Plus prcisment, nous avons
souhait prsenter :
1. Les cadres historiques, thoriques, mthodologiques et dontologiques
qui nous semblent indispensables pour garantir la fiabilit dune
valuation psychologique ;
2. Une large slection dpreuves utilisables en France, certaines dj
largement connues et utilises (chelles de Wechsler, Matrices de
Raven...), dautres sans doute moins (le logiciel Samuel, les pratiques
dvaluation dynamique...), afin de regrouper, dans un mme ouvrage,
un ensemble assez vaste doutils aujourdhui disponibles et utilisables.
Dans la mesure du possible, nous avons illustr ces preuves par des
exemples ditems3 ;
3. Une analyse de ces preuves. Il ne sagissait pas pour nous de lister
uniquement des preuves mais dapporter, en toute modestie et en nous
appuyant sur leur analyse et sur lexprience de leur mise en uvre, un
regard critique et des suggestions et recommandations sur ces outils et
1. En la matire, le pire ctoie souvent le meilleur et le peu de communication des socits sur les
mthodes utilises, sous couvert de protection concurrentielle, ne permet souvent pas de faire un
choix clair.
2. Ce qui le distingue par exemple de louvrage de Zurfluh (1976) qui tait certes exhaustif, mais
ne fournissait quune information limite sur chaque test. En outre, cet ouvrage ne constitue plus
aujourdhui, du fait de son anciennet, une rfrence suffisante la pratique.
3. Nous remercions vivement les ECPA pour leur aimable autorisation de reproduire certains
exemples ditems de tests
Introduction
leurs usages. Dans tous les cas, le prsent ouvrage nest pas destin
remplacer les manuels dutilisation de ces preuves. Nous souhaitons, au
contraire quil renforce lenvie de sy reporter et quil constitue galement
une invitation la consultation de documents complmentaires (livres,
articles, ...) relatifs aux approches et preuves que nous prsentons ;
4. Dautres approches valuatives relativement mconnues, telles que
lanalyse des stratgies de rsolution ou encore lvaluation dynamique
de lintelligence, qui apportent des perspectives de renouvellement
des pratiques (et des outils) dvaluation (Huteau et Lautrey, 1999a).
Mme si ces preuves sont encore rares, et quelles restent souvent
perfectibles, elles tmoignent de rapprochements intressants entre
thories et pratiques et peuvent apporter des solutions pratiques trs
utiles certaines problmatiques.
Cet ouvrage prsente bien entendu certaines limites. Il est limit dans son
primtre : centr sur la question de lvaluation de lintelligence logique
il naborde pas la question de lvaluation dautres formes dintelligence
(sociale, pratique, motionnelle...). Il est galement limit dans les niveaux
dges pris en compte : il concerne lvaluation des adolescents et adultes
et ne prsente donc pas les preuves utilisables auprs des enfants dge
prscolaire et scolaire. Enfin, tous les test dintelligence logique ny figurent
pas, par ncessit de faire des choix (par exemple les tests sur support
verbal, tels que ceux labors par Bonnardel (cf. Thibaut, 2000, pour une
prsentation), ou encore les tests inspirs de la thorie de Piaget (mieux
adapts pour les plus jeunes).
Louvrage est organis en trois parties :

1. La premire partie prsente les aspects historiques et thoriques de lintelligence logique (chapitre 1) ainsi que les principes mthodologiques
de sa mesure (chapitre 2) ;
2. La seconde partie est consacre la prsentation des principales familles
de tests dintelligence : les chelles dintelligence (chapitre 3), les tests
de facteur g (chapitre 4) et les batteries factorielles (chapitre 5) ;
3. La troisime partie porte sur lutilisation des tests. Au-del des approches
classiques dutilisation des tests qui consistent recueillir et analyser
des scores de performance et qui sont largement voques lors de la
prsentation des preuves, deux orientations plus contemporaines de
lvaluation sont prsentes dans cette partie : lanalyse des stratgies
de rsolution (chapitre 6) et lapproche de lvaluation dynamique
(chapitre 7). Enfin un dernier chapitre est consacr aux diffrents cadres
dutilisation des tests ainsi quaux aspects dontologiques relatifs
lvaluation des personnes.
En annexe figurent des fiches synthtiques des preuves prsentes
ainsi que la reproduction de deux documents : le Code de Dontologie des
Psychologues et les recommandations internationales sur lutilisation des tests.
Conu comme un manuel pratique, chacune de ses parties peut tre lue
de faon indpendante. De nombreux renvois sont faits dans le texte pour
permettre de multiples itinraires de lecture.
La pratique de lvaluation ncessite nos yeux la matrise dun ensemble
de connaissances souples, et articules, ainsi quune pratique rflexive.
Il est essentiel de ne pas appliquer de faon mcanique des procdures
standard (comme par exemple le calcul des scores) mais de comprendre et
matriser tous les aspects de lvaluation (des conditions de standardisation
linterprtation des scores) afin de pouvoir sajuster au mieux chaque
situation prise dans sa complexit, sans pour autant mettre en pril les
principes de la standardisation. Cela est ncessaire pour sassurer la fois de
la validit de la mesure et des conditions de respect des droits de la personne
value.
Si cet ouvrage contribue lun des objectifs fixs dans les recommandations
internationales sur lutilisation des tests de promouvoir une bonne utilisation
des tests et dencourager des pratiques exemplaires dans le domaine de
lvaluation (SFP, 2003, p. 9), nous pourrons considrer avoir atteint
notre but.
PREMIRE PARTIE
Aspects historiques,
thoriques
et mthodologiques
CHAPITRE
1
Les conceptions
thoriques
de lintelligence
et de sa mesure
Sommaire
1. Dfinir et mesurer lintelligence . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Page 9
2. Repres historiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Page 12
3. Principaux repres actuels de la psychomtrie

de lintelligence . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Page 21
Aspects historiques, thoriques et mthodologiques
1.
Dfinir et mesurer lintelligence

Comprendre la nature et les proprits de lintelligence humaine est lune
des grandes proccupations de la psychologie depuis ses origines.
La notion a fait lobjet de nombreuses tentatives de modlisation et a
t au centre de nombreux dbats, tant thoriques ou mthodologiques
quidologiques.
Elle a galement donn lieu la production dun grand nombre de
mthodes et doutils dvaluation.
Dans ce premier chapitre, nous prsenterons les principaux modles de
lintelligence proposs par diffrents auteurs tout au long du XXe sicle.
Nous verrons quils ont t conus dans certains contextes scientifiques,
mais aussi sociaux et idologiques et sont associs, dans la majorit des
cas des techniques et modalits dvaluation dont les principales seront
prsentes dans la suite de cet ouvrage.
Dfinir lintelligence
La diversit des modles produits et des approches retenues par les auteurs
tmoigne de la difficult rencontre cerner cette notion. Lintelligence
humaine est en effet une abstraction. Cest un construit thorique labor
pour rendre compte dun ensemble de conduites humaines perues comme
efficientes.
Etymologiquement, le terme vient du latin intelligere qui signifie
comprendre. Mais la simple fonction de comprendre ne suffit pas lvidence
rendre compte de lintelligence humaine.
En 1921, soucieux dy voir plus clair, les diteurs du Journal of Educational
Psychology demandrent un groupe dexperts reconnus dans le domaine de
la psychologie de donner une dfinition de lintelligence. Il en rsulta une
grande varit de rponses.
Ritrant lexercice soixante-cinq ans plus tard, Sternberg et Detterman
(1986) firent le mme constat dune absence de consensus. Nanmoins, dans
ces deux tudes, ainsi que dans une troisime (mene un an plus tard par deux
chercheurs amricains (Snyderman et Rothman, 1987) selon un principe
analogue auprs dun large chantillon de plusieurs centaines dexperts), les
caractristiques prsentant le plus fort consensus concernent les capacits
10
Les conceptions thoriques de lintelligence et de sa mesure
mener des raisonnements abstraits, rsoudre des problmes nouveaux,

acqurir de nouvelles connaissances, sadapter lenvironnement (cf.
tableau 1.1). Viennent ensuite les capacits de mmorisation, de vitesse
mentale, les capacits linguistiques et mathmatiques ou encore la culture
gnrale et la crativit. Lintelligence serait donc principalement comprise
comme ce qui permet de comprendre, connatre, raisonner et rsoudre des
problmes.
Tableau 1.1
Classement des caractristiques essentielles de lintelligence selon un chantillon
de 661 experts (tude de Snyderman et Rothman 1987).
1.
Pense ou raisonnement abstrait
99 %
2.
Aptitude rsoudre des problmes
98 %
3.
Capacit acqurir des connaissances
96 %
4.
Mmoire
81 %
5.
Adaptation lenvironnement
77 %
6.
Vitesse mentale
72 %
7.
Capacit linguistique
71 %
8.
Capacit en mathmatiques
68 %
9.
Culture gnrale
62 %
10.
Crativit
60 %
On peut cependant constater, plus gnralement, que la finalit adaptative

de lintelligence est prsente dans la grande majorit des dfinitions, comme
lindiquait dj Wechsler en 1944 lintelligence est la capacit complexe ou
globale dun individu dagir en fonction dun but, de penser rationnellement
et davoir des rapports efficaces avec son environnement (cit par Grgoire,
2004, p. 150) ou encore Piaget en 1970 en affirmant que : lintelligence
cest ladaptation . Cette dfinition, trop gnrale pour pouvoir tre fausse,
ne doit cependant pas masquer les divergences entre auteurs que nous avons
voques.
Plusieurs explications peuvent tre donnes ces divergences (cf. Lautrey,
2006). Une premire serait de considrer que lintelligence est une notion
trop gnrale, trop floue, trop abstraite (comme il en est de mme
actuellement, par exemple, pour la notion de comptence), pour donner lieu
une vritable investigation scientifique, seule voie possible llaboration
11
dun consensus. La seconde, qui a la prfrence de nombreux chercheurs

contemporains en psychologie cognitive et diffrentielle, est que lintelligence
est une fonction adaptative de haut niveau qui se manifeste travers une
multiplicit de mcanismes et qui peut donc tre apprhende sous de trs
nombreux angles. Cianciolo et Sternberg (2004) illustrent cette position
par la clbre fable bouddhiste des aveugles et de llphant : chacun en
touche une partie diffrente et conclut que llphant a les proprits de
la partie quil dcouvre. Lunit de lintelligence peut-elle merger de la
somme des modles qui la dcrivent ? Ce nest probablement pas si simple,
car la question principale est celle de lintgration des diffrentes fonctions
et processus. Nanmoins, des travaux existent qui visent proposer des
visions synthtiques de plusieurs modles1 .
Mesurer lintelligence
La mesure de lintelligence a, depuis ses premires origines, servi deux

objectifs distincts bien qutroitement complmentaires.
Le premier objectif est dordre pistmologique. Il concerne la production
de connaissances sur ce quest lintelligence humaine. Dans ce domaine
comme dans beaucoup dautres, la construction dune connaissance
scientifique et la mesure des phnomnes concerns sont, comme
la soulign Bachelard (1934, 1938), troitement lies. voquant le
dveloppement des sciences, Ullmo (1969, cit par Gillet, 1987) rappelle
qu un pas dcisif a t franchi lorsquon a compris que cest la mesure
qui dfinit la grandeur mesurer, celle-ci ne prexiste pas sa mesure,
comme une intuition sommaire la fait longtemps croire (p. 24).
Le second objectif est dordre pratique. Il correspond un besoin dapporter
des rponses des demandes sociales. Dans lhistoire contemporaine
des recherches sur lintelligence, cest souvent le second objectif qui a
prcd le premier. Cest par exemple le cas des travaux de Binet. Si
Binet est lgitimement considr comme lun des pres de lintelligence,
il est remarquable de noter que son souci premier ntait pas de dfinir et
modliser lintelligence mais de trouver des solutions pour mieux scolariser
1. Cest par exemple le cas des travaux au sein de lapproche factorielle qui proposent des modles
hirarchiques synthtiques (Gustaffson (1984), Caroll (1993), ou encore de ceux de Lautrey (2001)
qui rapprochent le courant psychomtrique classique et ltude des processus cognitifs. On peut
galement mentionner la tentative rcente de Rozencwajg (2005) de proposer une vision intgrative
de lintelligence.
12
les enfants prsentant des difficults et des retards dapprentissage et des

dficits de russite scolaire (Binet, 1911).
Ainsi, la mesure, forme standardise et instrumente dobservation,
est ncessaire pour construire la connaissance. Mais la connaissance est
galement ncessaire llaboration de mthodes et doutils de mesure. Le
paradoxe est bien l : construire de bons instruments de mesure ncessite
une bonne connaissance de ce que lon cherche mesurer mais cette
connaissance est elle-mme dpendante des mthodes et instruments de
mesure disponibles. Ce nest donc que par un ajustement progressif et
souvent laborieux de ces deux approches que la connaissance progresse.
En outre, llaboration thorique et la construction dinstruments de
mesure ne se font quen fonction dun certain contexte intellectuel et
social. Celui-ci voluant dans le temps, les dfinitions et conceptions de
lintelligence ont galement volu. Nous donnerons dans ce chapitre un
rapide aperu des principales tapes de cette volution et des conceptions
proposes par diffrents auteurs et voquerons, lorsquelles existent les
mthodes de mesure correspondantes.
2.
Repres historiques
Les premiers tests mentaux
Les premires tentatives de mesure quantitative des processus mentaux sont

apparues la fin du XIXe sicle avec la naissance de la psychologie scientifique.
Dans cette perspective, Wilhem Wund (1932-1920), psychologue
allemand, cre Leipzig en 1879 le premier Laboratoire de psychologie
exprimentale. Il dveloppe des mthodes prcises de mesure des seuils
perceptifs et des temps de ractions et cherche comprendre les processus
luvre dans ces tches sensorielles lmentaires De nombreux tudiants
europens et nord-amricains viendront se former dans son laboratoire aux
mthodes de la psychologie exprimentale. Lun des tudiants, venu des
tats-Unis est James McKeen Cattel (1960-1944). Alors que Wund est
essentiellement proccup par ltablissement de lois gnrales des processus
sensoriels, Cattel sintresse aux diffrences entre les individus et constate
que celles-ci ont tendance prsenter une certaine stabilit. De retour aux
tats-Unis, il slectionne certaines situations exprimentales et les utilise
13
pour tudier les diffrences interindividuelles. En 1890 il utilise le terme de

test mental pour dsigner ces situations exprimentales standardises.
la mme poque, en Angleterre, Francis Galton (1822-1911), qui
est cousin de Darwin, fait galement des travaux sur les diffrences
interindividuelles dans les processus sensoriels lmentaires. Il le fait dans
loptique de vrifier que la thorie de lvolution de Darwin sapplique aussi
au dveloppement de lintelligence dans lespce humaine. Galton cre des
tests physiques et sensoriels quil applique de faon standardise de grands
chantillons et invente les talonnages. Il tudie les performances des parents
et des enfants dans loptique de montrer que les diffrences individuelles
sont hrditaires et labore, cette occasion, les principes de la rgression et
du coefficient de corrlation.
Si les premiers tests mentaux ont t crs en fonction de proccupations
essentiellement scientifiques (comprendre les lois de la perception, tester la
thorie de Darwin...), il est rapidement apparu quils taient susceptibles de
contribuer rpondre certains besoins de la socit de lpoque.
La fin du XIXe sicle est marque par une forte industrialisation et par
une volont de gnraliser lducation. De nouveaux besoins en dcoulent
en matire dvaluation des personnes des fins dorientation vers des
formations ou vers des emplois. En France, les lois Ferry de 1881 et 1882
rendant linstruction lmentaire obligatoire, ont fait merger dautres
besoins dvaluation, en particulier celui de distinguer parmi les lves
dcole lmentaire, ceux qui navaient pas les moyens intellectuels pour
suivre lenseignement gnral et leur fournir un enseignement adapt afin
de remdier ces retards de dveloppement.
Cest en rponse cette demande sociale quAlfred Binet a t amen
crer son test dintelligence avec Thodore Simon.
De la mesure des processus lmentaires celle des fonctions
suprieures
Binet tait trs critique vis--vis des tests issus dexpriences de laboratoire et
portant sur des processus lmentaires comme moyen dvaluer les capacits
intellectuelles quil percevait comme plus complexes. Dailleurs, les premires
tentatives de Cattel, dvaluer laide de ses tests mentaux les tudiants de
luniversit de Columbia donnrent raison Binet : elles dmontrrent quil
ny avait pas de relation entre les rsultats dans ces tests et la russite dans
les tudes universitaires.
14
Binet tait convaincu que les diffrences individuelles dans les capacits
intellectuelles seraient mieux estimes par des tches de mmorisation,
de raisonnement, de jugement ou dimagerie mentale. Encore fallait-il
concevoir les tches adaptes.
Binet commence alors avec Simon, qui tait mdecin dans un institut
pour enfants retards , mettre au point des preuves nouvelles et
les essayer dans les coles. Ils constatent que certains items chous par
des enfants retards sont russis par des enfants normaux de mme
ge. La russite ces items, ou groupes ditems, doit alors permettre de
diagnostiquer un retard, ou une avance, de dveloppement intellectuel.
Chaque enfant peut ainsi tre caractris la fois par son ge rel et par un
ge mental correspondant son niveau de russite (voir dans le chapitre 3
la prsentation de la notion dge mental).
En 1904, une commission ministrielle, la commission Bourgeois, charge
officiellement Binet dtudier le problme du diagnostic de la dbilit
mentale. Il ne mettra, avec Simon quun an mettre au point leur premire
chelle mtrique de dintelligence. Nous reviendrons plus en dtail sur cette
chelle dans le chapitre 3.
Lchelle de Binet-Simon a eu un succs immdiat et fulgurant. Elle
permettait de sortir de limpasse o se trouvait le problme de lvaluation
de lintelligence et fournissait enfin des moyens de rpondre aux demandes
sociales en matire dvaluation des personnes. Une seconde version du BinetSimon est publie en 1908 et lchelle est adapte aux tats-Unis ds 1909.
Lewis Terman (1977-1956), professeur luniversit de Stanford, produit
en 1916 le Stanford-Binet et lpreuve fait ensuite lobjet de nombreuses
adaptations. Durant la premire guerre mondiale (1914-1918), Arthur
S. Otis (1886-1964), lve de Terman, sinspirera du Binet-Simon pour
produire, la demande de larme amricaine deux tests collectifs utilisables
pour la slection et lorientation des recrues : lArmy alpha (niveau normal) et
lArmy Beta (niveau illettr). Grce ces possibilits de passation collective,
1,7 million de recrues ont t tests entre 1916 et 1918.
En 1912, Stern prolonge lide dage mental de Binet en inventant un
nouvel indice appel quotient intellectuel (QI), rapport entre lge mental et
lge chronologique. Il propose ainsi un indice de vitesse de dveloppement
intellectuel, interprtable en termes davance ou de retard. Cet indice sera
trs utilis, et pas toujours bon escient, et donnera lieu de nombreuses
controverses au XXe sicle (voir Gould, 1983 ; Tort, 1974, Huteau et Lautrey,
1975) et encore actuellement (Lautrey, 2007).
15
Lapproche factorielle de lintelligence
Un facteur gnral unique ?
peu prs la mme priode o Binet et Simon travaillaient en France

leur chelle dintelligence, Charles Spearman (1863-1945), chercheur
londonien, envisage une autre approche de lintelligence. Il est lui aussi lve
de Wundt et est influenc par Galton et par ses dcouvertes statistiques. Il va
en particulier perfectionner la mesure des corrlations et inventer lanalyse
factorielle. Il pense que lon peut sappuyer sur cette analyse mathmatique
des performances des individus pour identifier les dimensions intellectuelles
sur lesquelles les individus peuvent tre compars. Il publie en 1904 un
article intitul General intelligence, objectively determined and mesured ,
dans lequel il expose les principes de sa mthode et les premiers lments de
sa thorie du facteur gnral dintelligence. Aprs avoir fait passer diffrentes
tches trs varies, essentiellement scolaires, un chantillon de sujets et
analys les notes obtenues avec sa mthode de calcul, il obtient un facteur
de variation commun lensemble des preuves et un facteur spcifique
chaque preuve. Il appelle ce facteur commun facteur gnral dintelligence
ou facteur g. Son modle factoriel de lintelligence est prcis dans un ouvrage
publi en 1927 ( The abilities of man, their nature and measurement ).
Pour Spearman, le facteur g rvl par lanalyse factorielle correspond
de lnergie mentale . Spearman met en vidence que les tches les plus
fortement satures en facteur g sont des tches dduction de relations et
de corrlats , cest--dire dextraction et dapplications de rgles. Le facteur
g reflte donc une capacit trs gnrale tablir et appliquer des relations.
duction de relations
Consiste trouver des relations entre plusieurs lments.
Ex : Quy a-t-il de commun entre une voiture et un avion ?
duction de corrlats
Consiste trouver un objet partir dun autre, lorsque lon connat les relations
qui les unissent.
Ex : Truite est pcheur ce que lapin est ... ?
Ce modle factoriel, appel aussi monarchique , est donc un modle en

deux niveaux de facteurs (modle bi-factoriel) : le premier niveau correspond
aux facteurs spcifiques chaque tche et le second niveau est celui du facteur
commun lensemble des tches (facteur g). Ce modle suppose donc que
les tches possdent une part de variance commune. La russite dans lune,
16
covarie avec la russite dans les autres. La figure 1.1. fournit une illustration
schmatique de ce modle.
10
9
4
5
6
Figure 1.1
Reprsentation schmatique du modle de Spearman : les diffrentes preuves
(numrotes de 1 10) saturent pour partie dans un facteur unique appel facteur g .
On peut noter que, bien quayant adopt des approches mthodologiques

et thoriques trs diffrentes, Binet et Spearman partagent une conception
globale et unidimensionnelle de lintelligence. Cette position se retrouvera
galement dans lapproche de Daniel Wechsler (1896-1981) qui, partir
de 1939 proposera plusieurs chelles composites de mesure de lintelligence.
Weschler propose en 1939 une alternative au Binet Simon. Il adopte une
nouvelle mthode de questionnement et une autre faon de calculer le QI
que celle propose par Stern (voir chapitre 3).
Il existe plusieurs tests qui ont t conus en rfrence aux travaux de
Spearman. Nous en prsentons un certain nombre dans le chapitre 4 de cet
ouvrage. En particulier John Raven sinspirera de ces travaux de Spearman
pour crer une preuve fortement sature en facteur g : lpreuve des matrices
(SPM).
On peut galement noter que le facteur g et le QI sont tout deux des
indices dune intelligence unidimensionnelle, qui, bien quobtenus de faon
trs diffrente sont sur le fond trs proches. De fait, les rsultats aux Matrices
de Raven corrlent en moyenne .80 avec des scores de QI (chelles de
Weschler par exemple).
17
Des aptitudes primaires indpendantes ?

Il est important de noter que les rsultats de Spearman ont t obtenus
en liminant soigneusement, dans les preuves choisies, toutes celles
pouvant faire double emploi. Il a bien not que lorsquil maintenait par
exemple plusieurs tests verbaux dans sa batterie dpreuve, ceux-ci saturaient
certes dans le facteur G mais corrlaient galement entre eux. Les tests
verbaux saturaient donc galement dans un facteur appel facteur de
groupe propre aux tests verbaux. Spearman a minimis limportance
de ces facteurs de groupe. Au contraire, dans les annes trente, laccent
a t mis sur lexistence et limportance de ces facteurs de groupes par
diffrents psychologues amricains et en particulier par Louis, L. Thurstone
(1887-1955). Thurstone a utilis les techniques danalyse factorielles, quil
a contribu perfectionner, et a constat que lorsque lon ne slectionne
pas comme le faisait Spearman de faon systmatique les preuves prises
en compte, des facteurs de groupe apparaissent. Le facteur g serait donc le
produit dune slection des preuves et sa mise en vidence artificielle. Les
facteurs que Thurstone identifie, et quil appellera facteurs primaires ont
t par la suite retrouvs par la plupart des auteurs. Dans un ouvrage de
1935 intitul The vectors of the mind il prsente lensemble de son modle
et tablit une liste de 9 facteurs primaires. Dans la suite de ses travaux,
il en retiendra principalement 7 (voir tableau 1.2.). Pour Thurstone, ces
facteurs sont indpendants et correspondent des aptitudes primaires
ou capacits intellectuelles qui structurent lintelligence. Pour cet auteur
lintelligence nest donc pas unidimensionnelle mais multidimensionnelle
(ou multifactorielle), chaque aptitude primaire constituant une forme
particulire dintelligence.
De nombreux tests dintelligence vont tre inspirs de ce modle. Tout
dabord, en 1938 parat une premire version de la batterie factorielle
Primary Mental Abilities (PMA) mise au point par Thurstone lui-mme.
Cette preuve est encore disponible et utilise aujourdhui. Dautres batteries
factorielles sont prsentes dans le chapitre 5.
Peut-on concilier facteur G et aptitudes primaires ?

Lopposition entre le modle de Spearman et celui de Thurstone nest en
ralit quapparente. En effet, dans le modle de Thurstone, bien que les
aptitudes soient prsentes comme indpendantes les unes des autres, les
recherches indiquent que des corrlations existent entre les facteurs primaires.
18
Tableau 1.2
Les sept aptitudes primaires (capacits intellectuelles)
identifies par Thurstone (1941).
Capacits
Dfinition
Aptitude numrique
Rapidit et prcision dans le traitement dinformation chiffre.
Comprhension
verbale
Comprhension du langage et du vocabulaire.
Fluidit verbale
Production dinformations langagires nombreuses et varies.
Visualisation spatiale
Reprsentation mentale et traitement des objets, des lieux,

des proprits gomtriques.
Mmorisation
Stockage et restitution dinformations.
Raisonnement
infrentiel
Rsoudre des problmes par raisonnement logique (identifier

les rgles, appliquer les rgles, faire des hypothses).
Vitesse perceptive
Reprer rapidement des similitudes ou des diffrences sur des

units dinformation lmentaires.
Thurstone na pas accord beaucoup dimportance ce fait, mais dautres

auteurs sont venus ensuite proposer des modles plus complets qui vont
rconcilier les points de vue de Spearman et de Thurstone dans des modles
hirarchiques de la structure factorielle de lintelligence.
Cest le cas de Burt et Vernon (cf. Vernon, 1950, 1952) ou encore de
Cattel et Horn (Horn et Cattel, 1966, Cattel, 1971).
Ces auteurs analysent non seulement les saturations des tests dans les
facteurs de groupe mais aussi les corrlations entre facteurs de groupes.
Cattel et Horn, deux psychologues qui travaillent aux tats-Unis,
procdent par analyses factorielles successives. Aprs avoir extrait la variance
explique par les facteurs primaires de Thurstone, ils mnent une seconde
analyse factorielle (dite de second ordre) visant extraire la variance
commune aux facteurs primaires. Ils obtiennent ainsi plusieurs facteurs
gnraux, dont les 3 principaux sont : un facteur gnral dintelligence
fluide, un facteur gnral dintelligence cristallise et un facteur gnral
dintelligence visuo-spatiale. Les aptitudes de ces registres ont des proprits
distinctes. Celles qui relvent de lintelligence fluide sont, selon les auteurs, des
produits de lquipement neurologique et des apprentissages incidents. Ils
conditionnent la russite dans les activits qui impliquent la manipulation
de relations complexes, la formation de concepts, le raisonnement et la
19
N
2
P
9
3 R
4
S
10
Figure 1.2
Reprsentation schmatique du modle de Thurstone : les diffrentes preuves (numrotes
de 1 10) saturent pour partie dans des facteurs de groupe appels facteurs primaires
qui correspondent des registres intellectuels distincts.
rsolution de problmes nouveaux. Celles qui relvent de lintelligence cristallise dpendraient de la culture, de la pratique scolaire, des apprentissages
intentionnels, des habitudes, de lexprience. Lintelligence fluide serait
donc plus fortement dtermine par lhrdit que lintelligence cristallise.
Cette distinction quils introduisent entre intelligence fluide et cristallise,
sera ensuite reprise par de nombreux auteurs (cf. par exemple Baltes &
Baltes, 1990).
Burt et Vernon, psychologues travaillant Londres, procdent galement
par des analyses factorielles mais optent pour une mthodologie diffrente.
Alors que Cattel et Horn ont procd lanalyse des donnes du bas vers le
haut, eux vont aller du haut vers le bas. Ils extraient tout dabord la variance
du facteur gnral dans la batterie de test utilise, puis observent que la
variance restante se partage entre deux grands facteurs de groupe. Ils appellent
le premier Verbal-Education (V-E) et le second Kinesthsique-Moteur
20
(K-M). Une fois retire la variance de ces deux grands facteurs, la variance
restante se rpartit entre plusieurs facteurs plus spcifiques qui correspondent
aux facteurs primaires de Thurstone (cf. figure 1.3).
Figure 1.3
Reprsentation schmatique du modle hirarchique de Burt et Vernon.
Les deux modles hirarchiques de ces auteurs prsentent des points

communs mais aussi plusieurs diffrences qui sont restes longtemps non
rsolues. Le modle de Burt et Vernon comprend trois niveaux alors que celui
de Cattel et Horn nen contient que deux : il ne fait pas figurer de facteur
gnral coiffant lensemble. Ce nest que plus rcemment que Gustaffson
(1984) a apport les lments permettant dexpliquer les contradictions
entre ces deux modles. Grce aux possibilits offertes par les analyses
factorielles confirmatoires, il montre que le modle le mieux ajust aux
donnes dune batterie de tests (analyse factorielle restrictive) est bien un
modle en 3 niveaux comportant un facteur gnral. Il montre aussi que le
facteur gnral de Burt et Vernon explique la mme part de variance que
le facteur dintelligence fluide (Gf) de Cattel et Horn. Il parvient donc
un modle stabilis de la structure factorielle de lintelligence, modle qui
sera confirm et affin quelques annes plus tard par Carroll (1993). Nous
prsentons le modle de Carroll, qui constitue la meilleure rfrence ce
jour sur la question, dans la partie suivante.
3.
21
Principaux repres actuels de la psychomtrie

de lintelligence
La structure factorielle de lintelligence : modles de synthse
John B. Carroll, procde par mta-analyse, cest--dire quil collecte les

donnes issues de nombreuses tudes publies relatives la structure
factorielle des tests dintelligence et retraite ces donnes afin de trouver
le modle hirarchique qui reflterait le mieux lensemble de ces donnes.
Il obtient les informations relatives 460 tudes (ce qui correspond plus
de 130 000 sujets !) et constate que le modle qui rend le mieux compte de
ces donnes est un modle en 3 niveaux (3 strates) qui intgre lensemble
des modles prcdemment fournis. On y retrouve ainsi le facteur g de
Spearman, ainsi que la structure multifactorielle de Thurstone et une
structure hirarchique qui concilie la fois le modle de Cattel et Horn
et celui de Burt et Vernon. Ce modle prsente bien des similitudes avec
celui de Gustaffson, mais offre une vision plus exhaustive et dtaille de la
structure hirarchique. Ce modle, dont lorganisation est prsente dans la
figure 1.4, fait aujourdhui lobjet dun large consensus.
La strate I correspond aux facteurs spcifiques (une trentaine), la strate II
aux facteurs de groupe (8), et la strate III au facteur gnral. Les facteurs de
la strate II sont hirarchiss en fonction de leur niveau de saturation dans le
facteur g. Ainsi, par exemple, les tests dintelligence fluide sont de meilleurs
reprsentants de lintelligence gnrale que les tests de vitesse de traitement.
Nous pouvons noter que ce modle distingue des formes varies
dintelligence (identifies en particulier par les facteurs de la strate II). Ils
prsentent entre eux une relative indpendance qui rend compte du fait
quun individu peut tre performant dans un domaine sans ncessairement
ltre dans tous les autres. Cela permet danalyser les diffrences individuelles
autrement qu travers un score unique sur une chelle unique et justifie le
recours aux batteries factorielles dintelligence. Nanmoins, la prsence dans
le modle dun facteur gnral tmoigne dune tendance statistique non
nulle ce que les rsultats obtenus dans lensemble des preuves corrlent
ente eux, ce qui donne galement un sens lutilisation des preuves de
facteur g.
Les modles multifactoriels hirarchiques peuvent fournir une aide
prcieuse au praticien de lvaluation. La slection des tests ou des tches
utiliser pour mener bien une valuation peut tre claire par un
22
Strate III
Strate II
Intelligence fluide
Intelligence
cristallise
Mmoire
et apprentissage
Intelligence
gnrale
G
Strate I
Raisonnement Gnral
Induction
Raisonnement quantitatif
Raisonnement Piagtien
Dveloppement du langage
Comprhension verbale
Connaissance lexicale
Comprhension de lecture
Codage phontique
Empan mnmonique
Mmoire associative
Mmoire visuelle
Reprsentation
visuo-spatiale
Visualisation
Relations spatiales
Vitesse de clture
Flexibilit de structuration
Reprsentation
auditive
Discrimination auditive
Jugement musical
Mmoire des sons
Rcupration
en mmoire
long terme
Rapidit cognitive
Vitesse
de traitement
Originalit / crativit
Fluidit idationnelle
Fluidit dassociation
Fluidit verbale
Facilit numrique
Vitesse perceptive
Temps de raction
Vitesse de comparaison mentale
Figure 1.4
Structure hirarchique des capacits cognitives (daprs Caroll 1993. Facteurs de vitesse
en italiques et de puissance en caractres normaux).
positionnement des preuves existantes, ou des types de tches, en fonction

de la place quoccupent les capacits correspondantes dans le modle
hirarchique (identifie par lanalyse des saturations des items de ces tests
dans les diffrents facteurs).
23
Nous prsentons dans la figure 1.5 une cartographie de tests dintelligence

propose par Snow, Kyllonen et Marshalek (1984), Snow et Lohman (1989)
qui sappuie sur une reprsentation en Radex labore partir des travaux
de Guttman (1957, 1965).
Numrique
Addition
Multiplication
Soustraction
Division
Jugement numrique
Empans
de chiffres,
de lettres
Raisonnement numrique
Srie de nombres
Comparaison
de chiffres
de symboles
de figures identiques
Analogies de nombres
Rotation
l
rba
e
V
Rappel
de paragraphe
Comprhension
de lecture
Assemblage
dobjets
Sp
a
t
ial
mentale
Anagrammes
Matrices Dveloppement
Voc. Srie
Reconstruction
Voc.
de Raven de surfaces
df. de lettres
de formes
reconn.
Analogies
Analogies
Formation verbales
gomtriques
de concepts
Assemblage
mcanique
Comprhension
Cubes
lcoute
de Kohs
dun texte
Compltion
dimages
Figure 1.5
Reprsentation selon le modle du Radex dun ensemble fini de tests dintelligence (daprs
Snow et Lohman, 1989 et Lohman, 2000, cit par Juhel, 2005).
La figure reprsente doit se voir comme un cne divis en 3 grandes

parties. Le radex fournit des informations sur la nature de ce qui est valu
et sur le niveau de simplicit ou de complexit cognitive des tches. Il se lit
de la faon suivante :
Plus le test est proche du sommet du cne (centre de la figure), mieux il
mesure le facteur g ;
24
linverse, plus un test est situ vers la priphrie, mieux il mesure des
aptitudes spcifiques ;
La nature des aptitudes values dpend de la zone o est situe lpreuve.
Une premire rgion concerne les preuves offrant un contenu figuratif
ou dont les items sont des figures gomtriques (domaine spatial), une
seconde rgion rassemble les preuves du domaine verbal (comprhension,
lecture, vocabulaire...) et la troisime rgion correspond aux preuves
contenu numrique (tches impliquant des chiffres, des nombres, des
calculs...).
La position du test dans lespace de la figure informe donc sur la nature
de la dimension quil value.
La position du test informe galement sur le degr de complexit cognitive
des preuves (cf. Guttman et Lvy, 1991) :
Les tests situs vers le sommet, requirent de la puissance de raisonnement
et sont intellectuellement plus complexes ;

Le niveau intermdiaire marque des tches plus simples o il est
simplement ncessaire dappliquer des rgles sans avoir les dcouvrir ;

La base du cne correspond des tches plus spcifiques, sacqurant
principalement par apprentissages et pour lesquels la vitesse de ralisation
est gnralement importante.
Il est possible de choisir les diffrents subtests constitutifs dune batterie
en fonction de leur position dans lespace du Radex. Cela constitue alors
un lment supplmentaire de validit de lpreuve par le choix de tches
non redondantes et couvrant plus largement lensemble des domaines et
des niveaux dvaluation. On peut galement le faire titre confirmatoire
sur une batterie dj existante. Une dmarche de validation de ce type a t
mene pour la batterie NV5R que nous prsentons dans le chapitre 5.
Le niveau intellectuel est-il stable dune gnration lautre ?
Le psychologue no-zlandais James R. Flynn a dit en 1984 et 1987 deux

premires publications faisant tat dun phnomne peu pris en compte
jusqu ce jour : une tendance laugmentation des rsultats moyens dans
les tests dintelligence au fil des dcennies et des gnrations. Ce phnomne
a des consquences importantes au plan thorique mais aussi au plan des
pratiques de lvaluation et mrite que lon sy attarde. Une trs bonne
synthse sur le sujet a t publie par Flieller en 2001.
25
Description de leffet Flynn
Flynn a constat que des cohortes de naissance testes au mme ge et dans

les mmes conditions laide dune mme preuve dintelligence obtiennent
des scores moyens qui sordonnent comme leur anne de naissance (Flieller,
2001, p. 43).
Flynn a men des travaux dans quatorze pays situs sur 4 continents et
aboutit la conclusion que la progression moyenne est denviron 5 points
de QI par dcade, cest--dire un cart-type par gnration. Dautres tudes,
ralises depuis par divers auteurs un peu partout dans le monde, parviennent
aux mmes conclusions (voir par exemple Raven, 2001). Leffet Flynn,
mme sil fluctue selon les pays, les priodes et les tests considrs, savre
nanmoins un phnomne trs gnral. Curieusement, la progression est plus
importante dans les tests dintelligence fluide que dans les tests dintelligence
cristallise, ce qui parat surprenant, puisque le registre de lintelligence
cristallise est a priori mieux mme de profiter des apprentissages. En
France, le phnomne a galement t observ par plusieurs tudes : Flieller
et al. (1986) observent une augmentation de 24 points de QI sur une
priode de 40 ans ou encore Baudelot et Establet, analysant les rsultats
des tests passs par les conscrits lors de leur incorporation, constatent une
progression moyenne de 5 points de QI entre 1968 et 1982 (sur 14 ans).
En outre, des donnes anciennes attestent de la prsence de ce phnomne
ds la fin de la premire guerre mondiale et montrent quil sest prolong
un rythme trs rgulier jusqu nos jours, concernant tous les ges de la vie
(groupes de jeunes, dadultes mais aussi de personnes ges).
La grande gnralit du phnomne est donc atteste et ne laisse pas
dinterroger.
Tentatives dexplications du phnomne
Les tentatives dexplications sont nombreuses mais lon doit bien admettre,
comme le rappelle Flieller (2001), que le phnomne demeure encore une
nigme.
Plusieurs hypothses sont candidates lexplication de leffet Flynn. On
retiendra en particulier :
laugmentation du brassage gntique des populations ;
lamlioration de la nutrition et des conditions dhygine et de sant ;
laugmentation des exigences et sollicitations cognitives de lenvironnement ;
les progrs de lducation.
26
Chacune de ces hypothses est plausible. Cependant, les tentatives de

validations menes pour chacune dentre elles nont pas permis daboutir
des confirmations satisfaisantes. Le problme de lorigine de leffet Flynn
demeure donc entier.
Plusieurs pistes sont envisages pour lucider le mystre. Certains
privilgient lhypothse dune origine plurifactorielle : plusieurs facteurs
contribueraient conjointement lexplication du phnomne. Dautres
auteurs prfrent remettre en cause linterprtation du phnomne comme
tmoignant dune augmentation du niveau intellectuel des populations :
leffet observ serait un artfact du en particulier la banalisation des tests
(familiarisation des individus vis--vis des tests) ou encore un changement
dattitude face aux situations dvaluation par les tests. Dautres encore,
et Flynn lui-mme en fait partie, sappuient sur la difficult rencontre
identifier les facteurs explicatifs du phnomne pour remettre plus
fondamentalement en cause la capacit mme des tests valuer lintelligence.
Consquences pour lvaluation de lintelligence
Quelles que soient les origines effectives de ce phnomne, celui-ci a

des consquences importantes dune part pour notre connaissance de
lintelligence et dautre part pour la qualit de sa mesure.
Concernant le premier point, leffet Flynn, complique fortement les tudes
dveloppementales de lintelligence et en particulier celles qui concernent
le vieillissement cognitif. En effet, chaque fois que lon est amen tudier
le dveloppement en comparant des groupes dges diffrents (approche
transversale), il devient difficile de savoir si les groupes sont rellement
comparables et dans quelle mesure les rsultats obtenus renseignent sur les
effets de lge et ne sont pas dus cet effet de cohorte. Nous reviendrons
sur ce point dans le prochain paragraphe.
Concernant le second point, laugmentation moyenne rgulire des
rsultats aux tests dintelligence acclre lobsolescence des talonnages des
tests. On remarquera que, dans ce cas prcis, le risque est, fort heureusement,
de surestimer les rsultats des individus dans les tests, et non linverse.
Nanmoins, la validit de la mesure sen trouve affaiblie et il est donc
indispensable pour les auteurs et les diteurs de rtalonner trs rgulirement
les tests et, pour le praticien de se garder dutiliser des tests dont les
talonnages ne seraient pas rcents (infrieurs 10 ans). Les rtalonnages
successifs, outre le cot quils reprsentent, risquent de poser des problmes
mthodologiques relatifs au pouvoir discriminant des tests (lorsque le test
devient par exemple trop facile pour tous). Nous voquerons ces difficults
mthodologiques dans le chapitre 2 de cet ouvrage.
27
Le niveau intellectuel est-il stable chez ladulte ?
Les premiers travaux portant sur lvolution de lintelligence chez ladulte

sont apparus avec le dveloppement de la mthode des tests. Ils ont tout
dabord t mens principalement loccasion des talonnages, cest-dire selon la mthode transversale. La mthode consiste donc comparer
les performances de groupes de sujets dges diffrents et infrer le
dveloppement de lintelligence durant la vie partir des performances
moyennes obtenues aux diffrents ges (par ex. Jones & Conrad, 1933 ;
Miles & Miles, 1932, Wechsler, 1939). Les donnes fournies par ces tudes
ont tay un modle du dveloppement de lintelligence de ladulte se
prsentant sous la forme dun accroissement des capacits intellectuelles
jusqu environ 20 ans, ge partir duquel dbute un dclin rgulier qui
sacclre ensuite vers 60 ans.
Cest en se rfrant ce modle que certains auteurs ont pu mettre
des doutes quant la plasticit de lintelligence de ladulte de plus de
20 ans. Cest galement ce modle qui alimente encore trs largement la
reprsentation que le grand public a de lintelligence de ladulte.
On sait cependant aujourdhui que les tudes transversales sont affectes
par un biais mthodologique rsultant de leffet Flynn. Dans ces tudes, en
effet, on ne compare pas seulement des sujets dges diffrents mais aussi
des sujets de gnrations diffrentes. Les rsultats caractrisant les diffrents
ges ntant pas obtenus sur les mmes sujets, leffet attribu lge peut
en ralit tre d, pour tout ou partie, aux diffrences de conditions de
vie (ducation, sant, activits, stimulations) entre gnrations. En raison
de ce biais, le modle de lvolution de lintelligence issu de lapproche
transversale, a t lobjet de nombreuses controverses (cf. Botwinick, 1977)
et remplac par un autre, issu dtudes longitudinales.
Un vaste courant de recherche sest dvelopp partir des annes
soixante-dix aux tats-Unis (Birren, Dixon, Schaie, Willis...) et en Europe
(notamment en Allemagne : Baltes et coll.) et a contribu, par des tudes
longitudinales, renouveler les connaissances sur lintelligence de ladulte.
Lapproche adopte y est celle dun dveloppement tout au long de la
vie ( life span development ) en rupture avec lide dun dveloppement
sarrtant la fin de ladolescence et dun ge adulte principalement marqu
par le dclin.
Dans leur forme la plus simple, ces tudes longitudinales consistent en
un suivi des mmes sujets sur une certaine priode, laide dvaluations
rptes. Mais une difficult demeure alors puisque le contrle de leffet
28
de cohorte nest effectif que pour une seule gnration. Pour pallier cette
difficult, les tudes visant lobtention dune vue densemble de lvolution
life-span de lintelligence ont eu recours un plan plus sophistiqu (appel
squentiel) qui est une combinaison des plans transversaux et longitudinaux.
Ltude longitudinale est alors mene simultanment sur plusieurs cohortes,
ce qui permet disoler les effets de cohorte des effets propres du vieillissement.
Nous pouvons retenir de ces travaux trois grandes conclusions :
1. Le dclin savre gnralement plus tardif que ne le laissaient penser
les tudes transversales
La plus importante tude longitudinale a t mene sous la responsabilit
de Schaie (1979, 1983, 1994) : cest l tude longitudinale de Seattle .
Ltude a dbut en 1956 sur un chantillon de 500 sujets adultes gs de
20 70 ans valus laide de diffrents tests dintelligence dont les PMA de
Thurstone. Ensuite, tous les sept ans, les auteurs ont procd la constitution
dun nouvel chantillon similaire et lvaluation des chantillons existants.
Les dernires valuations ont port sur 8 cohortes de sujets gs de 22
95 ans et, au total, prs de 5000 personnes ont particip ltude. Ltude
de Schaie montre ainsi que les performances dans les PMA de Thurstone ne
commencent en moyenne dcrotre quentre 50 et 60 ans (Schaie, 1994)
(voir figure 1.6).
2. Le dclin naffecte pas de la mme faon les diffrents registres
dactivit cognitive
Dj dans les annes soixante, Cattel et Horn avaient signal une
volution diffrente avec lge des capacits relevant de lintelligence fluide
et de lintelligence cristallise (Horn, & Cattel, 1966) : les premires ayant
tendance dcliner et les autres se maintenir, voir continuer de crotre
progressivement.
Ces diffrences ont t confirmes par un grand nombre dtudes. Par
exemple, Fontaine (1999) publie un tableau (voir tableau 1.3) issu des
travaux de McGhee (1993) qui prcise pour 9 grands domaines de capacits
cognitives leur sensibilit aux effets ngatifs du vieillissement (voir tableau
1.3).
Des volutions dans la structure factorielle des aptitudes ont galement t
dcrites. Symtriquement au processus de diffrenciation des aptitudes qui se
manifeste dans lenfance et ladolescence (Larcebeau, 1967 ; Nguyen-Xuan,
1969), un phnomne de ddiffrenciation est observ en relation avec
le vieillissement. Il se traduit par une diminution du poids des facteurs
primaires et par une augmentation du poids du facteur g. Ce phnomne
29
60
Moyenne T-scores
55
50
Comprhension verbale
45
Aptitude spatiale
Raisonnement inductif
Aptitude numrique
40
Fluidit verbale
35
25
32
39
46
53
60
67
74
81
88
Age
Figure 1.6
Courbes moyennes dvolution avec lge des rsultats dans les PMA de Thurstone observes
dans ltude longitudinale de Seattle (daprs Schaie, 1994).
initialement dcrit par Balinsky (1941) a t confirm et prcis par plusieurs

tudes (Poitrenaud, 1972, Baltes et al., 1980). Balinsky (cit par Fontaine,
1999) avait compar des groupes dges diffrents et observ une diminution
progressive des corrlations entre les subtests de la WAIS de 9 30 ans, puis
une augmentation progressive de ces corrlations de 30 60 ans. Poitrenaud
(1972) a observ une telle diffrence de structure factorielle entre deux
groupes de sujets gs respectivement de 64-69 ans et de 74-79 ans, alors que
Lindenberger et Baltes (1997), comparant deux groupes gs respectivement
de 70-84 ans et de 85-103 ans, ne lobservent pas. On peut donc penser
que cette ddiffrenciation dbuterait vers 30 ans et serait acheve vers
75 ans. Ce phnomne reste cependant controvers dans la mesure o il
a principalement t observ par des tudes transversales et na pas trouv
de confirmation dans ltude longitudinale conduite par Schaie. En outre,
son tude prsente un certain nombre de difficults mthodologiques
(Nesselroade et Thompson, 1995, Baltes et al. 1999).
30
Tableau 1.3
Tableau des domaines de capacits intellectuelles et de leur sensibilit au vieillissement
(McGhee, 1993, Fontaine, 1999).
Nom
Dfinition
Sensibilit au
vieillissement
Connaissance
quantitative
Capacit comprendre les concepts quantitatifs Faible

et leurs relations.
Comprhension,
connaissance
Profondeur des connaissances.
Insensible
Mmoire court
terme
Capacit enregistrer des informations et les

utiliser dans les secondes suivantes.
Sensible
Rcupration long Capacit enregistrer des informations et les

terme
rcuprer aprs un dlai suprieur quelques
secondes.
Sensible
Processus auditif
Capacit analyser et synthtiser des stimulis

auditifs.
Sensible
Vitesse de dcision
correcte
Capacit rpondre des questions portant sur

des problmes de difficult modre ncessitant
raisonnement et comprhension.
Trs sensible
Raisonnement fluide Capacit raisonner, construire des concepts, Trs sensible

rsoudre des problmes dans des contextes
nouveaux.
Processus visuel
Capacit analyser et synthtiser des stimulis

visuels
Processus de rapidit Capacit raliser rapidement des tches

cognitives automatiques sous pression et
maintenir lattention
Sensible
Trs sensible
3. Une grande variabilit inter individuelle apparat dans la faon de

vieillir intellectuellement
La dispersion des rsultats dans les tests augment avec lge (Nelson &
Annefer, D., 1992). Lorsque lon analyse cette variabilit on constate que
lavance en ge ne se traduit pas pour tous les individus par les mmes
effets : les capacits intellectuelles ne dclinent pas de la mme faon chez
tous, pas ncessairement dans le mme ordre, pas ncessairement au mme
ge, et pas avec la mme intensit.
31
Laugmentation des diffrences interindividuelles avec le vieillissement

pose assez logiquement la question des facteurs susceptibles dinfluencer, de
faon diffrentielle, ces volutions cognitives lies lge.
Plusieurs sources de variation ont t identifies comme pouvant, seules
ou en combinaison, contribuer expliquer cette htrognit.
Les facteurs les plus frquemment voqus sont relatifs aux conditions de
vie actuelles de la personne, telles que son tat de sant (cf. Herzog et al.,
1978 ; Perlmutter et Nyquist, 1990), lintensit de sa vie sociale (cf. Moritz,
1989), ou son tat marital (cf. Rogers, 1990), mais aussi aux caractristiques
de la personne avant quelle ne vieillisse, telles que son niveau culturel, la
longueur de sa scolarit, ses activits professionnelles, son niveau intellectuel,
ses antcdents de sant... (cf. Craik et al., 1987 ; Schaie, 1987 ; Ska et al.,
1997). Ces dernires variables, que Schaie (1990) appelle antcdents des
diffrences interindividuelles peuvent ainsi jouer le rle de prdicteur de
la qualit du vieillissement.
Depuis une quinzaine dannes, des travaux ont t conduits visant
mieux connatre ces facteurs et la faon dont ils agissent, afin de dterminer
les conditions optimales dun vieillissement russi ( successful aging ).
Lune des hypothses retenues par ces auteurs est que lactivit mene dans
tel ou tel domaine puisse venir attnuer, voire totalement prserver de,
certains effets ngatifs du vieillissement et contribuer ainsi expliquer les
diffrences inter-individuelles dans la faon de vieillir (cf. Marqui, 1996,
Loarer, 2000).
Par ailleurs des travaux mens dans le cadre de la psychologie cognitive ont
permis didentifier un certain nombre de processus cognitifs lmentaires
particulirement sensibles aux effets du vieillissement. Il sagit en particulier
de lattention, de la mmoire de travail, de linhibition cognitive et de
la vitesse de traitement. Ce dernier facteur apparat essentiel (Salthouse,
1994, 1996) : la vitesse de traitement diminuant avec lge, le ralentissement
cognitif pourrait contribuer fortement la diminution des performances
avec lge dans un grand nombre de registres. Pour un approfondissement
de ces aspects, voir Lemaire et Behrer (2005).
Une ou plusieurs intelligences ?
La question de lunicit ou de la pluridimentionnalit de lintelligence tait

dj prsente dans lopposition entre Spearman et Thurstone. On pourrait
penser quelle a t rsolue par les modles hirarchiques synthtiques que
32
nous venons de prsenter. On peut pourtant sinterroger sur le fait que ces
modles reflteraient la totalit de ce qui caractrise lintelligence humaine.
En particulier, ds lors que lon considre lindividu engag dans des
tches et des situations pratiques de la vie quotidienne, lintelligence value
par les tests peut sembler insuffisante pour rendre compte de lensemble de
ses fonctionnements adaptatifs.
Linterrogation nest pas rcente et de nombreux auteurs ont opt pour
une vision largie de lintelligence. Dj, en 1920, Edward L. Thorndike
(1874-1949) identifiait 3 facettes lintelligence. Il la dfinissait comme
lhabilet comprendre et grer 1/ les ides (intelligence abstraite), 2/ les
objets (intelligence concrte ou mcanique) et 3/ les personnes (intelligence
sociale). Cette dernire facette est ainsi dfinie par Thorndike comme la
capacit comprendre et grer les autres personnes et agir sagement
dans les relations humaines (1920, p. 228). Lintelligence classiquement
value par les tests dintelligence ne correspond donc principalement qu
la premire de ces facettes.
Par ailleurs, Weschler sest galement un temps intress ce quil
appelait les facteurs non-intellectifs de lintelligence (1943, p. 108). Il
dsignait par l en particulier lintelligence sociale. Il conclura cependant
quelques annes plus tard que lintelligence sociale nest rien dautre que de
lintelligence gnrale applique aux situations sociales (1958, p. 75).
Cette question a cependant repris de la vigueur dans la priode rcente.
Elle correspond la tendance de plus en plus affirme ne pas considrer
lintelligence uniquement sous langle de la pense logicomathmatique mais
daccorder une place plus importante aux diffrentes facettes des activits
mentales qui contribuent ladaptation de lindividu et son efficacit dans
les diffrentes sphres de ses activits. Cette tendance sexprime notamment
dans le modle de lintelligence de Sternberg, en particulier par la prise en
compte de formes dintelligence dites pratiques ou non acadmiques
(Sternberg, 1985, Sternberg et al., 2000), ainsi que dans le modle des
intelligences multiples de Gardner (1996, 1999) ou encore dans les travaux
mens sur lintelligence motionnelle (Salovey & Mayer, 1990) et sur
lintelligence sociale (voir Loarer, 2005 sur ces deux aspects).
Ces modles et ces travaux prsentent notre avis lintrt dlargir la
notion dintelligence pour chercher mieux prendre en compte ltendue
de la palette des ressources adaptative des individus et mieux saisir
ce qui sous-tend lorganisation des conduites dans les situations de la
vie quotidienne. Lintelligence cognitive, celle qui prend appui sur le
traitement logique de linformation, joue lvidence un rle essentiel pour
33
permettre aux individus de dvelopper des conduites intelligentes , mais

dautres registres, notamment motionnel et sensori-moteurs, y contribuent
lvidence galement et gagnent tre mieux tudis, en particulier dans
leurs interactions avec la cognition. Ils gagneraient galement tre mieux
valus, mais actuellement, notamment en France, les tests dans ces domaines
restent malheureusement encore peu nombreux.
Dans le cadre de cet ouvrage, nous avons fait le choix de nous centrer
uniquement sur lintelligence cognitive et son valuation.
34
Points de repres cls

dans lapproche psychomtrique de lintelligence
1879
Wundt cre Leipzig le premier Laboratoire de Psychologie Exprimentale.
1884
Galton applique grande chelle des tests standardiss anthropomtriques et

sensoriels et ralise des talonnages.
1890
Cattel propose le terme de mental tests pour des preuves valuant encore
principalement les fonctions lmentaires.
1904
Spearman introduit lanalyse factorielle et la notion de facteur g (facteur

gnral dintelligence).
1905
Binet et Simon crent la premire chelle de mesure de lintelligence valuant les

fonctions suprieures et proposent la notion dge mental.
1912
Stern propose la notion de Quotient Intellectuel (QI).
1916
Terman adapte lchelle de Binet et Simon aux tats-Unis.
1917
Otis cre les premiers tests collectifs : lArmy alpha et lArmy beta.
1935
Thurstone publie The vectors of the mind qui dcrit un modle multifactoriel de
lintelligence.
1938
Raven publie la premire version des Matrices Progressives inspire des travaux de
Spearman.
1939
Weschler cre le Weschler-Bellevue et propose une autre faon de calculer le QI.
1947
Bennet et coll. publient le Differential Aptitude Test (DAT), batterie multifactorielle

inspire des travaux de Thurstone.
1952
Burt et Vernon proposent un modle hirarchique en 3 niveaux conciliant les

positions de Sperman et de Thurstone.
1966
Cattel et Horn proposent un second modle hirarchique dans lequel ils distinguent
lintelligence fluide (Gf) et lintelligence cristallise (Gc).
1984
Gustaffson utilise lanalyse factorielle confirmatoire pour concilier les modles de

Cattel-Horn et de Burt-Vernon.
1985
Naglieri publie aux tats-Unis le NNAT.
1983
Kaufman et Kaufman, publient le K-ABC, version amricaine (version franaise

en 1993).
1993
Caroll propose un modle synthtique hirarchique de lintelligence fond sur une

vaste mtaanalyse.
Ces quelques repres nont pas la prtention dtre exhaustifs mais correspondent aux principaux
auteurs et preuves cits dans cet ouvrage qui ont marqus lhistoire de lvaluation de lintelligence.
CHAPITRE
2
Dfinition et proprits
des tests
Sommaire
1. Dfinitions pralables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Page 37
2. La notion de fidlit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Page 47
3. La notion de sensibilit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Page 54
4. La notion de validit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Page 56
5. Lanalyse des items . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Page 63
6. La notion de biais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Page 66
7. La notion dtalonnage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Page 70
8. Comment valuer un test ? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Page 83
9. Les volutions des modles psychomtriques . . . . . . . . . . . . . . . . . . .
Page 87
10. Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Page 99
37
ANS le chapitre 1 nous venons de prsenter les lments historiques
et thoriques de la notion dintelligence et de sa mesure. Nous

allons maintenant aborder les aspects mthodologiques relatifs
cette mesure. En effet, ds le dbut du XXe sicle apparaissent les
premiers tests dintelligence qui permettent dvaluer, de mesurer
et de rendre compte des diffrences interindividuelles dans ce domaine. Il
va sagir alors dlaborer des dispositifs dobservation qui prsentent un bon
niveau de fiabilit. Les tests, et spcifiquement ici les tests dintelligence,
ne relvent donc pas dune approche magique comme nous le signalent
Huteau et Lautrey mais peuvent tre considrs comme des techniques
dobservation :
Les tests ne rvlent pas des proprits mystrieuses et caches des
individus. Ils permettent simplement de dcrire des comportements sous
langle de leur efficience. Ils ne sont rien dautre que des techniques
dobservation. (Huteau et Lautrey, 1997, p. 3.)
Les tests sont donc des outils de mesure qui doivent prsenter, comme
tout instrument de mesure, certaines qualits mtrologiques (appeles ici
psychomtriques), que nous allons dtailler dans ce chapitre1 .
Lobjectif principal ici est dexposer les principaux lments mthodologiques relatifs aux tests dintelligence. Le lecteur intress par lapprofondissement du sujet pourra se rfrer des ouvrages plus complets comme par
exemple celui de Dickes et al. (1994) ou de Laveault et Grgoire (2002).
1.
Dfinitions pralables
Quest-ce quun test ?
Il convient, pour commencer, de dfinir prcisment ce quon entend par

test psychologique. Parmi les nombreuses dfinitions proposes, prenons
par exemple celle de Pichot :
On appelle test mental une situation exprimentale standardise servant
de stimulus un comportement. Celui-ci est compar statistiquement
celui dautres individus placs dans la mme situation, de manire classer
1. Nous remercions Pierre Vrignaud pour sa lecture critique dune premire version de ce chapitre.
38
Dfinition et proprits des tests
le sujet examin par rapport ceux constituant le groupe de rfrence.

(Pichot, 1997, p. 5.)
Pour Pichot, un test correspond donc un certain type de situation (une

situation exprimentale standardise), situation qui vise produire chez le
sujet un certain comportement. Cest ce comportement qui va tre mesur.
Mais la mesure en elle-mme na gure de sens, car cest par la comparaison
statistique de ce comportement celui dautres individus placs dans la
mme situation que cette mesure va acqurir une signification.
Cette notion de situation standardise apparat galement dans la
dfinition propose par Huteau et Lautrey en 1997. Pour ces auteurs :
Un test est un dispositif dobservation des individus qui prsente quatre
proprits :
il est standardis ;
il permet de situer la conduite de chaque sujet dans un groupe de
rfrence ;
le degr de prcision des mesures quil permet est valu (fidlit) ;
la signification thorique ou pratique de ces mesures est prcise
(validit). (Huteau & Lautrey, 1997, p. 19.)
Cette dfinition indique clairement les principales caractristiques des

tests avec les notions de standardisation, de groupe de rfrence, de fidlit
et de validit. Nous allons dvelopper et illustrer ces diffrentes notions mais
nous pouvons dj donner quelques indications sur ce quelles recouvrent :
La standardisation est la dfinition prcise des conditions de passation
(matriel, consignes, temps...) et des conditions de cotation (modalits
de correspondance entre une conduite et un score, calcul des scores...) ;
Le groupe de rfrence est un groupe de sujets qui prsentent les mmes
caractristiques que le sujet examin (au niveau de lge et/ou du sexe et/ou
du niveau dtude...) et qui a t confront au mme test. Lensemble
des scores obtenus par ce groupe de sujets va permettre de situer les
performances dun sujet examin dans ce groupe de rfrence (principe
de ltalonnage) ;
La fidlit correspond lune des qualits psychomtriques attendues
dun instrument de mesure : la stabilit de la mesure. Nous verrons que
lon peut distinguer plusieurs types de fidlit ;
La validit correspond ce qui est mesur par le test. Par exemple pour les
tests dont il sera question dans cet ouvrage il faut sassurer quils valuent
39
tous lintelligence. Nous verrons galement quil existe plusieurs types de

validit.
Ces deux dfinitions de la notion de test indiquent bien, dune part, quun
test nest pas un instrument magique et mystrieux (il sagit dun dispositif
prcis, explicite, visant mesurer un comportement) et, dautre part, quun
test doit prsenter certaines qualits (ce qui permet de distinguer les tests
dautres situations dvaluation, comme par exemple les questionnaires de
magazines, qui ne prsentent pas ces caractristiques...).
Comment se prsente un test ?
Un test est constitu dun ensemble de petites situations dvaluation. Ces

situations sont le plus souvent des questions auxquelles le sujet doit rpondre,
ou des petits problmes auxquels il est confront. Ces problmes peuvent
galement prendre la forme de tches accomplir, comme par exemple dans
le test des cubes de Kohs o le sujet doit reproduire une figure dessine
laide de cubes colors.
Chaque question ou chaque problme est appel item. Un test comporte
ainsi plusieurs items, entre une vingtaine et une soixantaine selon les tests.
Le psychologue dispose gnralement de plusieurs documents pour un
mme test :
le test proprement dit, qui peut prendre par exemple la forme dun cahier
de passation o figurent les items,
une feuille de rponse (ou protocole) ;
Le manuel du test, qui comporte un ensemble dinformations relatives
la passation et la cotation, mais galement des informations sur
llaboration et la validation de lpreuve. Ce manuel peut ventuellement
comporter des annexes dites postrieurement au manuel, et destines
le complter.
Comment passer dun comportement un score ?
Pour chaque item, la performance du sujet est value en fonction de la

qualit de sa rponse (bonne ou mauvaise) ou de la qualit de la tche ralise.
On accorde ainsi, le plus souvent, un point par bonne rponse. Le temps
de rsolution peut galement tre pris en compte (soit par item, soit sur
40
lensemble de lpreuve). Au final, on fait la somme de lensemble des points

obtenus par le sujet dans ce test pour obtenir un score, appel score brut.
Ce score brut na pas de valeur en soi. Par exemple, si le test comporte
60 items et que le sujet obtient 43 points (donc 43 bonnes rponses),
comment interprter ce score brut de 43 ? Est-ce une bonne performance ?
Sans informations sur le niveau de difficult du test, et/ou sur le degr de
russite dautres sujets confronts la mme preuve, il nest pas possible
dinterprter ce score de 43 points. Pour cela, il faut utiliser un talonnage
qui va nous permettre de situer la performance du sujet par rapport aux
rsultats dun groupe de sujets comparables au sujet examin. Cest par cette
comparaison que lon pourra interprter le niveau de performance du sujet.
En reprenant notre exemple de 43 points, ltalonnage va nous indiquer si
ce score de 43 se situe en dessous ou au-dessus de la moyenne du groupe,
ce qui est un lment de rponse. Les talonnages tant en gnral dtaills,
ils permettent de situer plus prcisment le niveau de performance du sujet
quen le rfrent simplement la moyenne. Par exemple, si ltalonnage
utilis nous indique que seulement 10 % des sujets obtiennent un score
gal ou suprieur 43 points, ce score brut de 43 refltera alors un trs
bon niveau de performance. Ltalonnage permet donc de transformer
une note brute en note talonne et ainsi de positionner prcisment la
performance du sujet au regard de celle dun groupe de rfrence. Cela
permet linterprtation du rsultat obtenu au test. Nous verrons plus loin
(en 2.10) quil existe diffrents types dtalonnages.
Les scores talonns permettent galement de comparer les performances
dun mme sujet face des preuves diffrentes lorsque la comparaison
directe sur les scores bruts nest pas possible : par exemple, un sujet confront
deux tests qui comportent le mme nombre ditems mais qui ne sont pas
du mme niveau de difficult ou confront des tests qui ne comportent
pas le mme nombre ditems.
Les diffrents types de tests
Il existe de nombreux tests et lon peut les classer selon diffrents critres :
en fonction du domaine valu, du mode de passation, du format ou du
type de rponse.
Nous allons voquer ces classifications en les illustrant par quelques
exemples de tests dintelligence.
41
Classification des tests en fonction du domaine valu

On peut distinguer les preuves en fonction du domaine ou des dimensions
qui sont values : tests dintelligence, tests de personnalit (intrts, motivation, traits de personnalit), preuves de crativit, tests de connaissances
(connaissances scolaires et/ou connaissances relatives un domaine prcis
comme par exemple la mcanique ou linformatique...), tests psychomoteurs
(tests defficience motrice, de latralit...).
Au sein de chaque domaine, une catgorisation plus fine peut tre effectue.
Ainsi, dans le domaine des tests dintelligence, il est possible de distinguer
les chelles dintelligence, les tests de facteur g, les batteries factorielles, les
tests verbaux... en lien direct avec les conceptions thoriques sous jacentes
(voir chapitre 1).
Classification des tests en fonction du format

Le format du test correspond au type de support utilis ou au type de
matriel de passation :
Lorsque le sujet dispose dun feuillet ou dun livret de passation et doit
indiquer sa rponse par crit, on parle de test papier/crayon ;

Si le sujet doit effectuer une tche (comme par exemple reproduire une
figure laide de cubes colors ou remettre en ordre des images) on parle
alors de test de performance ;
Enfin, lorsquun ordinateur est utilis pour la passation, pour les questions
et/ou pour les rponses, ou pour proposer des tches effectuer, il sagit
de test informatis.
Classification des tests en fonction du mode de passation : individuel ou

collectif
Certains tests sont conus pour tre administrs en situation individuelle,
comme par exemple les cubes de Kohs, les chelles de Wechsler... Dans ce
cas, un seul sujet est face au psychologue. Tous les tests de performance,
tests dans lesquels le sujet doit effectuer une tche, sont des tests individuels
car le psychologue ne peut observer quun seul sujet la fois.
Dautres preuves sont conues pour une passation collective, ce sont
gnralement des tests papier/crayon , comme par exemple les matrices de
Raven. Dans ce cas, chaque sujet dispose dun cahier de passation et dune
42
feuille de rponse. Par cette procdure, plusieurs sujets peuvent tre tests
en mme temps par un seul psychologue. Bien entendu, un test collectif
peut toujours tre utilis en passation individuelle, linverse ne lest pas
forcment.
Le test individuel permet de recueillir davantage dinformations telles
que le comportement du sujet au cours du test, et plus particulirement ses
ractions face une difficult, le non verbal, le reprage des erreurs... Le test
collectif permet quant lui un gain de temps aussi bien pour la passation
que pour la cotation.
Classification des tests en fonction du type de rponse

Dans certains tests, et plus frquemment dans les tests dintelligence, il
nexiste quune seule bonne rponse chaque item1 . Mais cette catgorisation
de type 0/1 (1 point en cas de bonne rponse, 0 point pour toute autre
rponse) peut tre affine comme par exemple dans certains subtests des
chelles de Wechsler dans lesquels, en fonction de la qualit de la rponse
(spcificit ou gnralit des propos...), une bonne rponse compte pour
1 point ou pour 2 points ; ou encore dans dautres tests qui envisagent de
retirer des points pour les mauvaises rponses (et tentent dviter ainsi les
rponses au hasard).
On distingue les questions ouvertes des questions fermes :
Par question ouverte il faut entendre rponse construire, comme par
exemple dans le test D2000 o le sujet doit crer sa rponse (voir la

prsentation de ce test dans le chapitre 4) ;
Par question ferme il faut entendre Q.C.M (Question Choix Multiples)
dans lesquels le sujet doit choisir sa rponse parmi plusieurs possibilits,
comme par exemple dans les matrices de Raven (voir la prsentation de
ce test dans le chapitre 4).
Les questions ouvertes prsentent lavantage de recueillir un maximum
dinformations, les questions fermes prsentent lavantage dune rapidit, et
dune fidlit, de la cotation. Mais il semble que les avantages et inconvnients
relatifs de ces deux possibilits de rponse sont en ralit un peu plus
complexes (voir Vrignaud, 2003).
1. Dans dautres tests, la notion mme de bonne rponse na pas de sens : tests de personnalit,
questionnaire dintrts...
43
La notion de psychomtrie
Le terme psychomtrie voque sans doute chez beaucoup de psychologues

les tests, et uniquement les tests. On peut cependant considrer que cette
notion concerne plus largement lensemble des thories et des mthodes
de la mesure en psychologie (Dickes et al., 1994, p. 11). La psychomtrie
dpasse ainsi lanalyse des tests et concerne plus largement toute approche
psychologique visant attribuer des nombres des objets dtude. Dailleurs
ces mmes auteurs affirment, de faon sans doute un peu provocatrice, quil
est possible de traiter de la psychomtrie sans rfrence aux tests !
La psychomtrie peut se concevoir sans aucune rfrence aux tests.

Ltude des tests et de leur construction fait certes partie de la psychomtrie,
mais elle nen est quune partie limite : les tests ne sont quune classe
dinstruments de mesure parmi dautres. (Dickes et al., 1994, p. 11).
Dans ce cadre, comme nous lillustrerons plus loin, diffrents modles de

mesure peuvent tre utiliss.
Nous retiendrons ici que la psychomtrie reprsente les thories et les
mthodes qui permettent dlaborer les instruments de mesure psychologique
que sont les tests et den interprter les rsultats. Nous ne prsenterons
dans cet ouvrage que certains aspects de la psychomtrie, ceux qui nous
semblent tre en lien direct avec notre propos. Les lecteurs intresss par
une prsentation plus complte des diffrents aspects de la psychomtrie
peuvent consulter louvrage de Dickes et al. (1994) ou celui de Laveault et
Grgoire (2002).
Les thories et les mthodes psychomtriques permettent dlaborer des
tests dans lobjectif de garantir une objectivit de la mesure. Il sagit alors,
aussi bien dans les phases dlaboration et de validation des preuves que
lors de lutilisation de ces tests, de sassurer de la fiabilit de la mesure.
La psychomtrie ncessite lusage, et la comprhension, de quelques
connaissances en statistiques et, en particulier, la notion de corrlation.
En effet, les coefficients de corrlation sont trs souvent utiliss comme
indicateurs de la fiabilit dun test.
Pour revoir ces notions statistiques le lecteur peut consulter des ouvrages
de base (voir par exemple Guguen, 2005 ; Corroyer et Wolff, 2003 ;
Beaufils, 1996a et b).
44
Rappel sur la corrlation

La corrlation est un indicateur statistique qui permet de juger du degr
de liaison existant entre deux sries dobservation. Lindicateur le plus
connu est le coefficient r de Bravais-Pearson (appel par la suite r de
B-P) qui estime le sens et lintensit du niveau de liaison linaire existant
entre deux variables quantitatives, comme par exemple la liaison entre les
scores dun mme groupe de sujet confront deux tests. Cet indicateur
r peut, par construction, prendre les valeurs comprises entre 1 et +1.
Rappelons quil sagit ici, avec cet indicateur r de B-P, danalyser une
liaison linaire et quil peut exister dautres formes de liaison entre deux
variables, comme par exemple une liaison quadratique...
Le sens de la liaison est indiqu par le signe du r de B-P : un r positif
signifie que les deux variables varient dans le mme sens, un r de B-P
ngatif signifie que les deux variables varient en sens inverse. Par exemple,
si on calcule un r de B-P entre deux tests dintelligence on sattend
obtenir une valeur positive : les sujets ayant un score lev dans un des
tests devraient avoir un score lev dans lautre test, et inversement pour
les scores faibles. Les deux variables varient bien dans le mme sens car il
sagit de la mme dimension : ces deux tests valuant le mme domaine.
Lintensit (la force) de la liaison est estime par la valeur du r de B-P : plus
le r de B-P est proche de 1, plus la liaison est forte ; plus il est proche de
0, plus la liaison est faible. Un r de B-P gal 1 exprime donc une liaison
parfaite (dans la ralit un r de 1 est quasiment impossible observer),
un r de B-P gal (ou proche) de 0 exprime une absence de liaison entre
les deux variables. Par exemple, si on calcule un r de B-P entre deux tests
dintelligence, on doit observer une valeur plus proche de 1 que de 0 car
les deux tests valuent la mme dimension : les sujets ayant un score lev
dans lun des tests doivent galement avoir un score lev dans lautre test.
Le sens et la force de la liaison peuvent aussi sinterprter partir dun
diagramme de corrlation : plus le diagramme des points est proche dune
ellipse troite, plus la liaison est forte ; plus le diagramme des points est
proche dun cercle, plus la liaison est faible.
Comme nous le verrons par la suite, la corrlation, et principalement le
r de B-P, est souvent utilise pour qualifier les qualits psychomtriques
des preuves (validit, fidlit...). Des valeurs sont alors indiques dans les
45
notices des tests mais le problme important est celui de linterprtation :

comment interprter ces valeurs ?
Linterprtation du r de B-P va tout dabord dpendre de la situation. Par
exemple, sil sagit de qualifier la relation entre deux passations dune mme
preuve sur les mmes sujets (situation de la fidlit test-retest) on sattend
une valeur de r trs proche de 1 et au minimum de .801 . Par contre, lorsque
lon souhaite analyser la relation entre une preuve et un critre, comme par
exemple la russite scolaire (situation danalyse de la validit prdictive) on
sattend alors des valeurs de r plus faibles, autour de .50, car on sait que
dautres variables que lefficience intellectuelle ont des effets sur la russite
scolaire et que cette multiplicit de facteurs a comme effet de rduire le
pouvoir explicatif dune seule variable.
La valeur dun coefficient de corrlation est donc toujours interprter
en fonction de la situation. En labsence de normes clairement dfinies
nous indiquerons, chaque fois que cest possible, des valeurs repres qui
permettront aux psychologues de juger des valeurs quil peut trouver dans
les notices des tests (les manuels) ou dans des articles.
La standardisation
Les dfinitions du test que nous avons prsentes dans notre introduction
insistent sur la standardisation de la situation dvaluation. On peut en effet
dire que la standardisation conditionne la possibilit de comparaison des
rsultats. Dans une situation standardise tout est soigneusement dfini : de
la prsentation du test aux modalits de calcul des scores.
Pour les modalits de passation : le matriel, les consignes, les temps
de prsentation et de rsolution, les items exemples, lattitude du

psychologue, les ventuelles aides ou relance en cas dchec, les ventuelles
rgles dautocorrection de ses erreurs2 , les conditions darrt de passation...
Pour les modalits de cotation : les conditions dattribution des points, les
conduites tenir face aux mauvaises rponses (parfois elles peuvent venir
en dduction des scores), les modalits de calcul du ou des scores...
1. Lusage veut que pour les indices statistiques infrieurs 1 (en valeur absolue) on utilise une
notation de type .80 au lieu de 0,80. Nous adopterons donc cette notation car cest celle que le
lecteur trouvera par exemple dans les manuels de tests.
2. Comme par exemple la possibilit ou non de revenir en arrire afin de corriger une rponse...
46
Tous ces lments, aussi bien pour la passation que pour la cotation,
sont gnralement clairement dfinis, voire illustrs par des exemples, dans
le manuel du test. Ces informations permettent de placer tous les sujets
exactement dans la mme situation, et plus particulirement, de les placer
dans la mme situation que les sujets de lchantillon dtalonnage. Si ces
conditions sont quivalentes, la standardisation est assure : on peut alors se
reporter avec confiance ltalonnage pour situer le niveau de performance
du sujet. Cest cette standardisation qui permet la comparabilit des rsultats.
Sinon, si lun des lments de standardisation est dfectueux, la situation
dvaluation est diffrente de celle qui est prvue (par exemple, si on fournit
des aides au sujet pendant la passation, si on lui laisse plus de temps...) et
on ne peut plus utiliser ltalonnage.
Lun des objectifs de la standardisation est dviter un certain nombre
de biais potentiels, et plus particulirement les biais de cotation relatifs
lobservateur. Par exemple, la standardisation permet de garantir une fidlit
inter juge de la cotation : deux psychologues confronts au mme protocole
doivent aboutir au mme rsultat (cest--dire au mme score). Dans les
preuves de type QCM cette fidlit devrait tre parfaite. Dans les preuves
comportant des questions ouvertes, si le psychologue suit correctement les
consignes de cotation, cette fidlit doit galement tre trs bonne. Par
exemple, dans le manuel du WISC-III, cette fidlit a t vrifie par la
cotation de 60 protocoles par deux psychologues. Les coefficients de fidlit
inter cotateurs observs sont trs levs avec des valeurs autour de .99 pour
les preuves verbales (manuel WISC-III, p. 185).
Cest cette standardisation qui distingue les valuations psychologiques
dautres valuations, comme par exemple les valuations scolaires dont on
sait, depuis Piron, quelles prsentent un certain nombre de biais (Piron,
1963). Dailleurs, pour des valuations scolaires il existe des tests normaliss
de connaissances, de type Q.C.M, qui reposent sur les mmes mthodologies
psychomtriques que les tests psychologiques (voir par exemple les tests
T.A.S1 diffuss par les ECPA) et qui garantissent ainsi un niveau de fiabilit
plus lev que les valuations scolaires classiques (pour la comparaison entre
lvaluation scolaire et lvaluation psychologique voir Huteau, 1996).
Le psychologue doit donc bien comprendre lutilit du respect des
consignes qui sont nonces dans le manuel du test, aussi bien comme
nous venons de le voir pour la passation que pour la cotation. Mme si
1. Test dAcquisition Scolaire.
47
ces consignes peuvent parfois sembler rigides, le praticien doit se garder de

prendre quelques liberts avec celles-ci.
Le respect de la standardisation intervient, comme nous allons le voir,
dans la fidlit dun test.
2.
La notion de fidlit
Le principe de fidlit
La fidlit de la mesure (on parle aussi de fiabilit) concerne la constance

des rsultats obtenus :
On considre quun instrument de mesure est fidle si le rsultat quil

produit est reproductible. (Dickes et al., 1994, p. 165).
Cette notion est importante car elle conditionne la fiabilit du test : un

test qui nest pas fidle ne peut tre ni fiable, ni valide.
Une mesure est fidle si, confronts plusieurs fois cette mesure, les
sujets obtiennent des rsultats comparables (en liminant les possibles effets
dapprentissage entre les passations). La fidlit est une qualit de tout
instrument de mesure : par exemple, une balance doit indiquer un mme
poids quelques minutes dintervalle, une toise doit indiquer une mme
taille, un mtre ruban doit indiquer une mme longueur. Il en est de mme
pour les tests.
En restant dans le domaine de la psychomtrie, lexemple le plus simple
est la notion de fidlit dans le temps. Si un mme groupe de sujets passe
le mme test quelques semaines dintervalle on doit observer les mmes
rsultats ou, au moins, des rsultats comparables. Il sagit ici de la fidlit, ou
stabilit, temporelle par la mthode dite test/retest . On peut valuer cette
fidlit par le calcul dun r de B-P entre les deux passations. Nous verrons
quil existe plusieurs types de fidlit. La fidlit de la mesure contribue la
fiabilit de la mesure.
Mais cette fidlit nest jamais parfaite. La mesure rpte plusieurs
reprises dun mme objet aboutit gnralement de petites diffrences.
Par exemple, si vous mesurez plusieurs fois les dimensions dune pice
avec un mtre ruban, lhypothse la plus probable nest pas de retrouver
exactement les mmes dimensions mais dobserver de lgres variations
entre les diffrentes mesures. Plus un instrument de mesure sera prcis (par
48
exemple sil prsente de nombreuses graduations) plus ces variations seront

faibles. Ce qui explique ces phnomnes de variation est lerreur de mesure.
Il convient ici de prciser que nous nous situons dans la thorie classique
des tests et du modle du score vrai . Cest dans ce cadre thorique que
se situent la plupart des tests proposs actuellement en France.
Modle du score vrai
La thorie classique des tests diffrencie le score vrai et le score
observ . Ce que lon mesure par un test est un score observ. Ce score
observ nest quune estimation du score vrai du sujet. Le score vrai
est inconnu. La variation entre score vrai et score observ correspond
lerreur de mesure (voir formule F1)
score observ = score vrai + erreur de mesure (F1)
Lerreur de mesure est alatoire. Elle se distribue donc selon une courbe de
Gauss (loi normale). De mme, le score observ se distribue normalement
autour du score vrai. Autrement dit, sil tait possible de faire passer un
mme test un mme sujet un trs grand nombre de fois, et quil ny ait
aucun effet dapprentissage, la meilleure estimation du score vrai du sujet
serait alors la moyenne des diffrents scores observs.
Les sources principales de lerreur de mesure sont les suivantes :
Effets propres lindividu : tat de sant, implication dans le test,
rponses au hasard... ;
Effets propres au psychologue : non respect des conditions de standardisation, initiatives malheureuses, erreurs de calcul de scores... On
retrouve ci limportance du respect des conditions de standardisation
qui a t souligne dans la partie prcdente ;
Effets ventuels du contexte ou de la situation de passation (caractristiques
de la pice, bruits ventuels du voisinage...) qui peuvent tre plus ou
moins propices la concentration du sujet...
On notera que lerreur de mesure peut jouer dans les deux sens. Par
exemple, si le sujet est un peu fivreux le jour de passation ou proccup
par un vnement personnel, il est probable alors que son score observ
sera infrieur son score vrai ; par contre, un sujet qui donne plusieurs
rponses au hasard dans un test Q.C.M peut, avec un peu de chance,
gagner quelques points et obtenir au final un score observ plus lev
que son score vrai .
49
Ainsi le psychologue doit toujours garder lesprit que ce quil mesure,

nest pas le score vrai du sujet mais nest quune des estimations de celui-ci.
Autrement dit il faut toujours considrer que le sujet pourrait avoir un
score vrai plus faible ou plus lev que le score effectivement observ. Il
est possible destimer cette marge de variation par le calcul dun intervalle
de confiance. Il est en effet possible destimer lerreur de mesure dun test
partir de son coefficient de fidlit et de calculer alors les limites dun
intervalle dans lequel se trouvera le score vrai. Cette erreur de mesure
doit tre fournie par les concepteurs du test et figure le plus souvent dans
les manuels sous le terme S.E.M (Standard Error of Measurement) ou
E.M .
En fonction du seuil de confiance choisie, le psychologue peut ainsi
calculer diffrents intervalles de confiance grce aux formules suivantes
F2 et F3.
Au seuil de .10 (qui correspond 10 chances sur 100 de se tromper,
cest--dire que sur 100 mesures effectues sur le mme sujet, 90 se
situeront dans cet intervalle) :
score vrai = score observ +/ 1,65 x EM (F2)
Au seuil de .05 (qui correspond 5 chances sur 100 de se tromper : sur
100 mesures, 95 se situeront dans cet intervalle) :
score vrai = score observ +/ 1,96 x EM (F3)
Par exemple, pour lchelle de Wechsler pour enfants (WISC-III), le

manuel franais indique lerreur standard de mesure pour chaque subtest et
pour les indicateurs de QI. Par exemple, sur lensemble des groupes dges,
cette erreur de mesure est de 3,54 points pour le QI Total, de 3,85 points
pour le QI Verbal et de 5,02 points pour le QI Performance. partir de ces
estimations de lerreur de mesure il est possible de calculer, pour chaque QI
observ un intervalle de confiance. Par exemple, pour un QI Total observ
de 105, il y a donc 95 chances sur 100 (seuil de .05) pour que le score
vrai du sujet se situe entre [105 (1,96 x 3,54)] et [105 + (1,96 x 3,54)],
cest--dire entre 98 et 112.
50
Si lon pense que le seuil est trop exigeant et que lon choisisse alors un
seuil de .10, on va alors rduire cet intervalle. Le score vrai se situant alors
entre 991 et 1112 .
Au seuil .10 nous observons bien que lintervalle est un peu plus rduit,
ce qui sexplique par le fait que lon prend alors un risque plus important
quau seuil de .05.
Cet exemple nous indique quil est ncessaire de moduler le niveau de
prcision de la mesure effectue, cest--dire le score observ, et quil est
prfrable, et plus valide, de caractriser le niveau de performance du sujet
par un intervalle de confiance que par un score prcis.
De plus, un score unique prsente linconvnient de crer artificiellement
des diffrences entre des sujets. Ainsi, Huteau et Lautrey indiquent que :
On voit combien sont contestables les pratiques qui prconisent des
traitements diffrents pour des individus que ne sparent que quelques
points de Q.I. (Huteau et Lautrey, 1999a, p. 105).
En effet, comment tre sr quun QI observ de 81 sur un sujet A reflte

rellement des capacits intellectuelles suprieures celles observes sur un
sujet B qui obtiendrait un QI de 79 ?
Mme sil est possible, et souhaitable, de calculer un intervalle de confiance
pour tout score observ, trs peu de tests facilitent et/ou encouragent ce
calcul.
notre connaissance ce calcul nest propos explicitement que dans les
chelles de Wechsler qui incitent fortement le psychologue calculer cet
intervalle et le faire figurer en premire page du protocole du sujet.
Dans les autres tests lerreur type de mesure est indique dans le manuel
mais ensuite, le plus souvent, les auteurs ny font plus jamais rfrence !
Pourtant, quand il sagit de situer le sujet dans un talonnage, il nous semble
essentiel de prendre en compte cette marge derreur.
Peut-on amliorer la fidlit dun test ?
On peut retenir le principe gnral suivant : plus une preuve comporte

ditems, plus elle sera reprsentative de la dimension valuer, donc plus
sa fidlit augmente. En effet, la consistance de la mesure samliore avec
le nombre ditems. Mais les concepteurs de tests sont limits ici par des
1. [105 (1,65 x 3,54)]
2. [105 + (1,65 x 3,54)]
51
considrations pratiques relatives au temps de passation : plus une preuve

comporte ditems et plus la dure de passation est leve, et lon sait quune
preuve trop longue a peu de chances dtre utilise par les praticiens. Il
convient alors, dans la phase dlaboration dun test de considrer la fois
les contraintes de fidlit et les contraintes pratiques de dure de passation.
On notera ce sujet, et cest un paradoxe, que de nombreux diteurs de
tests, notamment sur le march des tests en ligne, trouvent un argument
commercial dans la brivet (parfois extrme) des passations de leurs preuves.
Cet argument doit pourtant alerter lutilisateur du risque daffaiblissement
de la validit que cela entrane.
Les diffrentes formes de fidlit
On distingue principalement trois formes de fidlit : la fidlit dans le

temps, la fidlit interne et la fidlit de la cotation.
1. La fidlit dans le temps (ou stabilit temporelle)
Un test doit donner des rsultats quivalents quel que soit le moment de
passation, condition bien entendu de prendre en compte les ventuels
effets dapprentissage entre les passations. Cette fidlit peut se mesurer
par deux applications successives du mme test aux mmes sujets :
mthode dite du test/retest. Un test sera fidle sil indique les mmes
rsultats pour chaque sujet, au plutt le mme classement des sujets,
dans les diffrentes mesures effectues avec ce mme test. Lindicateur
de cette fidlit est ici le coefficient r de B-P, appel galement dans
cette situation coefficient de stabilit ou de constance. Pour valuer la
fidlit dun test par la mthode test/retest il est fortement conseill de
ne pas dpasser un intervalle de six mois entre les passations, car dans le
cas dun intervalle trop long des variables parasites peuvent intervenir
et biaiser le calcul des indicateurs. Gnralement les tests dintelligence
prsentent une bonne fidlit temporelle avec des coefficients de stabilit
autour de .90 (Huteau et Lautrey, 1999a, p. 101).
2. La fidlit interne (ou homognit interne)
Il sagit ici de vrifier que tous les items dune mme preuve mesurent
bien la mme dimension. Par exemple, si un test souhaite valuer le
raisonnement dductif, tous les items de ce test doivent faire appel
ce type de raisonnement. Mais les items sont diffrents les uns des
autres (par leur contenu, par le problme rsoudre...) et il faut alors
vrifier que, malgr ces diffrences, tous ces items valuent bien la mme
52
dimension, la mme variable psychologique. Si ce nest pas le cas, certains

items mesurent, au moins en partie, autre chose que ce que mesurent les
autres items et lhomognit de lpreuve nest alors plus garantie.
Pour vrifier cette fidlit interne (ou homognit interne) on distingue
principalement deux mthodes1 :
La premire mthode, diviser lpreuve en deux parties ou mthode
split-half (partage par moiti). Par exemple, en runissant les items
pairs dun ct et les items impairs de lautre, on aboutit deux
formes parallles de lpreuve, mais rduite chacune 50 % des
items de lpreuve originale. Lindicateur de ce type de fidlit est
encore un coefficient de corrlation, un r de B-P, appel ici coefficient
dhomognit. Attention ici dans linterprtation de la valeur du r car
comme chaque partie ne comporte que la moiti des items de lpreuve
complte et que, comme nous lavons dj signal, la fidlit dpend
(en partie) du nombre ditems, la valeur du coefficient dhomognit
peut en tre affecte. De plus, cette mthode prsente linconvnient
de ne prendre en compte quun seul type de rpartition des items
(items pairs/impairs dans notre exemple) alors que de nombreuses
autres partitions des items sont possibles. Cest pour cette raison quil
est prfrable dutiliser la seconde mthode ;
La seconde mthode prsente lavantage de prendre en compte
lensemble des rpartitions possibles des items de lpreuve en deux
parties gales. En fonction du type ditem il est possible dutiliser
le coefficient dit KR20 de Kuder-Richardson (pour des items
dichotomiques) ou le coefficient alpha de Cronbach. On considre
gnralement que lhomognit interne est satisfaisante si lindicateur
est ici au moins gal .80 et on peut considrer lhomognit comme
acceptable si la valeur de lindicateur est suprieure .70 (daprs
Vrignaud, 2002b ; voir galement Rolland, 2001). En dessous de cette
valeur on peut considrer lhomognit comme trop faible. Mais
attention, il faut encore moduler ces critres en fonction du nombre
ditems : toutes choses gales par ailleurs, lalpha de Cronbach est lui
aussi dpendant du nombre ditems ( homognit quivalente, un
test A possdant plus ditems quun test B prsentera une valeur plus
leve de cet indicateur alpha).
1. En plus de ces deux mthodes principales il existe dautres possibilits de vrifier lhomognit
comme par exemple les techniques danalyses factorielles (voir Dickes et al., 1994).
53
3. La fidlit de la cotation
Il sagit ici de la troisime forme de fidlit que doit prsenter un
test psychologique. Cette fidlit inter-juges est requise car, pour que
la mesure soit fiable, il faut que face un mme protocole ( une
mme performance du sujet) des psychologues diffrents aboutissent au
mme rsultat, cest--dire au mme score. Cette exigence peut sembler
vidente et allant de soi mais cest loin dtre le cas. Nous prendrons
deux exemples :
Le premier exemple, bien connu des tlspectateurs, est celui de

lvaluation des preuves sportives de patinage artistique. Chacun
dentre nous a pu, au moins une fois, tre tmoin des carts de
notation entre des juges face une mme performance. Rappelons
que dans ces comptitions lvaluation de chaque juge est publique et
consiste brandir une note la fin de la prestation de chaque sportif.
Et le cas le plus rare est bien celui o tous les juges indiquent la mme
note ! On observe le plus souvent des carts de notation entre les
juges, alors quils ont pourtant t tmoins de la mme performance
du candidat. Mme lorsque ces carts sont minimes, ils existent ;
Le second exemple fait rfrence un domaine moins connu qui est
celui des valuations scolaires. Les expriences de multi-correction
(une mme copie, ou un mme lot de copie, corrige par diffrents
enseignants) sont rares. Mais quand elles sont ralises, elles aboutissent la mise en vidence de variabilit dans la notation. En
effet, tous les travaux de docimologie et cela depuis fort longtemps,
montrent, une faiblesse de la fidlit inter-juges dans les valuations
scolaires (voir sur ces points Piron, 1963, Noizet et Caverni, 1978,
et Chartier, 2005).
Les valuations psychologiques, et plus particulirement les tests dintelligence, ne doivent pas prsenter ce type de biais. Comme nous lavons
dj indiqu, du fait mme de leur conception, ils garantissent cette forme
de fidlit. En effet, dans le cas de Q.C.M, la cotation est simple. Elle
est mme quelque fois automatise (feuille auto-corrective ou cotation
informatise), ce qui rduit trs fortement la possibilit de biais. Dans le
cas de rponse construire, le psychologue doit trouver dans le manuel
du test des indications prcises afin de pouvoir procder la cotation du
protocole du sujet avec confiance. Par exemple, le manuel doit indiquer des
exemples de bonnes et de mauvaises rponses afin dviter toute ambigut
dans la cotation. Un bon exemple ici concerne les chelles de Wechsler. En
54
effet, dans les chelles verbales de ces preuves, certains subtests prennent
la forme de rponses construire avec une cotation prcise et assez fine car
elle aboutit des scores de 0, 1 ou 2 points. Pour procder cette cotation,
le psychologue doit se rfrer au manuel qui propose, dune part, les rgles
gnrales de dfinition des trois catgories de rponse, dautre part, pour
chaque item les rponses les plus frquentes (observes lors de la phase
dexprimentation) avec les cotations correspondantes. Par exemple, pour le
subtest vocabulaire du WISC-III, on accorde 0, 1 ou 2 points selon le type
de rponse :
0 point : rponse incorrecte,
1 point : rponse correcte mais non gnralisable,
2 points : rponse correcte et gnralisable.
Et le manuel indique, pour chaque item, une liste de rponses possibles
avec les scores attribuer. Le psychologue dispose ainsi de tous les lments
pour procder avec confiance la cotation du protocole.
Comme nous lavons dj signal, cette fidlit de la cotation a t value
pour la version WISC-III avec le calcul dune corrlation entre les cotations
indpendantes de plusieurs protocoles par deux psychologues avec au final
un r de BP quasiment parfait (r = .99).
Comme cet exemple le prouve, la fidlit de la cotation des tests
dintelligence est garantie, mme lorsque lpreuve nest pas de type Q.C.M,
condition toutefois que le psychologue suive scrupuleusement les indications
de correction fournies dans le manuel et que les rponses soient courtes.
Face une preuve prsentant des questions ouvertes, le psychologue
doit donc sintresser de trs prs aux consignes de correction et aux tudes
prsentes dans le manuel qui doivent vrifier ce type de fidlit.
3.
La notion de sensibilit
Lobjectif principal dun test est bien dobserver des diffrences interindividuelles. Cette capacit de diffrenciation des sujets correspond la notion de
sensibilit. La sensibilit reprsente le pouvoir discriminatif de linstrument
de mesure. Un test est sensible sil permet bien de distinguer des sujets
de niveaux diffrents sur une mme dimension psychologique, comme
par exemple lintelligence. Un des postulats de base en psychomtrie, et
plus globalement en psychologie, et valable quel que soit le type de test,
55
consiste considrer que les dimensions psychologiques se rpartissent dans

la population selon une loi normale (une courbe de Gauss) comme lindique
la figure 2.1.
effectifs
des sujets
10
20
30
40
50
60
scores
lpreuve
Figure 2.1
Exemple dune rpartition de scores conformes une courbe de Gauss
(Daprs Guguen, 2005, Statistiques pour psychologues, Dunod, p. 80).
Soit une preuve note sur 60 points, la rpartition thorique des scores
des sujets est prsente sur la figure 2.1.Un test doit donc aboutir une
telle rpartition des sujets : une faible proportion de sujet doit se trouver
sur la gauche de la courbe (cest--dire obtenir des scores faibles au test),
symtriquement une proportion identique doit se situer sur la droite (scores
levs), avec vers le centre, une majorit de sujets (scores autour de la
moyenne), et une dcroissance progressive des effectifs des sujets du centre
vers les deux extrmits. Dans la phase dlaboration dune preuve, les items
sont donc slectionns pour assurer cette discrimination entre les sujets.
Un test dintelligence comportera ainsi des items de niveaux de difficult
variables de manire diffrencier efficacement les sujets en fonction de
leur russite. Ici va intervenir la notion de difficult de lpreuve. Pour
assurer une sensibilit maximale, un test doit prsenter un niveau moyen
de difficult par rapport au niveau de la population auquel il est destin.
Il faut viter par exemple leffet plafond , qui correspond une preuve
trop facile (tous les sujets obtiennent alors de bons scores, il ny a donc pas
discrimination), ainsi que leffet inverse, leffet plancher , qui correspond
une preuve trop difficile dans laquelle tous les sujets obtiennent des notes
basses. Dans ces deux situations la diffrenciation des sujets nest pas ralise
de faon satisfaisante et le test na alors que peu dutilit.
Cette finesse de la mesure est galement lie au nombre ditems de
lpreuve : plus une preuve comportera ditems, plus elle permettra
deffectuer une diffrenciation fine entre les sujets.
56
Enfin, cette sensibilit est lie au pouvoir discriminant des items (voir
plus loin).
Dans les tests dintelligence, on accorde le plus souvent un point par
item russi et on additionne ces points pour obtenir le score brut. Les sujets
doivent donc se diffrencier sur ce score.
4.
La notion de validit
Principes
Cette notion est fondamentale.

En psychomtrie, la validit a toujours t considre comme le concept
le plus fondamental et le plus important. (Angoff, 1988, cit par Laveault
et Grgoire, 1997, p. 189.)
Quest-ce que la validit ? Elle correspond ce que mesure le test. Par

exemple, une balance mesure bien un poids (ou une masse) et non un
volume. De mme un test de raisonnement particulier doit mesurer ce type
de raisonnement et seulement ce type de raisonnement.
Mais cette validit ne va jamais de soi, elle doit toujours tre dmontre,
vrifie. Des lments de validation du test doivent tre prsents par ses
concepteurs. Lutilisateur du test doit pouvoir vrifier dans le manuel la
prsence et la pertinence de ces lments de validation. Il sagit le plus souvent
de rsultats de recherches menes lors de la phase dexprimentation de
lpreuve. Mais ces recherches sont souvent en nombre assez rduit lors de la
premire dition dun test et il convient alors, afin de complter ces premires
preuves de validit, de prendre en compte les informations ultrieures sur le
test (tudes, recherches, articles...) publies aprs la publication du manuel
du test (et qui ne figurent donc pas dans ce manuel). Un bon exemple est
celui des matrices de Raven : depuis llaboration en 1938 de la premire
version de ces matrices, des tudes viennent rgulirement sajouter aux
lments de validation dj connus (voir sur ce point Raven, 2001, qui
prsente une synthse des nombreuses recherches sur ce test).
Ainsi, progressivement, les connaissances sur ce que mesure une preuve,
et ventuellement aussi sur les aspects quelle ne mesure pas, vont se cumuler
et enrichir notre connaissance du test. Cest pour cette raison que certains
57
auteurs prfrent actuellement utiliser la notion de validation, qui exprime

ce processus cumulatif :
Dans la conception actuelle, le terme de validit est abandonn au profit
de celui de validation. Sous ce changement terminologique qui peut sembler anodin, on trouve en fait un changement radical de conception : la validation devient un processus de recherche continu qui sappuie sur un faisceau convergent darguments et de preuves. (Dickes et al., 1994, p. 49).
Tout psychologue devrait ainsi se tenir inform des rsultats des recherches
sur les outils quil utilise afin de mettre jour ses connaissances (voir en
Annexes le code de dontologie et les recommandations internationales).
Diffrents types de validit
On distingue habituellement trois grandes formes de validit : la validit de

contenu, la validit critrielle et la validit thorique.
La validit relative au contenu du test

Dans cette premire forme de validit, il sagit de vrifier dans quelle mesure
le test est reprsentatif du domaine valuer. Une dfinition pralable du
domaine est ncessaire et doit comporter des informations prcises sur les
aspects, ou facettes, censs tre valus par le test. Pour vrifier cette forme
de validit une analyse de la liaison entre le domaine, ou les sous-domaines,
viss par le test et le contenu du test doit tre mene (format et contenu des
items, type de rponse...).
Pour garantir un bon niveau de validit de contenu, un test doit comporter
un chantillon reprsentatif des tches caractrisant le domaine considr.
Cette forme de validit est particulirement pertinente pour les valuations
de connaissances. Par exemple, un test de mathmatiques pour des lves de
niveau de la classe de 3e de collge aura une bonne validit de contenu si les
exercices (items) quil contient correspondent un chantillon reprsentatif
du programme de mathmatique de ce niveau scolaire. Elle est en revanche
moins pertinente dans le domaine des tests dintelligence car il y est plus
difficile de slectionner un tel chantillon reprsentatif de lunivers des items,
cest--dire de lensemble des items constituant le domaine. Comment
sassurer de la reprsentativit de lchantillon des items qui constituent le
test si lon ne connat pas lensemble des items possibles ? On peut noter
ici les travaux originaux de Dickes sur la dfinition de lunivers des items
58
pour la tche des cubes de Kohs (voir sur ce point Dickes, 1988 et Dickes,
Houssemand et Reuter, 1996) mais ce type de recherche, et nous pouvons le
regretter, reste une exception. De ce fait, concernant les tests dintelligence,
on accordera plus dimportance la validit thorique (voir plus loin).
Il faut donc toujours garder lesprit que le test, et les items qui le
composent, ne sont quun chantillon des situations caractristiques du
domaine considr et que la reprsentativit de ces items nest gnralement
pas value de faon prcise. Le plus souvent, partir de rfrences thoriques
(voir plus loin la notion de validit thorique), le concepteur du test va
slectionner un certain type de tche (donc un certain type ditems) qui sera
en rapport direct avec ce cadre thorique. Mais dans cette slection ditem,
la reprsentativit est plus ou moins bien assure. Cest ce qui explique,
par exemple, quun test dintelligence prsente toujours une spcificit (on
peut faire ici le lien avec le facteur spcifique distingu par Spearman, voir
chapitre 1 de ce livre) et que, mme lintrieur dun cadre thorique
identique, une preuve ne sera jamais parfaitement quivalente une
autre : chacune ayant slectionn, parmi lensemble des possibles, certaines
situations qui vont alors dfinir les caractristiques des items du test.
Ainsi par exemple, si lon prend deux tests de facteur g, le D2000 et le
SPM de Raven, et bien que leur cadre thorique soit identique (rfrence
lapproche de Spearman, avec comme objectif commun dvaluer le facteur
g) le type ditems est diffrent (domino pour le D2000, matrice pour le PMS),
ainsi que les modalits de rponse (rponse construire pour le D2000,
rponse choisir QCM pour le SPM). Ces deux preuves valuent bien la
mme dimension (ici, le facteur g) mais partir de situations diffrentes.
Cette mme dimension peut en outre tre galement value, et de manire
aussi satisfaisante, laide dautres tests. Autrement dit, chaque preuve de
facteur g propose des tches qui ne sont quun chantillon de lensemble des
tches permettant dvaluer le facteur g. Ce principe est valable quel que
soit le cadre thorique de rfrence.
Nous avons pris ici pour exemple deux tests de facteur g dont la validit
est prouve et reconnue. Mais il faut cependant tre toujours attentif au
contenu dun test, sa validit de contenu, car elle va, tout au moins
en partie, conditionner la gnralisation que lon peut faire partir des
rsultats obtenus dans le test. Ainsi, nous verrons plus loin que certains biais
dvaluation sont en rapport direct avec le contenu des items.
59
La validit critrielle en rfrence un critre externe
Il sagit ici danalyser les liaisons existant entre le niveau de russite au test
et le niveau de russite dans une autre situation prise comme critre. Ce
peut-tre par exemple le lien entre les rsultats un test dintelligence et la
russite scolaire, ou avec lobtention dun examen, ou encore la liaison avec
ladaptation un poste de travail... Un test a une bonne validit critrielle
lorsquil prsente une liaison leve avec le critre considr.
En fonction de lintervalle de temps entre les deux mesures, on distingue
la validit concomitante et la validit prdictive.
La validit concomitante (ou concurrente1 ) rend compte de la liaison
entre le test et le critre lorsque les deux mesures se situent dans un
mme temps. Il va sagir, par exemple, de procder la passation dun
test dintelligence au 1er trimestre scolaire et danalyser les liaisons avec
les rsultats scolaires du 1er trimestre ;
La validit prdictive consiste valuer les sujets, dans un premier temps
avec le test puis, aprs un intervalle plus ou moins long, de recueillir, dans
un second temps, les donnes sur le critre. On cherche ainsi savoir si
le test permet de prdire, avec plus ou moins de confiance, les rsultats
obtenus sur le critre. Pour reprendre notre exemple il sagira alors
danalyser, par exemple, les liaisons entre le test pass au 1er trimestre et
lobtention dun diplme en fin de 3e trimestre : les lves qui avaient eu
de bons rsultats au test ont-ils mieux russi le diplme que les lves qui
avaient eu de plus faibles rsultats au test ? Si cest le cas, alors ces rsultats
iront dans le sens dun bon niveau de validit prdictive du test car il
sera possible de prdire lobtention du diplme, et plus gnralement de
prdire le niveau dans le critre, partir des rsultats au test. Le test peut
alors faire office de prdicteur. Lindicateur de validit critrielle est le
plus souvent un coefficient de corrlation.
Deux points sont retenir ici : dune part, plus cette validit est leve
et plus la prdiction sera prcise, dautre part, la qualit de cette prdiction
ralise partir dune seule variable (le test) peut tre amliore en prenant
en compte plusieurs variables au lieu dune seule (prendre en compte, par
exemple, les rsultats plusieurs tests pour prdire un vnement).
Pour les tests dintelligence, cette validit est, en moyenne de .50 avec
des indicateurs de russite scolaire (Reuchlin, 1991) ainsi quavec des
1. On trouve galement le terme de concourrente.
60
indicateurs de russite professionnelle (Robertson & Smith, 2001 ; Salgado,

1999 ; Smith & Hunter, 1998).
Ces valeurs de validit pronostique dpendent la fois du test (toute
chose gale par ailleurs, deux tests peuvent prsenter des valeurs diffrentes
de validit pronostique par rapport un mme vnement) mais dpendent
galement du type dindicateur utilis pour le critre. Par exemple, dans le
cas de la validit prdictive des tests dintelligence par rapport la russite
scolaire, les validits (cest--dire les coefficients r de B-P) sont gnralement
plus leves quand on utilise, pour le critre de russite scolaire, des preuves
normalises de connaissances que lorsquon utilise les notes quotidiennes
des enseignants (en raison, principalement, dune fidlit plus faible de ces
notes).
La validit thorique en rfrence un concept ou un modle thorique

On parle aussi de validit de construct, de validit conceptuelle, de validit
hypothtico-dductive.
Ce type de validit questionne directement les prsupposs thoriques
qui sont la base de lpreuve. Effectivement toute preuve est base sur des
ides, sur des concepts qui peuvent tre plus ou moins labors. Ces ides
sous jacentes, ces thories, conditionnent la validit dun test :
Les tests valent ce que valent les ides qui ont prsid leur construction.
(Huteau & Lautrey, 1997, p. 3).
Cest cette forme de validit qui permet de donner du sens ce qui a t

valu, de donner une signification un score.
On parle de validit convergente et de validit divergente : un test valide
doit prsenter une corrlation forte avec une preuve qui mesure le mme
domaine (validit convergente), et une corrlation nulle, ou faible, avec une
preuve valuant un autre domaine ou une autre dimension indpendante
(validit divergente). Par exemple, deux tests dintelligence doivent prsenter
une corrlation leve car ils sont censs valuer tous les deux une mme
dimension : lintelligence (validit convergente). Par contre, en labsence
dhypothse spcifique ce niveau, ils ne doivent pas prsenter un tel
niveau de liaison avec, par exemple, un test de personnalit, car il sagit
dun domaine diffrent, relativement indpendant de lintelligence (validit
divergente).
Un test doit ainsi spcifier les bases thoriques sur lesquelles il repose
et prsenter des informations qui viennent tayer les propos. Il sagit le
61
plus souvent de situer le test parmi les modles thoriques de rfrence

(voir le chapitre 1) et de confronter les rsultats dun groupe de sujets
des tests comparables. Par exemple : un test cens valuer le facteur gnral
dintelligence (facteur G) doit prsenter une forte corrlation avec un test
dj connu (et valid) qui value ce mme facteur (validit convergente).
Si ce nest pas le cas, si les liaisons ne sont pas assez fortes entre les deux
preuves, alors ce nouveau test ne peut pas affirmer quil value lui aussi le
facteur g : sa validit thorique nest pas assure.
Comme nous venons de le voir dans lexemple, on retrouve ici comme
indicateur de validit le coefficient de corrlation. Mais attention dans
linterprtation de ces coefficients : on ne pourra jamais obtenir ici des
valeurs trs proches de 1 car il existe une relation entre fidlit et validit :
les fidlits rciproques de deux mesures dterminent les limites suprieures
de leur corrlation. Autrement dit, la corrlation maximale entre deux tests
est limite par le fait quaucun deux nest une mesure parfaitement fidle
(voir lexemple de Laveault et Grgoire, 1997, p. 205).
Une autre facette de la validit thorique est la validit structurale dun test.
De quoi sagit-il ? Dans le cas o le modle thorique de rfrence envisage
plusieurs dimensions, comme par exemple dans les tests de Wechsler qui
distinguent chelle verbale (et QIV) et chelle de performance (et QIP), on
doit retrouver des indicateurs statistiques qui viennent confirmer (valider)
cette distinction thorique. Plusieurs mthodologies sont utilisables, et
principalement les techniques danalyse factorielle.
Partons dun exemple : lpreuve de Wechsler WISC-III est organise
autour de deux chelles afin de pouvoir calculer ces deux Q.I. Pour valider
cette structure, les subtests dune chelle doivent alors prsenter entre eux
des corrlations plus leves quavec les subtests de lautre chelle. Ce qui
doit se traduire dans une analyse factorielle par la mise en vidence de
deux facteurs distincts, qui viennent alors confirmer, et valider, le calcul
de ces deux indices (QI V et QI P). Autrement dit, on doit retrouver au
niveau mme de lorganisation des donnes, le regroupement des subtests en
deux blocs, correspondant la distinction thorique propose par Wechsler.
Effectivement, comme nous le prsenterons dans un autre chapitre, nous
retrouvons dans le manuel du WISC-III des analyses factorielles qui valident
la distinction propose par lauteur de ce test. Il sagit bien ici de la validit
structurale du test, validit relative la structure interne de linstrument.
Un autre exemple de validation de la structure dun test nous est
donn par le test K-ABC (Kaufman et Kaufmann, 1993). Le cadre de
rfrence thorique principal de cette preuve repose sur des travaux de
62
psychologie cognitive et de neuropsychologie, mens dans les annes 1980,

qui proposaient de distinguer deux grands types de processus cognitifs : les
processus simultans et les processus squentiels.
Les processus simultans sont utiliss lorsque les caractristiques de la
situation ncessitent de traiter en mme temps plusieurs informations, les
processus squentiels correspondent eux un traitement pas pas des
informations.
Les concepteurs du test K-ABC ont donc souhait laborer une preuve
qui permette dvaluer chaque type de processus. Ils ont alors slectionn des
items pour valuer les processus simultans et dautres items pour valuer
les processus squentiels. Au final, le K-ABC se prsente un peu comme la
structure des chelles de Wechsler avec deux chelles1 distinctes : lune pour
les processus simultans, lautre les processus squentiels.
Mais dans la phase dexprimentation de leur preuve, les analyses ont
montr quun des subtests, conu lorigine pour faire partie de lchelle des
processus squentiels, tait en fait corrl plus fortement avec les items de
lautre chelle. Pour conserver un bon niveau de validit structurale leur
preuve les auteurs ont alors dplac ce subtest vers lchelle de processus
simultans (Kaufman et al., 1993, p. 55). Sils navaient pas modifi ainsi
la structure de leur preuve exprimentale, la validit structurale du test en
aurait t affecte.
Cette validit structurale est galement exige dans tous les domaines
concerns par les tests, comme par exemple dans les questionnaires dintrts
bass sur la thorie de Holland, o il va sagir alors de retrouver les six
types RIASEC postuls par ce modle thorique, organiss en hexagone
(Vrignaud et Bernaud, 2005).
Les tests dintelligence doivent donc prsenter des lments de validation
selon ces trois axes :
validit de contenu,
validit critrielle,
validit thorique.
Dans la ralit, comme nous lavons indiqu, les manuels de tests accordent
une part plus importante aux deux dernires formes de validit. Mais,
comme nous le verrons dans la partie consacre la prsentation de tests,
ces informations sont plus ou moins compltes selon les preuves.
1. En ralit le K-ABC comporte galement une chelle de connaissance mais nous nen parlerons
pas ici afin de faciliter la comprhension de lexemple.
63
Pour terminer, signalons quune autre forme de validit est souvent cite :
la validit apparente (face validity). Cette validit est en quelque sorte une
validit de surface (on parle aussi de validit cologique) et correspond
une analyse intuitive du test. Cest par exemple, une analyse du contenu
du test effectue par un juge non spcialiste du domaine qui aboutirait un
jugement de type ce test value lintelligence parce que a se voit ! . Ce type
de validit, mme sil est pertinent dans le cadre par exemple de la phase
de restitution des rsultats, nest bien entendu pas suffisant. Un test qui ne
prsenterait que ce type de validit ne serait pas automatiquement valide,
car il ny a ici aucune vrification objective sur ce qui est rellement mesur
par ce test.
5.
Lanalyse des items

Dans le processus de cration dun test, cinq tapes peuvent tre distingues
(Laveault et Grgoire, 1997) :
la dtermination des utilisations prvues du test,

la dfinition de ce que lon souhaite mesurer,
la cration des items,
lvaluation des items,
la dtermination des proprits mtriques du test dfinitif.
La forme exprimentale dun test doit comporter un nombre suffisant

ditems de manire pouvoir slectionner les items les plus pertinents qui
constitueront la version dfinitive du test. Par exemple, si un test doit
comporter au final 30 items, il faudra en crer environ 45, mener une
exprimentation tous et ne retenir que les 30 meilleurs.
Sur quelles bases est effectue cette slection ditems ? Aprs avoir analys
la fidlit de la mesure, et ventuellement retir les items qui ont t
identifis comme responsables dune ventuelle faiblesse de lpreuve ce
niveau, chaque item va tre caractris par deux indicateurs principaux : un
indice de difficult et un indice de discrimination. Cest souvent, en grande
partie, partir de ces deux indicateurs que la slection finale des items sera
ralise. Ce quil faut noter cest que, pour chaque item constituant lpreuve
dfinitive, les valeurs de ces indicateurs doivent figurer dans le manuel.
64
Il est donc important de connatre ce que reprsentent ces indicateurs. De

plus, dans certains cas, il peut tre ncessaire de revenir vers ces indices pour
mieux comprendre la russite ou lchec dun sujet un item particulier.
Lindice de difficult
Cet indicateur est trs simple calculer et interprter : partir du nombre

de sujets ayant russi litem, et le nombre total de sujets, on peut calculer
une frquence de russite litem. Cette frquence de russite, exprime le
plus souvent sous la forme dun pourcentage, reprsente lindice de difficult
de litem.
Exemple
Si 56 sujets sur 109 russissent un item A, lindicateur de difficult de A est
donc de 56/109 = 0,514 soit 51,4 % de russite. Autrement dit cest un item de
difficult moyenne car il a t russi par un peu plus de la moiti des sujets
de cet chantillon. Et si seulement 32 sujets russissent litem B, lindice de
difficult de B est donc de 32/109 = 0,294 soit 29,4 %. Litem B, qui prsente un
indicateur de russite plus faible, est donc plus difficile que litem A.
Cet indicateur est en lien direct avec la notion de sensibilit : il permet de

juger de la capacit de litem diffrencier les individus. Lindice de difficult
est directement dpendant du niveau de lchantillon. On considre quun
item a un bon pouvoir diffrenciateur lorsque lindice de difficult est
proche de 50 % (cas de litem A de notre exemple). Une valeur plus leve
tmoigne dun niveau de difficult plus faible et inversement, une valeur
plus faible tmoigne dun niveau de difficult plus lev (cas de litem B de
notre exemple).
Pour assurer un bon niveau de sensibilit du test on considre quil faut
que lpreuve, au total, prsente un niveau de difficult moyen. Pour arriver
ce rsultat on slectionne les items dont la frquence de russite est comprise
entre 30 et 70 % environ. Mais lpreuve doit comporter galement des
items plus faciles, qui seront placs gnralement en dbut dpreuve (afin de
motiver les sujets), et qui permettent de distinguer les sujets de faible niveau,
et des items plus difficiles, placs gnralement plutt en fin dpreuve, qui
serviront diffrencier les sujets de niveau de comptence plus leve.
Cet indice de difficult, au niveau de litem comme au niveau global de
lpreuve, dpend donc des caractristiques du groupe de sujets sur lequel
seffectue la passation : le niveau de difficult dun item, ou dun test, peut
ainsi varier en fonction du niveau des sujets de lchantillon. Cest ce qui
65
explique que, pour un mme test, il existe souvent plusieurs talonnages :

chacun correspondant un groupe prcis de sujets (voir plus loin la notion
dtalonnage).
Cette dpendance entre caractristiques des sujets et caractristiques des
items ne permet pas dtablir des chelles de mesures absolues. Pourtant
ce type dchelle prsenterait un certain nombre davantages : comparaison
possible de sujets diffrents sur une mme chelle, comparaison de sujets
nayant pas pass les mmes preuves, calibrage des items pour constituer
des banques ditems... Cest en grande partie pour cette raison que dautres
modles de mesure, comme les Modles de Rponse lItem (ou M.R.I),
ont t dvelopps (voir plus loin une prsentation de ces modles).
Lindice de discrimination
La discrimination dun item reprsente sa capacit diffrencier les sujets

qui obtiennent un niveau lev de russite lensemble du test des sujets
qui prsentent un niveau plus faible de russite. On parle du pouvoir
discriminant dun item. Un bon item est ici un item qui permet bien de
distinguer les sujets sur leur niveau de russite globale lpreuve.
On analyse ainsi, au niveau de litem, la relation entre la russite cet
item et le score total obtenu au test. On cherche bien entendu une liaison
forte : les sujets ayant russi litem doivent prsenter en moyenne un score
total plus lev que les sujets ayant chou litem.
Lindicateur utilis ici est la corrlation item/test. Il sagit plus prcisment
de la corrlation point bisrial entre litem (cod en 0/1) et le score total,
corrlation corrige pour la prsence de litem dans le score (cette corrlation
revient calculer la corrlation entre litem et le score total sans prendre
en compte litem considr). Un item qui prsente une valeur leve cet
indice sera un item conserver. Au contraire, un item qui prsente une
valeur faible, sera exclure.
Mais quelles sont les valeurs seuils ? Il est assez difficile de trouver des
valeurs seuils dans la littrature, car, comme nous lavons dj indiqu,
dautres variables sont prendre en compte. On peut nanmoins considrer
que cette discrimination est trs satisfaisante si lindice est suprieur .40 ;
quelle est satisfaisante entre .20 et .40 ; quelle est faible entre .10 et .20 ;
quelle est insuffisante en dessous de .10 (Vrignaud, 2002b).
Autrement dit, thoriquement un test ne devrait comporter aucun item
prsentant un indice de discrimination infrieur .10. Mais pratiquement
66
un item prsentant un trop faible niveau de discrimination peut nanmoins

tre conserv condition quil ait un apport significatif un autre niveau
danalyse (par exemple, on peut dcider de conserver un item en raison de
son contenu spcifique...).
6.
La notion de biais
Avant de dfinir et dillustrer cette notion de biais, il faut, dune part,
rappeler que lusage des tests a t souvent questionn par la prsence, relle
ou suppose, de biais sociaux, ou de biais culturels, dans ces preuves (voir
par exemple Bacher, 1982 ; Huteau et Lautrey, 1999a), dautre part, les
tentatives dlaboration de tests indpendants de la culture : test culture free
ou culture fair.
Actuellement, sil semble difficile dlaborer un test qui soit compltement
indpendant dun contexte culturel, il est par contre possible, et hautement
souhaitable, de sassurer de labsence de biais. On retrouve dailleurs cet
objectif dans les recommandations internationales sur lutilisation des tests, qui
prconise au psychologue de sassurer de labsence de biais systmatiques
au dtriment de lun des groupes de sujets auxquels le test sera administr
(section 2.2.2, paragraphe d, page 19).
Des tudes doivent donc tre menes sur ce plan et doivent figurer dans
le manuel.
Quest-ce quun biais ?
On dit quune mesure est biaise ds lors quelle ne mesure pas, ou

quimparfaitement, ce quelle est cense mesure. On est en prsence dun
biais lorsque la mesure met en vidence des diffrences entre des groupes
de sujets et que ces diffrences ne peuvent tre mises en relation avec la
ou les variables mesures. (Vrignaud, 2002a, p. 626).
Il est important de distinguer ici clairement ce qui est cens tre mesur
par le test (la variable ou dimension) qui doit expliquer les diffrences de
performances observes entre les sujets et/ou entre des groupes de sujets,
et linfluence ventuelle dune autre source de variation (un biais) qui
pourrait galement expliquer certaines diffrences observes. Par exemple, si
la rsolution dun item de test dintelligence ncessite de connatre un terme
67
spcifique (ou technique), la russite ou lchec cet item ne dpendra donc

plus uniquement du niveau dintelligence (variable cense tre mesure par
le test) mais galement de la connaissance ou non de ce terme (variable
ici considre comme un biais : variable parasite). Autrement dit, niveau
comparable dintelligence, les sujets connaissant ce terme technique seront
avantags par rapport aux sujets ne connaissant pas ce terme. Dans ce cas,
cette situation dvaluation est donc biaise. Cet exemple renvoie la notion
de validit de contenu.
Dune faon plus gnrale, on peut retenir quun test est biais, ou
prsente un biais, sil avantage, ou dsavantage, de faon systmatique un
groupe particulier de sujets.
Diffrents types de biais
Il est possible de distinguer plusieurs types de biais : les biais de construit,

les biais de mthode et les biais ditem (Van de Vijver et Poortinga, 1997).
Nous ne pouvons pas ici dtailler lensemble de ces biais possibles mais
nous en indiquerons uniquement les points essentiels (pour approfondir ce
sujet voir Vrignaud, 2002a et 2001 ; Grgoire, 2004).
Les biais de construit, ou biais conceptuels

Ce qui est questionn ici, ce sont non seulement les bases thoriques
auxquelles le test se rfre (conception thorique de lintelligence sous
jacente) mais, aussi, le sens que prend ce modle thorique dans le contexte
social et culturel particulier dans lequel est labor le test et dans lequel sera
utilis le test. Ce sont ces modles de rfrence qui vont dfinir les indices
prendre en compte, les caractristiques des situations dvaluation...
La fiabilit de ces modles des sujets de culture diffrente nest pas
ncessairement garantie : la dfinition dun comportement intelligent peut
varier dune culture lautre. Ainsi par exemple, mme si lon a de bonnes
raisons de penser que le modle de lintelligence propos par Carroll (voir
chapitre 1) est universel (Grgoire, 2004, p. 90), il est fort probable que
certains contextes culturels vont accorder plus dimportance certaines
aptitudes spcifiques qu dautres. Labsence de prise en compte de ces
spcificits culturelles peut aboutir ces biais de construit, do la ncessit
de procder des tudes rigoureuses lors de ladaptation de tests. On peut
citer ici lexemple de la structure factorielle du test WISC-III qui comporte
68
quatre Indices Factoriels dans la version amricaine mais nen comprend

plus que trois dans la version franaise (voir le chapitre 3 qui dtaille cet
aspect).
Les biais de mthode

Un premier biais de mthode concerne ici des biais lis aux chantillons
et principalement, pour ce qui nous concerne, les biais dtalonnage des
sujets. Le groupe de rfrence, qui constitue ltalonnage, doit prsenter des
garanties quant son niveau de reprsentativit. Sinon, la comparaison des
rsultats dun sujet avec ce groupe de rfrence ne peut pas tre effectue de
manire fiable.
Un deuxime biais de mthode repose sur le matriel utilis. Les sujets
ne doivent pas se diffrencier sur le degr de familiarit avec le matriel du
test. Sinon, un biais est ici possible : les sujets prsentant un haut niveau de
familiarit avec ce matriel, ou avec le type de tche, peuvent tre avantags.
Do la ncessit de ne pas diffuser le matriel de test.
Enfin, un troisime type de biais de mthode est relatif aux conditions de
passation. Par exemple, la situation mme de passation peut sembler trange
certains sujets, ou des sujets dune certaine culture, qui peuvent tre
tonns que le psychologue reste en face deux sans leur apporter une aide
(Reuning et Wortley, 1973, cit par Grgoire, 2004). La comprhension de
la situation et donc limplication du sujet dans cette situation peuvent alors
tre source de biais.
Les biais ditems

Les deux types de biais prcdents, biais de construit et biais de mthode,
affectaient lensemble du test. Par contre le biais ditem peut jouer
uniquement sur un item isol. On parle de biais ditem lorsque, niveau de
comptence comparable des sujets (estim par le mme score total au test),
le niveau de difficult dun item particulier va varier en fonction des sujets,
en raison de leffet dune variable parasite.
Cest lexemple que nous avons dj prsent en introduction qui illustrait
les effets de la connaissance dun terme technique (variable parasite) dans
un test dintelligence (variable value). Ainsi, un item sera biais en faveur
ou en dfaveur dun groupe particulier de sujets. Dans ce cas une variable
diffrente de celle qui est cense tre value peut intervenir et favoriser un
groupe par rapport un autre.
69
Pour reprer les effets ventuels dune variable parasite, plusieurs mthodes
sont utilisables dans le cadre de ltude du Fonctionnement Diffrentiel de
lItem (F.D.I) :
la statistique de Mantel-Haenszel ;
la rgression logistique ;
lapproche par les Modles de Rponse lItem (M.R.I) ;
lapproche de Stout.
(Pour une prsentation dtaille de ces approches Vrignaud, 2002a. Pour

des exemples prcis danalyse de FDI : Vrignaud, 2001).
Quelle que soit la mthode utilise, lobjectif est le mme : reprer les
items prsentant un F.D.I. Ensuite, plusieurs solutions sont envisageables :
Retirer les items biaiss ;
Modifier les caractristiques de litem de manire annuler les effets de
la variable parasite ;
Analyser le test dans son ensemble pour vrifier leffet cumul des
diffrents items biaiss.
Par exemple, dans lexprimentation de la version WISC-III des chelles

de Wechsler, une analyse de F.D.I a t ralise en comparant les rsultats
denfants franais et denfants belges. Sur le subtest information quatre
items prsentant un F.D.I ont nanmoins t conservs car deux de ces
items avantageaient les lves Franais et les deux autres avantageaient les
Belges. Dans ces conditions, on peut considrer que les effets cumuls des
F.D.I ont tendance sannuler (Grgoire, 2000a).
Conclusion sur la notion de biais
Dans cette partie nous avons montr les effets possibles dun certain
nombre de biais potentiels sur la mesure ralise par un test. Une attention
particulire sur ces diffrents points doit donc tre mene dans les diffrentes
phases dlaboration dun test. Plusieurs mthodologies existent, plus
particulirement pour identifier les biais ditems, mais on peut remarquer
que, en France, ces analyses de biais sont encore assez rares (Vrignaud,
2002a).
70
7.
La notion dtalonnage
Principes de ltalonnage
Comme nous lavons dj indiqu, ltalonnage est llment qui va permettre

de situer les rsultats dun sujet en rfrence ceux obtenus par un groupe
de sujets comparables (une population de rfrence). En effet, le score brut
du sujet (qui correspond la somme des points obtenus dans un test) ne
veut rien dire en soi. Il ne peut tre interprt quau regard dune rfrence.
Le rle de ltalonnage est de fournir cette rfrence.
Pour talonner un test il faut le faire passer un chantillon de sujets de
manire obtenir la rpartition des rsultats ce test sur cet chantillon
de sujets. Cest cette distribution des rsultats qui va servir de rfrence, de
norme. Il faut donc que lchantillon de sujets prsente des caractristiques
comparables celles de la population de rfrence (par exemple par rapport
au niveau dtude, au sexe...). Un mme test peut tre utilis pour des
populations diffrentes, et gnralement on dispose de plusieurs talonnages
pour un mme test qui permet de distinguer ces populations (voir notre
exemple plus loin).
Bien entendu, comme nous lavons indiqu lors de la prsentation de la
notion de sensibilit, les conditions dapplication et de cotation doivent tre
strictement comparables, sinon la comparaison des rsultats serait biaise.
Les caractristiques des sujets qui constituent les chantillons des
talonnages doivent tre soigneusement dcrites : nombre de sujets, ges
moyens, niveaux scolaires, dates de passation... Le psychologue peut alors
slectionner, parmi les talonnages disponibles, celui qui lui semble le plus
proche des caractristiques du sujet examin
Gnralement, un talonnage se prsente sous la forme dun tableau dans
lequel figurent les scores bruts et les scores talonns . Les scores talonns
prennent souvent la forme de classes et permettent alors de situer le sujet
dans lune des classes. Nous verrons plus loin que les talonnages peuvent
prsenter un nombre diffrent de classes.
Prenons, par exemple, un score de 44 points obtenu dans un test
comportant 60 items. Pour ce test nous disposons ventuellement de
plusieurs talonnages en fonction de la profession exerce. Nous avons
reproduit dans le tableau 2.1 un talonnage (fictif) correspondant une
population de niveau cadre.
71
Tableau 2.1
talonnage (fictif) dun test de 60 items, niveau cadre.
Classes
(scores talonns)
% thorique de sujets
dans chaque classe
Notes Brutes
(scores mesurs)
0-38
6,6
39-41
12,1
42-44
17,5
45-48
19,6
49-51
17,5
52-53
12,1
54-56
6,6
57-58
59-60
Sur ce tableau apparaissent les notes brutes (ou scores bruts) dans la
troisime colonne, les classes (ou notes talonnes) dans la premire colonne,
et le pourcentage de sujets appartenant chaque classe dans la colonne
centrale (colonne % thorique). Le principe de ltalonnage est de regrouper
certains scores bruts au sein dun mme score talonn. Par exemple ici,
une note brute de 44, correspond une note talonne de 3 (classe 3). Que
signifie cette classe 3 ? Dans cet talonnage, savoir que le sujet se situe dans
la classe 3 nous permet de situer prcisment la place du sujet parmi une
population de rfrence (ici : les cadres). Pour effectuer ce positionnement
il faut utiliser la seconde colonne du tableau (% thorique). La classe 3
comporte 12,1 % des sujets, on peut donc indiquer ici que 12,1 % des sujets
(cadres) obtient une note quivalente, que 10,6 % des sujets (4 % + 6,6 %)
obtient une note infrieure et donc que 77,3 % des sujets [100 % (12,1 %
+ 10,6 %)]1 obtient une note suprieure. Autrement dit, en premire analyse,
le sujet qui obtient 43 points ne se situe pas parmi les meilleurs si on le
compare aux rsultats des sujets exerant le mme mtier, cest mme plutt
linverse : le score brut de 44 points le situant en classe 3 donc dans les
scores plutt bas.
1. On aurait pu trouver ce mme pourcentage, 77,3, en additionnant les autres pourcentages du
tableau : 17,5 + 19,6 + 17,5 + 12,1 + 6,6 + 4 = 77,3 %.
72
Mais si notre sujet qui a obtenu toujours ce score brut de 44 points nest
pas cadre mais est un jeune sans qualification, il convient donc dutiliser
un autre talonnage : un talonnage qui correspond cette population de
rfrence (voir tableau 2.2).
Tableau 2.2
talonnage (fictif) du mme test de 60 items, en neuf classes normalises,
sujets sans qualifications.
Classes
% thorique
Notes Brutes
0-9
6,6
10-17
12,1
18-24
17,5
25-32
19,6
33-38
17,5
39-43
12,1
44-48
6,6
49
50 et +
Quest-ce qui a chang entre ces deux talonnages ? Uniquement la

troisime colonne, celle qui correspond la rpartition des scores bruts dans
la population de rfrence.
Que peut-on dire de ce score brut de 44 points ? Cette fois, ce score brut
de 44 correspond un trs bon score, une note talonne de 7, score qui
nest atteint que par environ 23 % des sujets. Le score brut (la performance)
na pas chang, par contre cest la population de rfrence qui est diffrente
et qui explique cette variation du score talonn.
Cet exemple illustre bien lobjectif de ltalonnage qui est de transformer
le score brut (ici de 44 points) en un score talonn. Et ce score talonn
dpend, comme nous venons de le voir, de la population de rfrence. Le
niveau de performance observ nest donc quune mesure relative : cest
un indicateur de positionnement du sujet dans une certaine population.
Comme nous venons de lillustrer, une mme performance (ici un score
brut de 44) sera alors interprte diffremment selon ltalonnage considr.
Il convient donc toujours de sinterroger sur la population de rfrence quil
faut utiliser en fonction de la question pose : sagit-il de comparer le sujet
73
aux sujets du mme niveau de qualification ? ou aux sujets du mme ge ?

ou de comparer les performances du sujet une population gnrale ?
Mais attention, il existe diffrents types dtalonnages : des talonnages
normaliss et des talonnages par quantilages. Et selon le type dtalonnage,
comme nous allons le voir, linterprtation de la note talonne peut varier.
Plusieurs types dtalonnage
On distingue deux grandes catgories dtalonnages : les talonnages

normaliss et les talonnages par quantilages.
Les talonnages normaliss

Dans ce type dtalonnage, chaque classe ne comporte pas le mme
pourcentage dindividus mais la rpartition est effectue selon la loi Normale.
Les limites des classes sont dfinies ici de manire respecter cette rpartition
thorique (courbe de Gauss) : une majorit de sujets dans la classe centrale
(qui correspond aux scores proches de la moyenne) et progressivement de
manire symtrique de moins en moins de sujets de part et dautre de cette
classe centrale. Cest le type dtalonnage qui correspond aux talonnages
des tableaux 2.1 et 2.2 de notre exemple de dpart : un talonnage normalis
en 9 classes, avec une majorit de sujets dans la classe centrale (prs de 20%
des sujets dans cette classe 5 contre 4% dans chaque classe extrme).
Les talonnages normaliss comportent toujours un nombre impair de
classes (5, 7, 9 ou 11 classes) car ils sont centraliss sur une classe centrale,
ce qui les diffrencie des talonnages par quantilage.
Le tableau 2.3 indique les proportions thoriques de sujets dans les
talonnages normaliss les plus utiliss (on parle de proportion thorique
car les effectifs rellement observs peuvent lgrement varier).
Les limites de chaque classe sont dtermines en rfrence lcart type
de la distribution. Par exemple, pour un talonnage normalis en 5 classes,
les bornes correspondent : 1,5 cart type ; 0,5 ; +0,5 ; +1,5.
partir des donnes de ce tableau, il est possible de calculer plus
prcisment la position dun sujet particulier dans une population de
rfrence.
Pour interprter plus facilement ces positionnements, certains talonnages
procdent des regroupements de notes talonnes avec des catgories en
nombre plus limits sous la forme de codage : , , 0, +, ++ .
74
Tableau 2.3
Rpartition thorique des talonnages normaliss.
5
classes
1
6,7 %
7
classes
1
4,8 %
9
classes
1
4%
11
classes
2
24,2 %
2
11,1 %
3
Classe centrale
38,2 %
3
21,2 %
4
24,2 %
4
Classe centrale
25,8 %
5
21,2 %
2
3
4
5
6,6 % 12,1 % 17,5 % Classe centrale
19,6 %
1
2
3
4
5
3,6% 4,5% 7,7% 11,6% 14,6%
6
Classe
centrale
16 %
6
17,5 %
7
14,6 %
5
6,7 %
6
11,1 %
7
12,1 %
7
4,8 %
8
6,6 %
9
4%
8
9
10
11
11,6% 7,7% 4,5% 3,6%
Tableau 2.4
Codage des scores partir dun talonnage en 9 classes normalis.
Notes talonnes
++
4,4 %
6,6 %
12,1 %
17,5 %
19,6 %
17,5 %
12,1 %
6,6 %
4,4 %
En plus du positionnement classique en 9 classes, on dispose ici dun autre

codage de la performance du sujet. Il sagit presque dun autre talonnage,
qui repre ici 5 niveaux de russite (de la classe - - la classe ++) :
une russite moyenne, la classe centrale, la classe 0, regroupant plus de la
moiti des sujets (54,6 %)1 ;
une russite au-dessus de la moyenne, la classe +, regroupant elle un peu
moins de 20 % des sujets (18,7 %)2 ;
symtriquement, une russite en dessous de la moyenne, la classe ;
et enfin, les deux classes extrmes, qui correspondent des niveaux de
russite trs infrieurs (classes ), ou trs suprieurs (classe ++), la
moyenne.
1. 17,5 + 19,6 + 17,5 = 54,6 %

2. 12,1 + 6,6 = 18,7 %
75
Attention ici ne pas faire de faux-sens un score 0 correspond ici un

score moyen, ou autour de la moyenne, et non pas un score nul !
Les talonnages par quantilages

Dans ce type dtalonnage chaque catgorie talonne (chaque classe)
comporte le mme pourcentage dindividus. On utilise habituellement
des talonnages en 10 classes : les dcilages. Dans un talonnage de type
dcilage, chaque classe comporte alors 10 % des individus. Cet talonnage
est trs simple raliser. Il est galement simple utiliser car on peut
situer trs rapidement la position du sujet. Prenons un exemple dun test
comportant 40 items (voir tableau 2.5).
Tableau 2.5
Exemple dtalonnage en dciles pour un test de 40 items.
Notes
talonnes
Notes brutes
014
1519 2022
10
2324
25
2627
2829
3032
3334
35 et +
Un sujet qui obtient un score brut de 28 se situe alors dans la classe 7 de

cet talonnage : on sait que 10 % des sujets ont un score quivalent au sien,
que seulement 30 % des sujets ont un score suprieur au sien et 60 % ont
un score infrieur.
On trouve galement des rfrences en terme de percentile ou de rang
percentile. Dans un talonnage en rang centile il y a 100 classes, chacune
comportant 1 % des sujets (classe 1 classe 100). Ce type dtalonnage va
situer le sujet par son rang : le 50e centile correspondant, par exemple, une
position mdiane : 50 % des sujets ont un score infrieur ou gal et 50 %
des sujets ont un score suprieur. Cest pour cette raison que le 50e centile
correspond la mdiane de la distribution.
De la mme manire, dire que le sujet se situe au percentile 75 cest dire
quil occupe la 75e place sur 100, partir du score le plus bas. Autrement
dit, 75 sujets (soit 75 %) ont un score infrieur ou gal au sien et 25 (soit
25 %) un score suprieur au sien.
Ce type dtalonnage permet de situer globalement le sujet parmi les
quartiles1 de la distribution dtalonnage : le premier quartile correspondant
1. Les quartiles permettent de diviser une distribution en quatre classes deffectifs gaux : on trouve
25 % des sujets entre chaque quartile.
76
au percentile 25, le second quartile la mdiane, le troisime quartile au

centile 75.
Certains tests, comme les matrices de Raven, proposent de tels talonnages
en rang centiles (ou percentile) : voir un exemple sur le tableau 2.6.
Tableau 2.6
Extrait de ltalonnage INETOP en rang percentile pour le test SPM
et pour des lves de 3e de collge.
Percentile
Score brut
10
25
50
75
90
95
36
38
42
46
48
51
53
Si un lve de troisime obtient un score brut de 42 points, il se situe

alors au 25e centile, cest--dire en 25e position par rapport au score le plus
bas : 25 % des sujets ont donc un score infrieur ou gal au sien et 75 %
obtiennent un score suprieur au sien. Il est donc situ juste la limite du
premier quartile.
Si un lve obtient un score brut de 44, il se situe donc entre le 25e centile
et le 50e centile, cest--dire entre le premier et le deuxime quartile. Son
score le situe donc en dessous de la moyenne.
Pour qualifier la performance du sujet il est possible ici aussi procder
une catgorisation des scores. Un exemple dune telle catgorisation figure
dans le manuel du SPM (tableau 2.7).
On peut remarquer sur ce tableau que les scores peuvent tre catgoris
de la classe I la classe V, la classe centrale III regroupant 50 % des sujets,
et que les classes extrmes (classe I et classe V) regroupant chacune 5 % des
sujets.
Avantages et inconvnients de ces deux types dtalonnage

Lavantage principal des talonnages normaliss cest quils diffrencient de
manire plus fine les scores extrmes. Mais ils sont moins discriminants sur
les scores moyens. Par contre, cest linverse pour les talonnages de type
quantilages. Mais, gnralement, le praticien ne peut pas choisir entre ces
deux types dtalonnages car les talonnages fournis avec un test diffrent sur
la composition des chantillons dtalonnage (on dispose alors de plusieurs
populations de comparaison) mais pas sur le type dtalonnage.
77
Tableau 2.7
Catgorisation des scores au test SPM (daprs le manuel SPM, section 3, p. 51).
Catgorisation
Conditions
Classe I :
capacit intellectuelle suprieure
si le score atteint ou dpasse le centile 95

des sujets de son groupe dge
Classe II :
capacit intellectuelle nettement au-dessus
de la moyenne
si le score atteint ou dpasse le centile 75

(classe II+ si le score atteint ou dpasse le centile 90)
Classe III :
capacit intellectuelle moyenne
si le score se situe entre les centiles 25 et 75

(plus de 50 : classe III+ ; moins de 50 : classe III )
Classe IV :
capacit intellectuelle nettement infrieure
la moyenne
si le score se situe au centile 25 ou au dessous

(classe IV si le score se situe au centile 10 ou en dessous)
Classe V :
dficience intellectuelle
si le score se situe au centile 5 ou au dessous
Les talonnages de type Q.I.

Les talonnages de type Q.I. sont en fait des talonnages normaliss avec
une moyenne de 100 et un cart type de 15.
Nous avons vu prcdemment (dans le chapitre 1) que la notion de Q.I.
est hrite de la notion dge mental propose par Binet.
lorigine le Q.I. Quotient Intellectuel est bien un quotient, cest-dire le rsultat dune division. Cest Stern en 1913 qui propose ce calcul de
Q.I. comme tant le rapport entre lge mental dun enfant (valu par un
test) et son ge rel (son ge biologique) :
Q.I. = ge mental x 100
ge rel
Avec cette formule, si lge mental correspond lge rel, lenfant a donc
un Q.I. de 100. Si son ge mental est suprieur son ge rel son Q.I. sera
suprieur 100. Et inversement, si son ge mental est infrieur son ge
rel son Q.I. sera infrieur 100.
Mais cet indicateur prsentait des limites, comme par exemple celle de ne
pas tre applicable des adultes. Dans les preuves cres ensuite, comme
par exemple les chelles de Wechsler, la notion de Q.I. va tre reprise
mais elle ne fera plus rfrence cette notion dge mental, la notion de
Q.I. indiquera uniquement un indicateur de positionnement dans une
population de rfrence (principe de ltalonnage).
78
Avec le Q.I., la population de rfrence est toujours la population du

mme ge, que ce soit pour les enfants (par exemple le WISC-III ou le
WISC-IV) ou pour les adultes (la WAIS-III).
Mais Wechsler, par construction, conserve la rfrence 100, qui constitue
alors le score moyen. Lautre indicateur important de cette distribution
de Q.I. est lcart type : il est ici de 15. Comme la distribution suit une
loi normale, ces deux valeurs (moyenne et cart type) nous permettent de
calculer des rpartitions de sujets.
La figure 2.2 nous permet de visualiser ces rpartitions thoriques pour
diffrents types de scores.
effectifs
des sujets
scores
2,2 %
34,13 % 34,13 %
13,6 %
13,6 %
2,2 %
notes Z
-3
-2
-1
+1
+2
+3
55
70
85
100
115
130
145
50
100
notes QI
rangs
percentile
Figure 2.2
Rpartition thoriques des sujets en fonction des diffrents types de scores.
La figure 2.2 indique les proportions de sujets relatives diffrents

indicateurs de test. La premire ligne concerne les notes z, notes centres
rduites (moyenne de 0 et cart type de 1). La deuxime ligne concerne
les notes de Q.I. de moyenne 100 et dcart type 15. Enfin, figurent en
quatrime ligne les rangs percentiles.
Les proportions indiques permettent de mieux situer les performances
des sujets. Par exemple, sur une chelle de QI, entre 85 et 100, soit un
cart type en dessous de la moyenne, se situent 34,13 % des sujets. Comme
la courbe normale est symtrique, on peut donc calculer trs rapidement
la proportion de sujets situs dans lintervalle [moyenne un cart type ;
79
moyenne + un cart type], donc ici entre 851 et 1152 : environ 68,3 % des
sujets ont ainsi un Q.I. compris entre 85 et 115.
De mme, toujours pour les scores de Q.I., la figure F1 nous indique
galement que :
15,73 % des sujets a un Q.I. suprieur 115 (moyenne plus un cart
type), et la mme proportion a un Q.I. infrieur 85 (moyenne moins
un cart type) ;
2,14 % des sujets se situent au-del de 130 (moyenne plus deux carts
type), et la mme proportion a un Q.I. infrieur 70 (moyenne plus
deux carts type).
partir de cette rpartition des Q.I. dans la population, il est possible, l
encore, dtablir des catgorisations. Mais cette catgorisation peut varier,
dune part selon lpoque, dautre part selon lauteur de cette catgorisation.
Par exemple, dans la catgorisation propose en 1928 par Levine et
Marks (cit par Bernaud, 2000a) les catgories allaient de idiot (pour
un Q.I. situ entre 0 et 24) prcoce (score suprieur 175) et dans
la catgorisation de Terman (cit par Wechsler, 1956, p. 47) de dbilit
mentale caractrise (pour un Q.I. au-dessous de 70) gnie ou sujet
proche du gnie (Q.I. suprieur 140). On peut galement observer des
diffrences dans la dnomination des catgories entre deux versions dune
mme preuve, comme par exemple entre les versions WAIS-R et WAIS-III :
on peut remarquer que, si les bornes nont pas chang, la dnomination des
classes elle a t modifie (voir tableau 2.8).
Plusieurs remarques :
Un Q.I gal ou suprieur 130, qui correspond au score denviron 2 %
des sujets, est qualifi de trs suprieur et correspond gnralement

lun des critres pour diagnostiquer une prcocit intellectuelle (sur
cette problmatique de prcocit intellectuelle voir le numro spcial de
la revue Psychologie Franaise de 2004 coordonn par Lautrey) ;
Lune des modifications entre les deux catgorisations concerne les deux
catgories de part et dautre de la moyenne : Normal Fort devient Moyen
Suprieur et, symtriquement, Normal Faible devient Moyen Infrieur ;
La seconde modification, sans doute la plus visible, concerne la catgorie
la plus basse : Dficient mental devenant Trs faible. Lexplication
1. 100 15 = 85
2. 100 + 15 = 115
80
Tableau 2.8
Classification des Q.I. aux chelles de Wechsler pour adultes
(daprs Wechsler, 1989, p. 24 et Wechsler, 2000, p. 280).
Q.I
Pourcentage
thorique de sujets
Classification
WAIS-R
(1989)
Classification
WAIS-III
(1997)
130 et plus
2,2%
Trs suprieur
Trs suprieur
120129
6,7%
Suprieur
Suprieur
110119
16,1%
Normal fort
Moyen suprieur
90109
50%
Moyen
Moyen
8089
16,1%
Normal faible
Moyen infrieur
7079
6,7%
Limite
Limite
69 et moins
2,2%
Dficient mental
Trs faible
est donne dans le manuel de la WAIS-III : les auteurs justifient ce

changement afin quun Q.I. trs faible ne soit pas considr comme
refltant obligatoirement une dficience mentale (manuel WAIS-III,
p. 280).
Dautres classifications existent comme par exemple celle de lO.M.S
(Organisation Mondiale de la Sant) qui distingue retard mental lger (Q.I.
compris entre 50 et 70) et retard mental moyen (Q.I. compris entre 35 et
49) (voir sur ce point Lathoud, 1997).
Enfin, et pour terminer avec les talonnages de type Q.I., il faut rappeler
que le Q.I. est un indicateur du positionnement du sujet dans sa classe dge.
Il ne sagit donc pas dune mesure absolue des capacits cognitives du sujet
dans le sens o, par exemple, un enfant de 12 ans qui prsente un Q.I. de
115 a, en ralit, des performances infrieures celles dun enfant plus g
qui prsente pour tant ce mme score de 115. Par contre, ce que veut dire ce
score de 115 cest que ces deux enfants se situent de la mme manire dans
leur population respective, et plus prcisment, un cart type au-dessus de
la moyenne. Cette remarque vaut galement pour les adultes : un indicateur
de type Q.I. est un positionnement dans une classe dge, mme pour des
adultes.
Signalons quil existe encore dautres talonnages, mais beaucoup moins
utiliss en France, comme par exemple des talonnages utilisant les scores T
(avec une distribution de moyenne gale 50, et un cart type de 10) et les
stanines (moyenne de 5 et cart type de 2).
81
Conclusion sur la notion dtalonnage
Nous voudrions ici conclure sur trois aspects importants : la fiabilit des
talonnages, le type dtalonnage choisi et la prise en compte de lerreur de
mesure.
Il convient, avant toute passation de sassurer de la qualit des talonnages
accompagnant le test que lon veut utiliser. Le psychologue sera attentif
aux caractristiques des populations dtalonnage afin, dune part, de juger
de la fiabilit des normes, et, dautre part, de vrifier quau moins un des
talonnages proposs correspond aux caractristiques du sujet devant passer
le test (condition minimum de la comparabilit des rsultats).
Concernant le premier point, lanalyse de la fiabilit des normes, il faut
particulirement tudier :
1. Le nombre de sujets composant ltalonnage.

Le nombre minimum de sujets dpend du type dchantillonnage choisi
(Laveault et Grgoire, 1997) mais on peut retenir quun talonnage
comportant moins dune centaine de sujets ne prsente pas une fiabilit
satisfaisante.
2. La slection de ces sujets.
Lchantillon dtalonnage doit tre reprsentatif de la population quil
est cens reprsenter. Selon les cas, cette population est plus ou moins
vaste. Par exemple, dans le cas des chelles de Q.I., la population
de rfrence est constitue par les sujets de mme ge. Lchantillon
dtalonnage doit donc comporter, pour chaque niveau dge, les mmes
caractristiques que la population parente (rpartition des sexes, des CSP,
des niveaux scolaires...). Sil sagit dun talonnage spcifique, comme
par exemple un talonnage par niveau dtude ou par profession, la
population parente est alors plus rduite mais lchantillon dtalonnage
doit toujours en tre un bon reprsentant.
3. la date de ltalonnage.
Un talonnage trop ancien ne prsentera pas une rfrence fiable. On
peut retenir comme seuil une dizaine dannes : un test qui prsenterait
des talonnages datant de plus de 15 ans sera utiliser avec prudence. En
effet, une augmentation progressive des scores aux tests dintelligence a
t observe au cours du XXe sicle. Cet effet, connu sous le terme deffet
Flynn a t prsent dans le chapitre 1). Utiliser un talonnage trop
ancien peut avoir alors comme consquence de surestimer les capacits
du sujet par rapport sa population de rfrence.
82
Il faut indiquer ici que les talonnages figurent dans le manuel du test
mais quil existe souvent des talonnages complmentaires, sous formes
dannexes, qui ont t raliss aprs le manuel et que les diteurs de tests
peuvent fournir. Nous encourageons donc le praticien sinformer auprs
des diteurs des talonnages les plus rcents disponibles pour le test quil
souhaite utiliser.
Il est aussi trs important de reprer le type dtalonnage que lon va
utiliser de manire situer sans erreur la position du sujet dans la population
de rfrence. Par exemple, un score talonn de 3 dans un talonnage de type
dcilage, ne correspond pas un score talonn de 3 dans un talonnage
normalis en 5 classes. Dans le premier cas, seulement 20 % des sujets
obtiennent un score infrieur, la performance se situe donc largement en
dessous de la moyenne, tandis que, dans le second cas, ce score correspond
un score moyen (voir tableau 2.3).
Il est regrettable dailleurs que, parfois, le type dtalonnage ne soit pas
clairement indiqu dans le manuel. En labsence dinformation explicite
sur ce point, il faut se rappeler que les talonnages par quantilages sont le
plus souvent des dcilages (10 classes), et que les talonnages normaliss
comportent toujours un nombre impair de classes (5, 7, 9 ou 11 classes). En
cas de doute, le praticien doit demander une clarification auprs de lditeur
du test afin dviter toute erreur dinterprtation ce niveau.
Enfin, il faut galement prendre en compte la notion derreur de mesure
et la distinction entre score vrai et score observ. Lidal est de calculer un
intervalle de confiance pour situer plus prcisment le score vrai du sujet
partir du score observ, mais, dfaut, il faut au moins se rappeler que
si le score brut du sujet est situ proximit dune des bornes de la classe
talonne, le score vrai du sujet pourrait se situer de lautre ct de cette
borne. Il convient alors de nuancer linterprtation du score observ.
Cette capacit danalyse critique des talonnages fournis, et plus globalement danalyse de toute information figurant dans le manuel, cette
capacit dinterprtation dun score observ, de recul par rapport une
mesure, reprsente lun des fondements dune pratique professionnelle de
psychologue. Nous allons dvelopper ce point dans la partie suivante.
8.
83
Comment valuer un test ?

Un test doit toujours tre accompagn dune documentation technique,
prenant le plus souvent la forme dun manuel dans lequel figurent les
informations ncessaires la passation du test (consignes, modalits de
cotation, talonnages...). Mais ce manuel doit galement comporter toutes
les informations relatives aux diffrentes phases dlaboration du test et
de sa validation (cration des items, slection des items, analyse des biais,
tudes de fidlit, de validit...). Cest en prenant connaissance de toutes ces
informations quun psychologue pourra juger, dune part, de la pertinence
dutiliser ce test par rapport la situation dans laquelle il se trouve, dautre
part, de la fiabilit du test. En effet le psychologue ne doit utiliser que des
outils dont la fiabilit a t value :
Les techniques utilises par le psychologue pour lvaluation, des

fins directes de diagnostic, dorientation et de slection, doivent avoir
t scientifiquement valides. (Code de dontologie des psychologues
article 18).
Mais le psychologue ne doit pas sen tenir un niveau trop superficiel

dinformation sur le test, il doit faire preuve de professionnalisme en
recherchant dans la documentation technique qui accompagne le test (le ou
les manuels, les annexes...) les lments qui doivent tmoigner de la fiabilit
de ce test.
Ce sont ces lments de validation, dvaluation de la qualit de la mesure
qui distingue lvaluation psychologique dautres pratiques vise valuative
(comme, par exemple, la graphologie...).
Cest dailleurs cette dmarche de recherche des lments de validation
qui est prconise dans les recommandations internationales sur lutilisation
des tests, en particulier dans la section 2 :
Assurer une pratique correcte dans lutilisation des tests (pages 19
24). Quelques citations : Se garder de lutilisation de tests qui ont une
documentation technique inadapte ou peu claire ; se garder de porter
un jugement sur un test seulement sur la base de sa validit apparente,
des tmoignages des utilisateurs, ou du conseil de personnes qui y ont des
intrts commerciaux ; apprcier la prcision de la mesure , la fidlit ,
la validit , labsence de biais ... ; sassurer que les tests ne sont pas
biaiss et sont adapts pour les diffrents groupes qui vont tre tests. ...
84
Nous retrouvons, sous une autre forme, certaines de ces recommandations

dans les questions formules par Rolland (2001) concernant lanalyse de la
fiabilit dun test :
1. Quelle est la prcision de ce test ? Quelle est sa marge derreur ?
2. Le test mesure-t-il rellement ce quil est cens mesurer ?
3. Les informations recueillies par ce test sont-elles pertinentes (utiles) pour
lobjectif suivi ?
4. Les scores fournis par ce test permettent-ils de bien diffrencier les sujets ?
Nous reprendrons ces questions qui nous permettent de synthtiser les
principaux points que nous venons daborder dans ce chapitre.
1. Quelle est la prcision de ce test ? Quelle est sa marge derreur ?
Ces questions renvoient la notion de fidlit. Il convient danalyser
deux critres : la stabilit et lhomognit de la mesure. Un test fiable
doit prsenter des indices de stabilit et dhomognit dau minimum
de .70.
2. Le test mesure-t-il rellement ce quil est cens mesurer ?
Cette question fait rfrence la notion de validit que lon peut en
particulier apprcier sous langle de la validit de structure et de la validit
convergente.
La validit de structure : la corrlation dun item sur une dimension
(on parle de saturation de litem sur la dimension) doit tre de .30 au
minimum et la liaison avec la dimension attendue doit tre plus leve
que la liaison avec une autre dimension. Les dimensions ne doivent
pas tre trop lies les unes aux autres car des dimensions fortement
corrles sont redondantes.
La validit convergente (analyse des liaisons entre 2 preuves censes
valuer la mme dimension) : une corrlation autour de .70 est
considre comme satisfaisante, avec une valeur minimale de .40.
3. Les informations recueillies par ce test sont-elles pertinentes (utiles) pour
lobjectif suivi ?
Cette question se rfre la validit prdictive, ou validit critrielle,
de lpreuve. La question ici est de savoir ce que permet de prdire
le test : russite scolaire pour les enfants et les adolescents, russite en
formation pour les adultes, russite professionnelle, par exemple. titre
de rfrence utile pour linterprtation des coefficients de validit, nous
retiendrons que les tests daptitude cognitive corrlent en moyenne .50
85
avec des critres de russite scolaire et de performances professionnelles.

Cet aspect sera abord plus en dtail dans le chapitre 8.
4. Les scores fournis par ce test permettent-ils de bien diffrencier les sujets ?
Cette dernire question, fait rfrence la sensibilit du test et
son adquation la personne value. Rolland (2001) rappelle que
la distribution des scores doit suivre une courbe de Gauss et quil faut
analyser ici la qualit des talonnages fournis.
Si ltalonnage est un talonnage gnral il doit tre reprsentatif des
caractristiques de la population. Il faut donc sassurer des modalits
de slection des chantillons dtalonnage : sexe, ge, niveau dtude,
profession... (dmarche identique celle utilise dans les sondages
pour crer un chantillon reprsentatif dune population). Dans ce cas
lchantillon dtalonnage doit comporter au minimum 500 sujets.
Si ltalonnage est spcifique, il correspond alors une catgorie de la
population (talonnage par ge, par profession, par niveau dtude...) il
doit comporter au minimum 200 sujets.
Enfin, Rolland nous indique que des tests dont les normes (les
talonnages) datent de plus de 10 ans ne devraient pas tre utiliss
en raison de leffet Flynn.
Rolland prcise que les valeurs seuils indiques pour les diffrentes
corrlations doivent tre prises avec souplesse car il convient de prendre
galement en compte, dans lanalyse de la fiabilit dun test, lensemble des
lments fournis par le manuel. Ainsi, vaut-il souvent mieux utiliser un test
qui prsente des valeurs un peu plus faibles quattendues sur ces indices,
quutiliser un test pour lequel nous naurions pas de donnes statistiques
concernant sa validation...
Les indicateurs qui viennent dtre voqus comme pertinents pour valuer
un test font directement rfrence aux notions de base de la psychomtrie
prsentes dans ce chapitre. Il est donc indispensable que le praticien les
matrise afin de pouvoir analyser de faon critique les outils quil utilise.
Cette analyse est mener partir des informations prsentes dans les manuels
des tests.
Une lecture attentive des manuels doit galement permettre damliorer
linterprtation des indicateurs de la performance dun sujet recueillis par
le test. Nous en donnerons deux exemples, lun relatif aux sous scores du
test NNAT et lautre aux conditions de passation des matrices de Raven
(cf. encadr). Ces deux exemples illustrent bien tout lintrt dune lecture
approfondie des diffrents documents accompagnant le test car la qualit de
86
linterprtation des scores du sujet va dpendre en grande partie de la prise

en compte de ces informations.
On peut remarquer ici que la nature et la qualit de ces informations
diffrent selon les tests : certains proposent des manuels riches dinformation,
avec parfois plusieurs manuels pour une mme preuve (en distinguant par
exemple, un manuel dutilisation et un manuel dinterprtation), tandis que
dautres tests ne proposent quun manuel sommaire. Le choix du test par le
praticien doit prendre en compte cet lment.
Exemples
Dans le test NNAT (qui sera prsent dans le chapitre 4) il est possible
de calculer, en plus du score total, quatre sous-scores qui correspondent
quatre types de raisonnement. Mais attention ici lanalyse de ces
sous-scores car ils ne prsentent pas la mme fiabilit que le score total :
Les sous-scores devront tre interprts que de faon qualitative partir des notes brutes. (Manuel
du NNAT, p. 12)
Deux raisons sont avances dans le manuel : le nombre ditems de chaque

sous-score et la validation de ces sous-scores. En effet, dune part, le
nombre ditems est variable selon les sous-scores et reste un peu trop
faible pour garantir un bon niveau de fiabilit de la mesure, dautre part,
les analyses statistiques rendent discutable la distinction mme de ces
quatre types de raisonnement (manuel NNAT, p. 49). Pour ces deux
raisons les auteurs indiquent quil na pas t possible de raliser un
talonnage spcifique de chaque sous score ce qui, selon nous, retire alors
beaucoup dintrt au calcul de ces sous-scores.
On peut voir clairement ici quune dmarche automatique de calcul, et
dinterprtation, de ces sous-scores aboutirait alors des interprtations
qui ne reposeraient pas sur des lments suffisamment fiables. Par contre,
une lecture attentive des informations du manuel du NNAT devrait
aboutir relativiser ces indicateurs de sous-scores et les interprter avec
prudence.
Pour le test SPM (PM38) de Raven (galement prsent dans le
chapitre 4), il est indiqu dans le manuel quil est plus fiable de faire passer
lpreuve en temps libre en raison de leffet possible du style de rponse
du sujet. En effet, certains sujets peuvent sauter les items difficiles
et rpondre dabord aux items les plus faciles, quitte effectuer ensuite
un retour en arrire sils ont du temps, tandis que dautres sujets vont
87
prendre du temps afin de rechercher la rponse ces items difficiles, mais

du coup, nauront peut-tre pas le temps daborder des items plus faciles,
situs vers la dernire partie de lpreuve (Manuel Matrice de Raven,
Section 1, p. 66). Nous reviendrons plus loin, lors de la prsentation de ce
test, sur ces styles de rponse. Si le praticien utilise ce test en temps limit
il est donc souhaitable quil analyse le patron de rponse du sujet afin de
sassurer de labsence dune stratgie de ce type. Le praticien connat-il
toujours lexistence de ce biais possible ? Sil na pas pris connaissance de
ces lments qui figurent dans le manuel gnral des Matrices de Raven,
il est fort probable quil ignore cette possibilit de biais.
9.
Les volutions des modles psychomtriques

Comme nous lavons indiqu au tout dbut de ce chapitre, la quasi-totalit
des tests utiliss actuellement en France reposent sur la thorie classique
des tests, fonde sur la notion de score vrai et derreur de mesure. Dautres
modles de mesure existent que nous ne pouvons pas prsenter ici car ils
dpassent largement lobjectif de cet ouvrage. Les lecteurs intresss par
une prsentation de ces diffrents modles de mesure pourront consulter
les ouvrages spcialiss comme celui de Dickes et al. (1994), ou celui de
Laveault et Grgoire (2002).
Nanmoins, il nous a sembl intressant daborder ici lun de ces modles :
le modle de Rponse lItem (M.R.I). En effet, lutilisation de ce modle,
ou plutt de ces modles MRI (nous verrons quil existe plusieurs modles
MRI), ou modles I.R.T1 , est croissante, au moins au niveau international
et dans le domaine de lvaluation des connaissances scolaires, et il est fort
probable que dici quelques annes des tests reposant sur ces modles MRI
soient disponibles en France. Il est donc important de connatre les principes
de base de ces modles de mesure. Avec les modles M.R.I il sagit dun autre
modle de la mesure, un modle probabiliste dans lequel certaines notions
classiques de psychomtrie, comme par exemple les notions de difficult de
litem, dtalonnage, ou encore de score du sujet, vont tre profondment
modifies.
1. En anglais on utilise le terme IRT pour Item Response Theorie. Mais le terme de modle semble
plus appropri (Vrignaud, 1996).
88
Notre objectif ici est de donner une information minimale sur ces
modles MRI, accessible tout psychologue. Pour cette raison nous
viterons lutilisation dquations et de formules mathmatiques, qui servent
lestimation des paramtres des modles (voir plus loin) que le lecteur
pourra trouver dans les ouvrages spcialiss de psychomtrie (dj cits)
ou dans des publications traitant spcifiquement de ces modles (voir par
exemple le numro spcial de la revue Psychologie et Psychomtrie coordonn
par Juhel en 1999 ; larticle de Vrignaud de 1996 ; ou encore lannexe
consacre aux MRI dans louvrage de Reuchlin de 1997).
Prsentation gnrale de lapproche des modles MRI
Dans lapproche classique de la mesure les principaux indices psychomtriques qui vont caractriser lpreuve (indices de difficult des items,
talonnages...) vont dpendre de lchantillon de sujets utilis. Par exemple,
dans un test de facteur g comme le SPM de Raven qui peut tre utilis sur
des populations de niveaux trs diffrents (collgiens, lycens, adultes...), un
mme item sera considr comme difficile pour des collgiens, mais comme
facile (ou plus facile) pour des tudiants. Autrement dit, on ne connat pas
le niveau absolu de difficult dun item car il sagit toujours un niveau relatif
de difficult qui va dpendre directement du niveau des sujets ayant pass
le test.
Paralllement, pour un sujet confront aux items dun test, le niveau de
sa performance (le score observ) ne peut sinterprter que par comparaison
avec le niveau de russite dautres sujets prsentant les mmes caractristiques
(par exemple sujets de mme ge) : cest le principe de ltalonnage. Il sagit
l aussi de mesure relative.
En dautres termes, les caractristiques des items (en particulier leur
niveau de difficult) sont dpendantes des caractristiques des sujets mais les
caractristiques des sujets (en particulier leur niveau de russite, cest--dire
leurs scores) sont dpendantes des caractristiques des items.
Dans la thorie classique des tests, il y a donc interdpendance entre
caractristiques des items et caractristiques des sujets.
Cest lune des diffrences principales avec les modles MRI dont lobjectif
principal est de permettre une valuation indpendante de ces deux sries
dlments : caractristiques des sujets et caractristiques des items. Avec ces
modles il devient donc possible, aprs une phase de calibrage des items (voir
89
plus loin), dvaluer le niveau de performance du sujet, quels que soient les
niveaux de difficult des items (donc le test) quil aura pass.
Les modles MRI sont des modles probabilistes : des modles dans
lesquels on cherche estimer des probabilits de russite. La principale
proprit des MRI est de placer les difficults des items et les comptences
des sujets sur une mme dimension : le trait latent (theta). Ce trait latent
reprsente la variable value qui peut tre, selon les cas, une aptitude
cognitive, une comptence scolaire, voire un trait de personnalit...
Lun des postulats de base est le suivant : les diffrences de russite entre
les sujets sexpliquent par ce trait latent et uniquement par celui-ci.
Dans les tests dintelligence, le trait latent reprsente donc lintelligence
telle quelle est value par le test. Dans ce cadre on utilise prfrentiellement
le terme comptence pour dsigner ce trait latent. . Chaque sujet peut donc
tre caractris sur ce trait, par son niveau de comptence, et paralllement,
chaque item peut tre situ sur cette mme chelle par son niveau de
difficult.
Ainsi, plus le sujet se trouve un niveau lev sur ce trait, plus son score
est lev, et plus sa probabilit de russir un item particulier augmente
(modle probabiliste du niveau de comptence du sujet). Paralllement,
plus litem se situe un niveau lev sur ce mme trait , plus son niveau
de difficult augmente et donc, plus sa probabilit dtre russi diminue
(modle probabiliste du niveau de difficult de litem).
Chaque sujet a, selon son niveau de comptence estim, une certaine
probabilit de russir un item donn dont la difficult a t estime sur cette
mme chelle de comptence . Les modles de rponse litem (MRI)
visent prdire la probabilit quun individu I fournisse une bonne rponse
un item i.
Pour bien comprendre la logique de ces modles MRI, il faut prendre
en compte quil sagit dune modlisation des probabilits de russite,
modlisation effectue partir des observations sur la frquence des bonnes
rponses (russite) observes par un groupe de sujets une srie ditems
constituant un test.
Exemple
Soit un test X pass par un ensemble de sujets. Ce test comporte 60 items,
le score total de chaque sujet se situe donc entre 0 et 60. Nous pouvons
reprsenter sur une figure les frquences de russite un item A du test en
fonction du score total au test X.
On obtient gnralement la tendance suivante : plus les sujets ont un score
total lev au test X, plus la frquence de russite cet item A est leve.
90
Inversement, plus les sujets ont un score total faible au test, plus la frquence
de russite un item donn diminue.
La figure 2.3 permet de visualiser cette relation : le score total est port en
abscisse, la frquence de russite litem A tant en ordonne.
frquence russites
1
0,8
0,6
item A
0,4
0,2
0
0
10
20
30
40
50
60
score au test X
Figure 2.3
Frquences de russites observes litem A en fonction du score total obtenu un test X
(daprs Vrignaud, 1996, p. 8).
Sur la figure 2.3 chaque carr reprsente la frquence de russite observe

pour un score total donn. Par exemple, les sujets ayant un score total
infrieur 25 points (donc les sujets de bas niveau ici) ont une frquence
de russite litem A assez faible, infrieure .20 (soit 20 % de russite
pour ces sujets cet item A). Par contre, les sujets de bon niveau, ayant
un score total au test X suprieur 40 points, russissent beaucoup plus
frquemment cet item A avec une frquence de russite ici de lordre de .90
(soit environ 90 % de russite pour ces sujets).
Cet exemple illustre bien le fait que la frquence de russite observe
un item est faible pour les sujets de bas niveau, puis cette frquence
augmente rapidement pour les sujets de niveau moyen (ici autour du score
de 30 points) et atteint un plateau, proche de la frquence de 1, pour les
sujets de niveau lev.
Le principe fondamental des modles MRI est de proposer un modle
mathmatique permettant de modliser cette forme de relation. Le modle
91
mathmatique retenu, le plus reprsentatif de la relation illustre par les

carrs dans la figure 2.3, est la fonction logistique. La courbe en pointill de
la figure 2.3 reprsente une telle modlisation. Cette courbe est appele la
courbe caractristique de litem (CCI). Une telle courbe est prsente dans
la figure 2.4.
probabilit de russite P
1
0,8
0,6
0,5
0,4
0,2
0
-3
-2
-1
score q
Figure 2.4
Exemple de courbe caractristique dun item (CCI).
La figure 2.4 reprsente bien une modlisation mathmatique de la

relation reprsente dans la figure 2.3. On remarquera que maintenant en
ordonn figurent les probabilits de russite P estimes (et non plus les
frquences de russite observes) et en abscisse le score correspondant au
niveau de comptence des sujets (et non plus le score total au test).
La probabilit de russite P varie donc, comme toute probabilit, de 0
1, le niveau de comptence des sujets variant lui denviron1 3 +3, avec
une moyenne de 0.
Les courbes CCI de tous les items du test dfinissent les caractristiques de
ces items. Elles sont estimes par des logiciels spcialiss partir de donnes
relles de passation : cest la phase dite de calibrage des items. Chaque
item sera alors caractris par diffrents paramtres (voir plus loin) dont le
principal est son niveau de difficult exprim sur lchelle theta .
1. En ralit, comme il sagit dun modle probabiliste, le score peut thoriquement varier de
moins linfini plus linfini, mais on estime que 99,8 % des sujets se situent entre -3 et +3 (Laveault
et Grgoire, 1997, p. 292).
92
Lorsquun regroupement ditems calibrs est ralis pour laborer un test,

les sujets peuvent alors tre galement caractriss par un score reprsentant
leur niveau de comptence.
Par convention, on considre quun score de 0 correspond au score
moyen, un score positif correspond alors un score au-dessus de la moyenne,
un score ngatif un score en dessous de la moyenne.
Comme nous venons de lindiquer, le niveau de difficult ne reprsente
quune des caractristiques possibles pour dfinir un item. Nous allons
maintenant prsenter succinctement les trois principaux modles MRI qui
diffrent sur le nombre de caractristiques (ou paramtres) pris en compte.
Les trois modles MRI
Le modle un paramtre (indicateur b)

Dans ce modle, dit modle de Rasch1 , propos par cet auteur ds les annes
1950, on considre que les items ne peuvent se diffrencier que sur leur
niveau de difficult appel paramtre b. Par convention on dfinit cette
valeur de difficult dun item par la valeur de pour laquelle la probabilit
de donner une rponse correcte est de P = 0,5. Ainsi dans la figure 2.4
litem reprsent a une difficult gale 0 (b = 0) car cest la valeur de qui
correspond une probabilit de russite de 0,5.
Les CCI des diffrents items sont donc toutes parallles et ne se
diffrencient que sur la valeur de ce paramtre b. Ainsi, plus la valeur
de b augmente, plus la CCI se situe sur la droite, et plus litem a un niveau
de difficult lev. Cest ce qui est illustr dans la figure 2.5.
Sur la figure 2.5, les CCI des deux items sont bien parallles mais elles sont
dcales. Pour litem A, qui correspond litem reprsent sur la figure 2.4,
son niveau de difficult (paramtre b) est toujours de 0 ; pour litem B, situ
plus droite, son niveau de difficult est plus lev avec un paramtre b ici
denviron 0,4.
Le modle deux paramtres (indicateurs b et a)

Ce modle de Rasch a t complexifi en 1968 par Birnbaum (cit par
Dickes et al., 1994) qui prend en compte les variations possibles du pouvoir
1. Mathmaticien Danois.
93
0,5
item A
A
B
item B
-3
-2
-1
0,4
score q
Figure 2.5
CCI de deux items de niveau de difficult diffrents dans le cas du modle MRI un
paramtre (daprs Vrignaud, 1996, p. 8, figure modifie par nos soins).
discriminant des items. Do un deuxime paramtre : le paramtre a.

Il sagit donc ici dun modle deux paramtres dans lequel les items
peuvent se diffrencier sur leur niveau de difficult (paramtre b) mais
galement sur leur pouvoir discriminant (paramtre a). Cette variation dans
la discrimination est reprsente dans la CCI par la diffrence de pente : plus
la pente est abrupte, plus litem est discriminant. La figure 2.6 illustre ce
modle.
Sur la figure 2.6, les CCI ne sont plus parallles car les items peuvent se
diffrencier sur leur pente. Litem A, qui a la pente la plus abrupte, est plus
discriminant que les deux autres items en raison dune augmentation plus
rapide des probabilits de russite. Litem D, avec la pente la plus faible, est
le moins discriminant des trois.
La valeur du paramtre a se situe habituellement entre 0 (faible discrimination) et 2 (forte discrimination). On considre quune valeur de 0.7
correspond un bon niveau de discrimination (Vrignaud, 1996).
94
probabilits de russite
1
0,8
item A
0,6
item C
0,4
item D
0,2
0
-3
-1,5
1,5
theta q
Figure 2.6
CCI de trois items dans le modle MRI deux paramtres
(daprs Vrignaud, 1996, figure 3, p. 9).
Le modle trois paramtres (indicateurs b, a et c) :

Enfin, dans certains tests, et particulirement dans les tests de type QCM, il
existe une certaine probabilit de trouver la bonne rponse en slectionnant
au hasard une rponse parmi celles proposes.
Par exemple, si dans un item donn on propose cinq possibilits de
rponse, cette probabilit peut tre estime une chance sur cinq. Le modle
a trois paramtres va donc intgrer cette nouvelle source de variation possible
entre les items : le paramtre c ou paramtre de pseudo-chance (Laveault
et Grgoire, 1997, p. 294).
Cest au concepteur de lpreuve de choisir parmi ces trois modles
MRI celui qui correspond le mieux ses objectifs et/ou aux donnes de
lexprimentation. Les logiciels de traitement statistique fournissent pour
cela des indicateurs de conformit des donnes par rapport ces trois
modles thoriques MRI. Il faudra tre attentif ces indicateurs.
Intrts et limites des modles MRI
Les principales limites des modles MRI concernent leurs trois principales
contraintes dutilisation :
95
nombre de sujets minimum,

unidimensionnalit de la mesure,
indpendance locale des items.
Nombre de sujets
Pour pouvoir effectuer le calibrage des items par les modles MRI, il est
ncessaire de disposer dun nombre important de sujets (de 600 1000
selon les auteurs). Ces sujets devant tre de niveau de comptence variable
afin dtre reprsentatif de lensemble de la population et reprsenter alors
un ensemble assez exhaustif des diffrents niveaux de comptence. De plus,
il convient de vrifier ensuite, sur un autre chantillon de sujets, que lon
obtient bien les mmes indicateurs des caractristiques des items (a, b et c
selon le modle choisi).
Cette exigence reprsente probablement lun des freins les plus importants
lutilisation de ces modles.
Unidimensionnalit de la mesure et indpendance locale des items

Les modles MRI ncessitent certaines conditions mathmatiques pour tre
utiliss, en particulier une condition dunidimensionnalit et une condition
dindpendance locale.
Lunidimensionnalit1 est obtenue si tous les items mesurent bien un
seul et mme trait : le trait latent (la comptence). Autrement dit, les
diffrences individuelles entre les sujets ne doivent tre expliques que
par leur diffrence de comptence. Lune des possibilits de vrifier cette
condition est de procder une analyse factorielle des donnes qui doit
aboutir un seul facteur commun (Laveault et Grgoire, 1997).
Lindpendance locale est obtenue si la rponse un item est indpendante
de la rponse aux autres items. Cette condition implique que tous les items
doivent tre indpendants les uns des autres.
Par exemple, si pour donner la rponse un item le sujet doit prendre en
compte un rsultat obtenu un item prcdant, cette condition nest pas
respecte. On parle alors de violation des conditions dindpendance locale
en raison des principes de construction de ces items.
1. Des modles MRI multidimensionnels ont galement t dvelopps (Vrignaud, 1996).
96
Malgr ces limites contraignantes, les modles MRI prsentent plusieurs

intrts. Nous prsenterons en particulier les avantages de ces modles pour
lanalyse des items, pour la possibilit quils offrent de cration de banques
ditems, de tests sur mesure et enfin de tests adaptatifs.
Analyse des items

Pour lanalyse psychomtrique des items, les modles MRI permettent
diffrents types danalyse : lanalyse de linformation apporte par un item,
lanalyse de linformation apporte par un test et lanalyse des biais.
On considre que linformation apporte par un item est maximale lorsque
son niveau de difficult (paramtre b) correspond au niveau de comptence
du sujet valu : ainsi un item de difficult moyenne (b = 0) apportera un
maximum dinformation pour des sujets de niveau moyen , car un cart
modr de comptence entre ces sujets permettra de distinguer ceux qui
ont une bonne probabilit de le russir (en donnant la bonne rponse) de
ceux qui ont une faible probabilit de le russir. Tandis que pour ce mme
item moyen , linformation apporte sera limite pour les autres sujets :
les sujets de faible niveau de comptence ayant une forte probabilit de
lchouer, et les sujets plus comptents une forte probabilit de le russir.
Par ailleurs, cette quantit dinformation dpend aussi du pouvoir
discriminant de litem, donc de la valeur de sa pente (paramtre a). Ainsi,
un item peu discriminant (pente faible) avec une volution lente de sa
probabilit de russite, nous apportera peu dinformation. Par contre un item
fort pouvoir discriminant sera plus informatif. La quantit dinformation
apporte par chaque item peut tre value ainsi que le niveau pour lequel
cette information est maximale (Vrignaud, 1996). Il devient alors possible
de slectionner les items les plus informatifs pour un niveau de comptence
donn. partir des estimations de linformation apporte par chaque item
il est possible dvaluer la quantit dinformation du test, ainsi que le niveau
de comptence o cette information est maximale.
partir de ces analyses, il est possible de comparer diffrentes combinaisons ditems de faon obtenir une preuve correspondant des objectifs
prcis (cration dpreuves sur mesure). Ainsi, par exemple, si lobjectif
de lvaluation est de slectionner les sujets les plus performants il faudra
conserver les items qui apportent un maximum dinformation un niveau
lev de comptence. Par contre, si lobjectif est dobtenir une valuation
fine de tous les sujets, le test devra apporter de linformation sur toute
lchelle de comptence.
97
Enfin, concernant lanalyse des biais, les modles MRI reprsentent

lune des possibilits pour reprer les items prsentant un fonctionnement
diffrentiel (F.D.I). Le principe gnral est le suivant : aprs avoir effectu
lopration de calibrage des items, on vrifie que pour deux groupes de sujets
de niveau de comptence quivalent un mme item ne doit pas se diffrencier
sur ses paramtres (et en particulier sur son paramtre de difficult). Sinon,
il y a un FDI, quil faut alors essayer de comprendre. On trouvera dans
Flieller (1999) et dans Vrignaud (2002a et 2001) des exemples danalyse
des biais par ces modles MRI.
Banques ditems, tests sur mesure et tests adaptatifs

Un autre intrt majeur de ces modles MRI concerne la possibilit de crer,
et de grer, des banques ditems. Quest-ce quune banque ditems ?
Une banque ditems est une collection ditems organiss, classs et

catalogus, tels des livres dans une librairie, en vue de faciliter la
construction dune grande varit de tests de performance et dautres
types de tests mentaux (Choppin, 1988, cit par Dickes et al., 1994,
p. 76).
partir dune telle rserve ditems, dont on connat les principales

caractristiques (opration de calibrage des items), la construction dun
ensemble assez vaste de tests est donc possible (constitus ditems ventuellement diffrents, mais provenant de la mme banque), adapt chacun
une population particulire et/ou un objectif dtermin. Cette possibilit de
tests sur mesure apporte une grande flexibilit dans llaboration dpreuves
et/ou dans leur utilisation.
Quelques exemples :
Il devient possible de comparer deux sujets (ou deux groupes de sujets),
mme sils nont pas pass les mmes preuves, sur leur score ;
Il est galement possible de crer des versions strictement parallles de
tests dont on est assur de lquivalence du niveau de difficult ;
Il est galement possible de slectionner certaines combinaisons ditems,
combinaisons adaptes des objectifs diffrents : cest la notion de tests
sur mesure.
Lintrt et les limites des banques ditems ont t abords dans louvrage
de Dickes et al. (1994, p. 76- 78).
98
Dune manire plus gnrale, ces modles MRI apportent une flexibilit
aux outils et procdures dvaluation que ne permet pas la thorie classique
des tests.
Il est galement possible denvisager des tests adaptatifs, le plus souvent
informatiss, qui vont permettre de slectionner les items les plus proches
du niveau du sujet. Dans ce cas, le logiciel slectionne toujours litem le
plus adapt en fonction des rponses du sujet : en cas de russite le logiciel
slectionne alors un item plus difficile, en cas dchec, le logiciel slectionne
un item plus facile. Ainsi, par rapport un test classique on maximise ici le
nombre ditems pertinents par rapport au niveau du sujet, et/ou on rduit
le temps de passation. De plus, avec cette approche plus fine du niveau du
sujet on diminue galement lerreur de mesure.
Pour des exemples concrets dapplications des MRI on peut consulter
Devouche (2003) et Martin (2003). Ces deux exemples concernent
des valuations de connaissances mais le parallle avec des valuations
psychologiques est ais raliser.
Un autre intrt de ces modles MRI repose sur le fait que le niveau de
comptence du sujet ne se dfinit plus comme sa position dans une certaine
population (principe de ltalonnage) mais se dtermine par rapport sa
probabilit de russir les items. Do la possibilit danalyser finement le
contenu des items et la nature de la tche demande. La capacit du sujet
peut donc se dfinir en fonction de tches prcises et non plus en rfrence
au niveau de russite des autres sujets. On peut alors dfinir plus aisment
la zone de comptence du sujet, par exemple en dlimitant les items pour
lesquels il a une bonne probabilit de russite (P suprieur .70 par exemple).
Enfin, les modles MRI permettraient de diagnostiquer de manire plus
prcise les sujets haut potentiel (Caroff, 2004).
Conclusion sur les modles MRI
Si, pour certains auteurs ces modles constituent un progrs majeur dans
le champ de la psychomtrie (Dickes et al., 1994, p. 201) dautres auteurs,
comme Reuchlin, sinterrogent sur la pertinence mme de ces modles MRI
en psychologie (Reuchlin, 1997). Lune des critiques de Reuchlin concerne
les bases mme du modle probabiliste. partir de la possibilit dvaluer
le niveau des sujets par des items diffrents, il donne lexemple suivant :
un sujet qui fournit frquemment des bonnes rponses des items dun
seuil donn de difficult sera crdit du mme niveau de comptence
99
quun autre sujet qui fournit moins souvent des bonnes rponses des
items plus difficiles. Si, nous dit Reuchlin, il est incontestable quun sujet
qui rpond correctement, mme rarement, des questions difficiles, est
capable de rpondre correctement des questions plus faciles, linverse
nest pas du tout vident. En effet, ce nest pas parce quun sujet rpond
souvent correctement des questions faciles, quil pourra rpondre, mme
rarement, correctement des questions difficiles. Reuchlin touche ici lun
des fondements des modles MRI :
Lquivalence, fondamentalement postule par le modle, entre la
frquence des rponses et le niveau daptitude quexige chacune delles nest
quune convention formelle hautement contestable lorsquon passe du
modle aux ralits psychologiques auxquelles on lapplique. (Reuchlin,
1997, p. 234).
Selon cet auteur lapplication de ces modles MRI reste limite pour les
psychologues :
Ltude des modles de rponse litem a suscit un vif intrt chez

certains mathmaticiens trouvant des thmes de recherche dans les
problmes poss par la mesure en psychologie. Il est possible que des
psychologues puissent, dans certains cas, utiliser les rsultats de leurs
travaux. (Reuchlin, 1997, p. 235).
Malgr les limites indiques, il est fort possible que dans un avenir trs
proche des tests utilisables en France reposent sur ces modles MRI. Le
psychologue doit alors en connatre les bases, les intrts mais aussi les
limites afin de conserver, malgr la complexification mthodologique, ses
capacits danalyse critique des outils quil utilise. Esprons que ces futurs
tests soient accompagns de documents explicatifs et/ou de formation had
hoc favorisant cette analyse critique.
10. Conclusion
Nous avons prsent dans ce chapitre les principales notions de psychomtrie
utiles tout praticien des tests, pour lui permettre une utilisation valide et
raisonne des outils quil utilise, notamment en ayant ce regard critique qui
lui permettra de mieux en cerner les conditions dutilisation et de mieux en
matriser les modalits de mise en uvre et dinterprtation.
100
Ce chapitre rappelle, en particulier, pourquoi il est ncessaire de respecter

scrupuleusement les consignes de passation, pourquoi il est prfrable (et
plus fiable) dentourer le score observ dun intervalle de confiance, pourquoi
il est utile de connatre les diffrents types dtalonnages pour interprter
correctement le score dun sujet... Il souligne galement la ncessit de lire
attentivement les manuels de tests et les informations quils contiennent.
Ces recommandations viennent en conformit avec ce que prconise
le Code de dontologie des psychologues (voir en annexe). Ce code insiste
par exemple sur la ncessit de porter une apprciation critique sur les
mthodes et techniques utiliss par les psychologues (article 17), et indique
que les techniques utilises par le psychologue (...) doivent avoir t
scientifiquement valides (article 18). Nous dvelopperons plus loin (dans
le chapitre 8) les points essentiels de ce code, ainsi que ceux figurant dans
les recommandations internationales sur lutilisation des tests.
DEUXIME PARTIE
Les principaux tests

dintelligence
CHAPITRE
3
Les chelles dintelligence
Sommaire
Page 105
2. Le WISC-III . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Page 112
3. Le WISC-IV . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Page 144
1. De lchelle mtrique de Binet & Simon

aux chelles de Weschler . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4. La WAIS-III . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Page 173
Les principaux tests dintelligence
1.
105
De lchelle mtrique de Binet & Simon

aux chelles de Weschler
Lune des principales caractristiques des chelles dintelligence est quelles
reposent sur une conception globale de lintelligence et sur une approche
empirique de sa mesure :
Lvaluation porte sur les processus suprieurs (mmoire, raisonnement...)
censs intervenir dans un ensemble varis de situations, ce qui explique

le recours diffrents types ditems pour valuer cette capacit globale ;
La dmarche est qualifie dempirique car la slection de ces diffrents
types ditems repose plus sur des constats relatifs aux capacits de ces
items diffrencier des sujets dges diffrents que sur une approche
thorique explicite de lintelligence.
Les meilleurs reprsentants de cette approche, sont bien sr Alfred Binet

et Thodore Simon, ainsi que Daniel Weschler. Aprs une prsentation
synthtique de lpreuve de Binet-Simon, nous prsenterons plus en dtail
les chelles de Wechsler : versions WISC pour enfants et WAIS pour adultes.
Toutes ces preuves ont deux principaux points communs. Il sagit dune
part, de leur caractre composite : ces preuves regroupent des items trs
diffrents les uns des autres (on utilise dailleurs galement le terme dchelle
composite pour les dcrire), et dautre part de la rfrence historique la notion
dge mental, qui donnera lieu ensuite celle de Quotient Intellectuel (Q.I.).
Lchelle Mtrique dIntelligence de Binet & Simon
Nous avons voqu dans le premier chapitre de ce livre comment, au tout

dbut du XXe sicle, suite une demande sociale, Alfred Binet et Thodore
Simon ont labor lchelle mtrique dintelligence.
Pour ces auteurs, lintelligence repose principalement sur des capacits de
jugement :
Il y a dans lintelligence, nous semble-t-il, un organe fondamental, celui
dont le dfaut ou laltration importe le plus pour la vie pratique, cest
le jugement, autrement dit le bon sens, le sens pratique, linitiative, la
capacit de sadapter. Bien juger, bien comprendre, bien raisonner, ce
106
sont les ressorts essentiels de lintelligence. (Binet et Simon, 1905b,

p. 196-197).
Pour laborer leur preuve, les auteurs ont slectionn les items selon
deux critres principaux, qui illustrent les fondements de leur approche
empirique :
Ces items doivent correspondre un ensemble vari de situations, proches
de situations relles, de faon prendre en compte un ensemble vaste de

conduites. Lensemble de ces items forme alors une preuve composite et
htrogne :
Les tests doivent tre htrognes, cela va de soi, afin dembrasser
rapidement un vaste champ dobservation , crivent Binet et Simon
(1905b, p. 196) ;
Ces items doivent galement permettre didentifier les enfants prsentant
un retard de dveloppement mental (dnomms lpoque enfants

anormaux ) et plus globalement, de diffrencier les enfants selon leur
ge. Cela est rendu possible par une gradation de la difficult des items
au sein dune preuve progressive que lon appelle chelle . La russite
un item donn, ou un ensemble ditems, correspond ce que les
auteurs appellent un niveau mental . Ce niveau mental, ou niveau de
dveloppement, correspond ce qui sera plus tard appel ge mental :
Bien que Binet, comme lont relev Zazzo et al. (1966), nutilise pas
lexpression ge mental mais parle de niveau mental, il peut nanmoins
tre considr comme linventeur de la notion dge mental. (Huteau et
Lautrey, 1999a, p. 23).
Aprs une premire version de lchelle mtrique dintelligence labore

en 1905, une seconde version parat en 1908 puis une troisime version
qui sera la version dfinitive en 1911. Dans cette chelle, des rfrences
en termes dge moyen de russite sont indiques, ce qui permet alors de
calculer lge mental du sujet. Cet indicateur dge mental permet de situer
les performances dun enfant par rapport aux russites moyennes observes
dans les diffrentes catgories dge.
Par exemple, si un enfant g de 9 ans (ge biologique) russit les preuves
qui ne sont, en moyenne, russies que par des enfants de 10 ans, on dira
alors quil a un ge mental de 10 ans. Il sera donc en avance dun an
dans son dveloppement mental. loppos, sil choue la plupart des
preuves caractristiques de son ge et quil ne russit que les items russis,
107
en moyenne, par des enfants de 8 ans, on dira alors quil a un ge mental de

8 ans. Dans ce cas, il prsentera un retard de dveloppement de 1 an.
Cette premire chelle mtrique, qui ne concernait que des enfants
dge scolaire, va connaitre un succs considrable tant en France qu
ltranger, et plus particulirement en Amrique du Nord. Une premire
adaptation sera ralise aux tats-Unis ds 1909 par Goddard (Huteau
et Lautrey, 1999a), puis en 1916 par Terman, dans une version connue
sous lappellation Stanford-Binet , rvise en 1937, 1960, 1972 et 1986
(Bernier et Pietrulewicz, 1997).
Cependant, en France, et malgr le succs de cette premire chelle, il
faudra attendre 1966 et les travaux de Zazzo et de son quipe, pour quune
version rnove apparaisse : la Nouvelle chelle Mtrique dIntelligence ou
NEMI (Zazzo et al., 1966). Depuis cette date, aucune autre rnovation ou
rtalonnage na eu lieu jusquau rcent travail de Cognet et sa proposition
de NEMI-II (Cognet, 2005). Cette situation explique que la NEMI ne soit
actuellement quasiment plus utilise en France, ni sans doute enseigne dans
les Universits. La diffusion de la NEMI-II va peut-tre redonner toute sa
place cette preuve franaise.
linverse de la France, paradoxalement, les adaptations du test de
Binet-Simon ont bnfici aux tats-Unis de rvisions rgulires et de
plusieurs mises jour des talonnages et sont encore largement utilises, Par
exemple, le Stanford-Binet, preuve adapte de lchelle Binet-Simon en
1916 par Terman, psychologue luniversit de Stanford, en est actuellement
sa quatrime version (Stanford-Binet-IV). Cette dernire version de 1986,
permet dvaluer des sujets gs de 2 ans 23 ans laide de 15 subtests1 qui
reprsentent quatre grandes capacits intellectuelles : raisonnement verbal,
raisonnement quantitatif, raisonnement abstrait-visuel et mmoire court
terme.
Dans cette preuve, le sujet est donc caractris par une note pour chacun
de ces quatre domaines cognitifs, ainsi que par une note globale.
Bien que les bases thoriques de cette version Stanford-Binet-IV, et donc
la fiabilit de ces quatre indicateurs, ne semblent pas tre suffisamment
tablies (Kaufman, 2001) il est regrettable, selon nous, que les praticiens
franais naient pu bnficier dune telle version rnove de lpreuve de
Binet-Simon.
Ce manque de disponibilit en France dpreuve issue de lchelle de
Binet et Simon est sans doute lune des raisons du grand succs des preuves
1. En fonction de son ge, le sujet ne passe quune partie des subtests (de 8 12).
108
de Wechsler, qui na pas rellement de concurrents. Larriv de la NEMI-II1

risque de modifier cet tat de fait.
Les chelles de Wechsler
Daniel Wechsler (1896-1981) est avant tout un psychologue clinicien. Il

est connu pour ses chelles dintelligence qui sont parmi les tests les plus
utiliss dans le monde :
WPPSI pour les jeunes enfants ;
WISC pour les enfants dge scolaire ;
WAIS pour les adultes.
Ces diffrentes preuves ont t labores aux tats-Unis et ont ensuite
t adaptes dans de nombreux pays. Nous naborderons ici que les versions
WISC et WAIS.
Lapproche de lintelligence de Wechsler reste trs proche de lapproche
de Binet. En effet pour Wechsler :
Lintelligence est la capacit globale ou complexe de lindividu dagir
dans un but dtermin, de penser dune manire rationnelle et davoir des
rapports utiles avec son milieu. (Wechsler, 1956, p. 3)
Pour valuer cette capacit globale, il faut alors, comme dans lchelle
mtrique de Binet-Simon, prendre un compte un ensemble vari de
situations. Cest pour cette raison que les chelles de Wechsler comportent
des situations dvaluation assez diffrentes les unes des autres et constituent
ainsi, comme nous lavons dj indiqu, des preuves composites. Les chelles
de Wechsler, comme lchelle mtrique, ont t cres afin dvaluer une
intelligence globale, une intelligence gnrale qui peut tre dfinie comme
la rsultante dun ensemble daptitudes :
Lintelligence gnrale est en effet la rsultante de linteraction dun
nombre thorique infini daptitudes diffrentes. (Grgoire, 2000a, p. 13)
On retrouve bien ici la mme volont que celle qui tait affiche par Binet
de crer des preuves htrognes afin de mieux valuer cette capacit globale
1. La NEMI-II est utilisable pour des enfants gs de 4 ans 12 12 ans 12 . Elle comporte quatre
preuves obligatoires (Connaissances, Comparaisons, Matrices analogiques et Vocabulaire) et trois
preuves facultatives (Adaptation sociale, Copie de figures gomtriques et Comptage de cubes).
109
du sujet. Nous retrouvons ici un exemple de lien troit entre conception

thorique de lintelligence et caractristiques du test.
Mais lapproche de Wechsler se distingue de celle de Binet sur les deux
points suivants :
Labandon de la notion dge mental ;
La distinction de deux domaines dintelligence.
Concernant le premier point rappelons que depuis Stern, le Q.I. est

un rapport (quotient) entre lge mental observ au test et lge rel
(chronologique) du sujet. Ce quotient a un sens lorsque le sujet est dans
une priode de dveloppement, ce qui est le cas pour des enfants. Il en a par
contre beaucoup moins pour des adultes car, au-del de 18-20 ans, le niveau
de performance dans les exercices proposs ne progresse plus, en moyenne,
en fonction de lge chronologique mais a mme tendance plafonner puis
ventuellement dcliner ultrieurement sous leffet du vieillissement (voir
chapitre 1). Le calcul dun Q.I. chez ladulte selon la mthode de Stern,
aboutirait donc une baisse progressive du Q.I. avec lavance en ge. Cest
lune des raisons pour lesquelles Wechsler abandonne la notion dge mental
et la dfinition du Q.I. qui en dcoule, et opte pour la comparaison des
scores du sujet avec les scores des sujets de la mme classe dge. Il conserve
la traduction du score obtenu en Q.I. mais celui-ci nest plus un quotient
mais une indication de la place du sujet (son rang) dans une population de
rfrence. Cest le principe de ltalonnage qui est appliqu ici.
Avec Weschler, le Q.I. devient un indicateur de la position du niveau du

sujet par rapport celui des sujets de mme ge et non plus un indicateur
relatif une comparaison entre un ge mental et un ge chronologique.
Si Wechsler dcide de conserver le terme de Q.I., cest que cette notion est
dj trs largement utilise cette poque. Le terme est donc une concession
aux pratiques tablies :
Le petit tour de passe-passe est dappeler Quotient Intellectuel un score
qui nest pas un quotient mais un rang dans un groupe de rfrence.
Huteau et Lautrey (1999a, p. 124).
Ce nouvel indicateur Q.I se distribue selon une loi Normale (distribution

Gaussienne). Pour faciliter le rapprochement avec le Q.I traditionnel,
Wechsler dcide de fixer la moyenne de ce nouvel indice 100 avec un cart
type de 15.
110
Attention !
Le Q.I. nest pas une valuation absolue du niveau intellectuel mais une
valuation relative de ce dernier en rfrence une classe dge. Par
exemple, si un enfant de 8 ans et un enfant de 12 ans obtiennent tous les
deux la mme valeur de Q.I. (par exemple, 115) il ne faut pas en conclure
quils ont les mmes capacits intellectuelles ! Lenfant de 12 ans aura ici
des capacits suprieures lenfant de 8 ans, mme sil a le mme Q.I. La
mme valeur de Q.I., signifie simplement que ces deux enfants se situent
tous les deux dans la mme position vis--vis de leur groupe de rfrence,
mais chacun dans son groupe dge. La valeur de 115 nous indique que
ces deux enfants se situent au-dessus de la moyenne de leur groupe dge
(moyenne de 100 dans chaque groupe dge), et plus prcisment un
cart type au-dessus de celle-ci (100 + 15).
La seconde diffrence fondamentale entre lchelle de Binet-Simon et
les chelles de Wechsler, repose sur la prsence de deux chelles distinctes,
verbale et performance , dans les preuves de Wechsler car ce dernier
remet en cause la forme monolithique de lintelligence du modle de Binet
(voir chapitre 1). En effet, Wechsler considre que :
Les tests dAptitude Verbale, de Raisonnement Abstrait, et tous tests de
mme genre quand ils sont utiliss seuls pour un examen de lintelligence
gnrale, donnent seulement une image incomplte de la capacit dun
individu sadapter et russir effectivement. (Wechsler, 1956, p. 14)
Pour pouvoir procder une valuation plus complte de lintelligence

gnrale il dcide dintgrer dautres types ditems et en particulier des items
qui ne ncessitent pas lusage du langage pour tre rsolus. Cela permet
dvaluer une intelligence non verbale (ou de raliser une valuation non
verbale de lintelligence). Ces items sont regroups dans une chelle dite
chelle de Performance alors que les autres items forment une chelle
Verbale . Chaque chelle fait lobjet dune valuation spare, avec au final,
trois indicateurs des performances de sujet : un indicateur global (le Q.I.T
ou Q.I. Total), et un indicateur dans chacune des chelles (Q.I Verbal ,
ou QIV et Q.I de Performance , ou QIP). Par la suite, dans les versions
les plus rcentes (le WISC-IV) des indicateurs factoriels viendront remplacer
ces indicateurs de type Q.I.
111
Les diffrentes chelles de Wechsler

La premire chelle de Wechsler est diffuse aux tats-Unis en 1939 sous
le nom de Wechsler-Bellevue. Cette chelle dintelligence est destine aux
adultes. Pour laborer cette chelle, Wechsler sinspire fortement de tests
existants, et en particulier des tests de larme amricaine Army Alpha test et
Army Beta Test (Wechsler, 1956). Cette premire chelle sera ensuite rvise
sous le terme de WAIS (Wechsler Adult Intelligence Scale) en 1955, puis de
WAIS-R (R pour Rvise) en 1981 et enfin de WAIS-III (3e version de la
WAIS) en 19971 .
Une version pour enfants et adolescents parat aux tats Unis en 1949 :
le WISC (Wechsler Intelligence Scale for Children). Rvise en 1974
(WISC-R), puis en 1991 (WISC-III) et enfin en 20022 (WISC-IV).
Avant de prsenter plus en dtail les versions les plus rcentes (WISC-III,
WISC-IV et WAIS-III) interrogeons-nous sur ces rnovations : pourquoi
ces chelles sont rgulirement rnoves ?
Pourquoi est-il ncessaire de rnover rgulirement
les tests dintelligence ?
Nous pouvons distinguer trois raisons principales ces rnovations :
1 Obsolescence des items

Certains items peuvent vieillir au niveau du contenu, et tre alors
en dcalage avec lenvironnement actuel des sujets. Mais ils peuvent
galement vieillir au niveau de la forme : type de graphisme, type
de reprsentation, utilisation dimages en noir et blanc...Avec un effet
nfaste possible sur le niveau dintrt du sujet pour les preuves, donc
sur son niveau dimplication dans les tches proposes. Par exemple, on
peut remarquer lapparition de la couleur dans certains items imags du
WISC-III alors que des reprsentations en noir et blanc taient utilises
pour les items de la prcdente version WISC-R.
1. Toutes les dates concernent ici les versions originales amricaines. Les dates des adaptations
franaises seront donnes plus loin dans la prsentation de ces preuves.
2. Idem note prcdente.
112
2 Perte du pouvoir discriminant et obsolescence des talonnages

Du fait de leffet Flynn (voir chapitre 1), un certain nombre de tests ne
permettent plus de distinguer de faon satisfaisante les sujets car ils sont
devenus en moyenne trop faciles. Un relvement du niveau de difficult
par remplacement dun certain nombre ditems peut savrer ncessaire.
Pour cette raison il est ncessaire dtablir rgulirement de nouveaux
talonnages. Sinon, en utilisant un talonnage trop ancien, on risque de
surestimer les capacits intellectuelles du sujet.
3 Progrs des connaissances thoriques et mthodologiques
Paralllement lutilisation des tests, des tudes et des recherches sont
menes sur les preuves et sur les dimensions values. Pour prendre en
compte les rsultats de ces recherches il est parfois ncessaire dapporter
des modifications concernant la structure mme de lpreuve afin de
rapprocher ce qui est valu par lpreuve des modles thoriques les
plus rcents et/ou des avances mthodologiques. Cest pour cette raison
par exemple, dont nous exposerons plus loin les lments explicatifs,
que le WISC-IV comporte de nouveaux items et de nouveaux subtests
par rapport lancienne version WISC-III, qui comportait lui-mme
de nouvelles situations dvaluation par rapport la version prcdente
WISC-R.
2.
Le WISC-III
Bien que les psychologues Francophones disposent depuis 2005 de la version
WISC-IV, nous avons choisi dintgrer une prsentation du WISC-III avant
de prsenter la version la plus rcente. Il nous semble en effet ncessaire de
connatre les bases du WISC-III afin de mieux comprendre les changements
(importants) effectus avec larrive du WISC-IV.
Le lecteur familier du WISC-III, et de linterprtation de ses scores, pourra
ventuellement survoler cette partie et/ou passer directement au chapitre
suivant consacr au WISC-IV.
Le WISC1 , dans ses diffrentes versions, est lchelle dintelligence de
Wechsler utilisable pour des enfants et adolescents de 6 16 ans. Cest
1. Wechsler Intelligence Scale for Children.
113
probablement lun des tests les plus connus et les plus utiliss dans le monde.
En France il est trs utilis, par exemple, dans le cadre de consultations en
cabinet, en structure hospitalire et dans lducation nationale (voir Castro
et al., 1996).
Nous prsenterons ici les principales caractristiques de la version WISCIII. Pour une prsentation plus exhaustive on peut consulter le manuel de
lpreuve (Wechsler, 1996) ainsi que louvrage trs complet de Grgoire1
qui comporte une mthodologie dinterprtation des rsultats (2000a). On
peut galement consulter louvrage de Arbisio (2003) pour une analyse des
rsultats orientation plus psychanalytique.
Prsentation de lpreuve
Historique
La premire version WISC date de 1949, adapte en France en 1958. Cette
version a t rnove en 1974, version WISC-R, et adapte en France en
1981. La version WISC-III parat ensuite en 1991, adapte en France en
1996. La dernire version WISC-IV est sortie en 2002 aux tats-Unis, avec
une diffusion en France en 2005.
Ces versions sont diffuses par les ECPA.
Le matriel
Le WISC-III se prsente dans une mallette qui regroupe le matriel de
passation. Le psychologue dispose dun manuel trs complet (294 pages)
qui donne toutes les indications ncessaires la passation et la cotation de
lpreuve (Wechsler, 1996). Comme dans la plupart des tests passation
individuelle, cest le psychologue qui consigne les rponses du sujet sur
le cahier de passation, avec sur la premire page, des espaces rservs
pour reporter les scores du sujet. Le praticien peut aussi utiliser la grille
dinterprtation des scores propose par Grgoire (Grgoire, 1996).
1. Jacques Grgoire est le conseiller scientifique des ECPA pour les adaptations franaises des chelles
de Wechsler.
114
Les subtests
Lpreuve se compose de plusieurs preuves indpendantes, appeles subtests.
Chaque subtest comporte plusieurs items, prsents dans un ordre hirarchis
en fonction de leur niveau de difficult. Au total le WISC-III comporte
13 subtests, 6 pour lchelle verbale et 7 pour lchelle de performance.
La passation de trois de ces subtests est optionnelle car les rsultats
seulement 10 subtests sont ncessaires pour calculer les Q.I. Chaque
subtest est reprsentatif dun certain type de situation, dun certain type de
raisonnement.
Les subtests de lchelle Verbale
Information : il sagit de rpondre des questions orales portant sur
des connaissances que lenfant a eu loccasion dacqurir. Ces connaissances sont utiles lenfant pour bien comprendre son environnement
(30 items) ;
Similitudes : la tche consiste trouver en quoi deux notions (ou deux
objets) se ressemblent, trouver ce quil y a de commun entre deux
termes (19 items) ;
Arithmtique : petits problmes arithmtiques simples, rsoudre mentalement (24 items) ;
Vocabulaire : consiste indiquer la dfinition de mots (30 items) ;
Comprhension : lenfant doit rpondre des questions concernant des
situations relatives la vie sociale (adaptation par rapport des situations
de la vie courante) (18 items) ;
Mmoire immdiate des chiffres : lenfant doit rpter haute voix une srie
de chiffres qui est lue par le psychologue (mesure de lempan mnsique).
Dans une premire partie lenfant doit rpter les chiffres dans lordre
de prsentation, dans une seconde partie il doit les rpter dans lordre
inverse. Les sries comportent de 2 9 chiffres.
Les subtests de lchelle de Performance

Compltement dimages : lenfant doit indiquer la partie manquante dun
objet reprsent par une image (30 items) ;

Code : lenfant doit associer, par crit, des chiffres des symboles en
respectant des rgles dassociation ;
Arrangement dimages : srie dimages prsentes dans le dsordre
remettre dans un ordre logique et chronologique (14 items) ;
115
Cubes : reproduction de configurations gomtriques laide de cubes
bicolores (12 items) ;

Assemblages dobjets : sorte de puzzle reconstruire (5 items) ;
Symboles : lenfant doit indiquer ici sil retrouve des symboles cibles au
milieu dautres symboles ;
Labyrinthes : lenfant doit tracer avec un crayon un itinraire correct dans
un labyrinthe (10 items).
Standardisation
La passation
La passation est individuelle et ncessite un temps denviron 1 h 15 1 h 45
(dure variable en fonction de lge du sujet et de son niveau de russite). La
passation des subtests est effectue selon un ordre dtermin, avec alternance
entre les subtests verbaux et les subtests de performance afin de prserver chez
le sujet un certain niveau de motivation. En fonction de lge de lenfant il est
prvu de ne pas prsenter les premiers items de certains subtests (considrs
comme trop faciles pour les enfants plus gs).
Pour chaque subtest des rgles darrt sont aussi indiques afin, l encore,
dadapter la passation au niveau de performance des enfants. Par exemple,
dans le subtest information le psychologue doit arrter la passation aprs
5 checs conscutifs : on considre ainsi quaprs cinq checs la probabilit
de fournir une bonne rponse est quasi-nulle et quil est donc inutile de
faire passer les autres items, plus difficiles. Enfin, certains subtests sont
chronomtrs, dautres en temps libre. Le manuel indique trs prcisment
les rgles de passation pour chaque subtest.
La cotation et les indicateurs de la performance du sujet

Cotation
Du fait du nombre de subtests, et de leur diversit, la cotation du WISC-III

est plus complexe que la cotation dun simple test de type QCM mais le
manuel donne toutes les indications pertinentes pour effectuer cette cotation
de manire fiable. Pour certains subtests, la cotation des items est classique :
1 point par bonne rponse et 0 point en cas dchec. Si le temps est limit on
accordera ventuellement un bonus en fonction du temps rel de ralisation,
116
do la ncessit de prendre en compte ce temps de ralisation (utilisation

dun chronomtre pour ces subtests).
Pour trois subtests de lchelle Verbale la cotation est plus fine : on
accorde 0, 1 ou 2 points en fonction de la qualit de la rponse du sujet.
Par exemple, dans le subtest similitude si la rponse un item repose sur
une proprit ou une fonction spcifique commune aux deux objets ou
concepts (Wechsler, 1996, p. 87) on accordera 1 point, mais si la rponse
est plus labore et quelle repose sur une gnralisation pertinente relative
un aspect important des deux lments de la paire (Wechsler, 1996,
p. 87) on accordera 2 points. De manire garantir la fidlit de la cotation,
le manuel indique, pour chaque subtest, les rgles gnrales de cotation ainsi
quune liste dtaille des principales rponses possibles avec les cotations
affrentes.
Calcul du score par subtest
Une fois la cotation des items ralise, on calcule les notes chaque subtest en
additionnant lensemble des notes obtenues aux diffrents items du subtest.
On obtient alors un score pour chaque subtest, qui est en fait une note brute.
Pour convertir ces notes brutes en notes talonnes, dites notes standard, il
faut consulter les tables dtalonnage fournies dans le manuel. Bien entendu,
on aura calcul au pralable lge du sujet afin dutiliser les tables pertinentes.
Les notes standard sont donc des notes normalises (talonnage normalis),
pouvant varier de 1 19, avec une moyenne de 10 et un cart type de 3.
Le fait que les scores tous les subtests soient exprims dans la mme
mtrique (notes standard) va permettre alors deffectuer des comparaisons
du niveau de russite du sujet en fonction des subtests (voir plus loin le
dtail de linterprtation des scores).
Calcul des Q.I.
Pour le calcul des Q.I., on peut distinguer deux tapes :

le calcul des notes de chaque chelle,
la transformation de ces notes en Q.I.
Pour le calcul des notes dchelles, il faut additionner, pour chaque chelle,
les notes standard des cinq subtests de lchelle. On obtient alors une note
comprise entre 5 et 95, quil faut ensuite transformer en Q.I. grce aux tables
du manuel. On obtient alors deux Q.I., un Q.I. pour lchelle Verbale, dit
Q.I.V., et un Q.I. pour lchelle de Performance, dit Q.I.P. Pour obtenir le
Q.I. Total, ou QIT, il faut additionner les deux notes dchelles et nouveau
consulter les tables correspondantes. Attention, ce QIT ne correspond pas
117
exactement la moyenne arithmtique des deux Q.I. Par exemple, une note
standard verbale de 58 (qui correspond un QIV de 110), additionne
une note standard de performance de 64 (qui correspond un QIP de
120), va donner une note totale de 122, ce qui correspond un QIT de 117
(Wechsler, 1996, Table A.4, p. 254) alors que la moyenne arithmtique des
deux Q.I. est de 115.
Ces trois indicateurs de Q.I. sont exprims dans la mme mtrique :
moyenne de 100 et cart type de 15. Cet talonnage normalis des Q.I.
nous permet de situer le sujet par rapport aux autres sujets de mme ge :
par exemple, un Q.I.T de 115 nous indique que le sujet se situe, sur cet
indicateur, un cart type au-dessus de la moyenne, ce qui signifie que ce
score nest obtenu, ou dpass, que par 15,85 % des sujets (voir dans le
chapitre 2 de ce livre les caractristiques des talonnages de type Q.I.).
Calcul de lintervalle de confiance
Pour tous ces indicateurs de Q.I., comme plus globalement pour tout score
un test, il est souhaitable de prendre en compte lerreur type de mesure afin
dentourer le score observ dun intervalle de confiance. Rappelons que tout
score observ nest quune estimation de la vraie valeur de la comptence
du sujet sur la dimension value (cf. la thorie classique du score vrai, voir
chapitre 2) et quil est prfrable de caractriser le niveau dun sujet par un
intervalle de confiance plutt que par une valeur ponctuelle correspondant
au score observ. Le WISC-III, comme les autres chelles de Wechsler,
est lun des rares tests, sinon le seul, inciter fortement le psychologue
prendre en compte cette erreur de mesure. En effet, dune part, le manuel
comporte des tableaux qui donnent pour chaque Q.I. observ (QIT mais
aussi QIV et QIP) les intervalles de confiance correspondants (aux seuils
.05 et .10) ; dautre part, le psychologue doit indiquer ces intervalles en
premire page du protocole du sujet, juste ct des scores observs. Par
exemple, pour un QIT observ de 110, lintervalle de confiance au seuil
.10 est de 104-115. Autrement dit, si on observe un score de 110 on peut
estimer que le score vrai du sujet se situera 90 fois sur 100 entre 104 et 115.
Le manuel fournit donc toutes les informations permettant au psychologue
de prendre en compte cette erreur de mesure.
Calcul des Indices Factoriels
Enfin, sur cette version III du WISC, il est galement possible de calculer
des Indices Factoriels, indices qui permettent de cerner plus prcisment un
aspect spcifique du fonctionnement intellectuel du sujet. Nous prsenterons
plus loin les bases thoriques (et les limites) de ces indices, et nous indiquons
118
ici uniquement les principes de calcul. Ces Indices Factoriels sont au nombre
de trois :
Indice Comprhension verbale (ou I.C.V),
Indice Organisation perceptive (I.O.P),
Indice Vitesse de traitement (I.V.T).
Le calcul de ces indices suit la mme logique que le calcul des QIV et QIP :
il faut additionner les valeurs des notes standards des subtests concerns puis
consulter les tables du manuel afin de convertir ces notes en indicateurs. Ces
indicateurs sont exprims dans la mme mtrique que les Q.I. (moyenne de
100 et cart type de 15) et il est galement prvu, dans le manuel et sur le
protocole, dentourer ces indices dun intervalle de confiance.
Le tableau 3.1 indique le rattachement des diffrents items aux Q.I. et
aux indices factoriels.
Tableau 3.1
Rpartition des subtests sur les diffrents indicateurs du WISC-III.
a
Les 3 Q.I
Subtests
QIV
QIP
Les 3 Indices Factoriels

QIT
ICV
Information
Similitudes
Arithmtique
Vocabulaire
Comprhension
Mmoire des chiffres
(X)
IOP
IVT
(X)
Compltement dimages
Code
Arrangement dimages
Cubes
Assemblages dobjets
Symboles
(X)
(X)
Labyrinthes
(X)
(X)
a. Les parenthses signalent les subtests optionnels.
Ce tableau nous indique que le calcul de chaque Q.I. spcifique (QIV

et QIP) repose sur cinq subtests, mais que le calcul des Indices Factoriels
repose sur un nombre plus faible de subtests : quatre pour ICV et IOP et
seulement deux pour IVT.
119
De ces six scores, seul le Q.I.T prend en compte lensemble des subtests.
Cest donc bien lindicateur le plus complet et le plus fiable de cette chelle.
On peut remarquer galement que lIndice Factoriel ICV reprend
globalement les mmes subtests que le QIV (il manque juste le subtest
arithmtique), de mme pour lIndice Factoriel IOP et le QIP (il manque
ici uniquement le subtests code).
Certains subtests sont optionnels et sont destins soit remplacer un
subtest dont le rsultat nest pas utilisable (en raison, par exemple, dun
problme lors de la passation), soit investiguer une situation spcifique.
Enfin, on remarque galement, et nous en verrons plus loin les raisons, que
trois subtests (le subtest arithmtique et deux subtests optionnels : mmoire
des chiffres et labyrinthes) ne sont rattachs aucun Indice Factoriel.
Les talonnages disponibles
Comme dans les autres chelles de Wechsler, on peut signaler la qualit

des talonnages : ils sont raliss sur un nombre important de sujets, dont
la reprsentativit est contrle. Pour le WISC-III, ltalonnage Franais
repose sur 1 120 sujets, gs de 6 16 ans. Cet talonnage a t ralis en
1994-1995. Ces sujets ont t slectionns afin de former un chantillon
reprsentatif de la population franaise des enfants de cet ge (type de
scolarit suivie, CSP des parents...). Lge et le sexe ont galement t
contrls. Au final, le manuel propose des talonnages par classes dges
de 4 mois. Par exemple on utilisera ltalonnage [13 ans, 4 mois, 0 jour
13 ans, 7 mois, 30 jours] pour obtenir les notes standard dun enfant g de
13 ans, 6 mois.
Les notes standard, les notes de Q.I. et les Indices Factoriels sont tous des
scores talonns, qui suivent une loi Normale. Le tableau 3.2 indique les
valeurs caractristiques de ces indicateurs.
Tableau 3.2
Valeurs caractristiques des indicateurs du WISC-III.
Indicateurs
Valeur
mini
Valeur
maxi
Moyenne
cart type
Notes standards
19
10
Q.I.T
40
160
100
15
QIV et QIP
46
155
100
15
IOP, ICV, IVT
50
150
100
15
120
partir des valeurs du tableau 3.2 il est possible de calculer trs

prcisment la position du sujet par rapport aux sujets du mme ge (voir
galement le chapitre 2 de ce livre). On sait par exemple que seulement
environ 16 % des sujets atteignent ou dpassent la valeur seuil moyenne
+ un cart type , soit 115 pour les Q.I. (et Indices Factoriels) et 13 pour
les notes standard, et seulement environ 2 % des sujets atteint ou dpasse le
seuil moyenne + deux carts types , soit 130 pour les Q.I. et 16 pour les
notes standard.
Dans les tableaux dtalonnages du manuel, les rangs percentiles sont
indiqus pour toutes les valeurs des Q.I. et des Indices Factoriels. Pour les
rangs percentiles des notes standard on peut consulter le tableau propos
par Grgoire (Grgoire, 2004, tableau 23, p. 163). On saperoit alors,
par exemple, que seulement 9 % des sujets atteignent o dpassent la
note standard de 14. Il est trs important que le psychologue consulte ces
rpartitions thoriques des scores au WISC-III afin de mieux interprter les
rsultats du sujet. Par exemple, la rpartition des notes standard (variation
de 1 19) peut sembler proche de la rpartition des notes scolaires (qui
peuvent varier thoriquement de 0 20) mais en ralit, le plus souvent, cette
rpartition est loin dtre comparable, en raison des valeurs caractristiques
(moyenne et cart type) souvent diffrentes, ou inconnues, des notes scolaires.
Lanalogie avec les rsultats scolaires est donc viter en labsence de
vrification de leur distribution1 .
Les qualits psychomtriques du WISC-III
Le manuel du WISC-III contient de nombreuses informations relatives

aux qualits psychomtriques du test, assorties, le plus souvent, dun
rappel thorique des diffrentes notions utilises Nous analyserons ici les
informations concernant la sensibilit, la fidlit et la validit du WISC-III.
La sensibilit
La sensibilit dun test reprsente sa capacit diffrencier les sujets. Dans
un test comme le WISC-III on peut distinguer deux aspects :
1. Pour reprendre notre exemple dune note de 14 dans un subtest du WISC-III, pour pouvoir
effectuer un rapprochement avec une note scolaire de 14, il faudrait vrifier que lon observe bien le
mme pourcentage de sujets (9 %) qui atteint ou dpasse cette note dans le cas dvaluations scolaires.
121
Une sensibilit dveloppementale 1 , qui reprsente la capacit du test
diffrencier des enfants dge diffrents ;

Une sensibilit interindividuelle dans chaque classe dge, qui reprsente
la capacit du test diffrencier les enfants du mme ge.
Au niveau de la sensibilit dveloppementale, il faut vrifier quon observe
bien une difficult progressive des items de chaque subtest afin que le WISCIII puisse tre vritablement considr comme une chelle de dveloppement.
Lobservation de niveaux de russite diffrents en fonction de la classe dge
permet galement de dterminer, et de valider, les rgles de dpart et darrt
de chaque subtest. Rgles qui permettent, rappelons-le, de ne prsenter
chaque enfant que les items les plus en relation avec son niveau de comptence
et de rduire au final la dure de passation. Sans rentrer ici dans le dtail,
on peut indiquer que les donnes des exprimentations prsentes dans le
manuel confirment ces caractristiques dveloppementales du WISC-III.
Au niveau de la sensibilit interindividuelle, il faut sassurer que les scores
permettent bien de diffrencier les enfants du mme ge. Nous pouvons
vrifier sur le tableau 3.2 (plus haut) que cette diffrenciation est assure par
ltendue des diffrents scores possibles et la rpartition gaussienne de ces
scores. Par exemple, au niveau des notes standards, elles varient de 1 19
(moyenne de 10 et cart type de 3) et couvrent ainsi trois carts types de part
et dautre de la moyenne, ce qui assure un bon niveau de diffrenciation
des sujets. On observe cette mme qualit de diffrenciation au niveau des
Q.I. Les indices factoriels prsentent une tendue un peu plus rduite que
les Q.I. mais assurent un bon degr de diffrenciation.
La fidlit
Rappelons que la fidlit concerne la constance de la mesure. Nous trouvons
dans le manuel (Wechsler, 1996) des informations sur diffrents types de
fidlit :
La fidlit, ou consistance, interne, est value par la mthode pair-impair.
Les coefficients varient entre .64 et .84 selon les subtests, mais de .89
.95 selon les Q.I. (p. 178). Il est tout fait normal que les valeurs de
fidlit soient plus importantes au niveau des Q.I. car ils sont constitus
par davantage de scores ;
1. Dans le manuel cette sensibilit est nomme sensibilit gntique (Wechsler, 1996, p. 16).
122
La fidlit temporelle a t value par la mthode test-retest environ
30 jours dintervalle. Les coefficients varient ici de .57 .89 selon les
subtests, et de .87 .94 selon les Q.I.
La fidlit intercotateur varie de .95 .99 selon les subtests, ce qui est
quasiment parfait !
Lerreur type de mesure est calcule pour chaque subtest et pour chaque
indicateur global. partir de ces valeurs, il est possible de calculer les
intervalles de confiance qui entourent le score observ. Comme nous
lavons dj indiqu, le manuel facilite ici la tche du psychologue en
donnant directement les valeurs de ces intervalles pour chaque valeur de
Q.I. (aux seuils .10 et .05), ainsi que pour chaque Indice Factoriel.
Ces diffrents indicateurs tmoignent dun bon niveau de fidlit du
WISC-III.
La validit
Que mesure le WISC-III ? Quel est la fiabilit des Q.I. et celle des Indices
Factoriels ? Ces questions renvoient la validit du test.
Nous prsenterons dans un premier temps des lments danalyse de la
validit du WISC-III comme preuve dintelligence, puis, dans un second
temps, nous questionnerons la validit de ses diffrents indicateurs (Q.I. et
Indices Factoriels).
La validit du WISC-III comme mesure de lintelligence
Il sagit ici danalyser les liaisons observes entre les scores obtenus par les
mmes sujets au WISC-III et dautres tests dintelligence.
Nous trouvons dans le manuel diffrentes tudes ce sujet, la plupart
portent sur des populations amricaines et sur le WISC-R, prdcesseur
du WISC-III. Nous ne pouvons pas ici prsenter une synthse de toutes
ces tudes mais nous retiendrons, dune part, que la validit des chelles de
Wechsler, et donc du WISC-III, comme mesure de lintelligence nest plus
dmontrer (de nombreux travaux portent sur ces chelles, et confirment
la validit de ces dernires), et dautre part, que les principaux rsultats des
recherches portant sur le WISC-R peuvent raisonnablement tre appliqus
au WISC-III du fait des similitudes entre ces deux preuves.
Sans vouloir tre exhaustifs, nous ne prsenterons ici que certains rsultats
de recherches concernant le WISC-III et principalement les donnes sur des
populations franaises en distinguant trois approches :
123
Les liaisons entre le WISC-III et les autres chelles de Wechsler (dont le
WISC-R) ;
Les liaisons avec dautres tests dintelligence ;
Les liaisons entre le WISC-III et la russite scolaire.
La premire approche consiste vrifier la nature des liaisons entre
lancienne version de lpreuve (WISC-R) et la nouvelle version (WISC-III).
On sattend observer des corrlations trs leves. Le manuel du WISC-III
rapporte les rsultats dune telle tude, portant sur 99 enfants.
Tableau 3.3
Validit du WISC-III : corrlations avec le WISC-R (daprs Wechsler, 1996).
Q.I.V
Q.I.P
Q.I.T
.89
.80
.88
Les valeurs des corrlations observes, entre .80 et .89, tmoignent bien
de la similitude entre les deux versions du test : ces deux preuves mesurent
bien les mmes domaines, aussi bien au niveau global de lpreuve (QIT)
quau niveau de chaque chelle (QIV et QIP).
Il est galement intressant de comparer les rsultats avec les deux autres
chelles de Wechsler pour des sujets situs aux extrmes des classes dges.
Nous trouvons l encore des donnes dans le manuel avec des valeurs de
corrlations trs satisfaisantes (voir tableau 3.4).
Tableau 3.4
Validit du WISC-III : corrlations avec la WPPSI-R et la WAIS-R (Wechsler, 1996).
WISC-III
Q.I.V
Q.I.P
Q.I.T
WPPSI-R
.86
.68
.87
WAIS-R
.84
.78
.84
Enfin, dans le manuel de la dernire version de la WAIS, version WAIS-III,

figurent des donnes avec cette version WISC-III. L encore nous observons
des corrlations importantes, au niveau des Q.I comme au niveau des deux
Indices Factoriels communs aux deux preuves. La corrlation entre les QIT
est ici encore plus leve ici avec une valeur de .91 (tableau 3.5).
Toutes ces donnes entre le WISC-III et les autres chelles de Wechsler
confirment, sil en tait besoin, la validit du WISC-III comme mesure de
lintelligence gnrale.
124
Tableau 3.5
Validit du WISC-III : corrlations avec la WAIS-III (Wechsler, 2000).
Q.I.V
Q.I.P
Q.I.T
I.C.V
I.O.P
.91
.79
.91
.88
.76
La deuxime approche consiste comparer les rsultats obtenus au WISCIII avec les rsultats obtenus dautres preuves dintelligence. On sattend
ici observer des corrlations leves, mais infrieures celles que nous
venons de prsenter : chaque test dintelligence, sil mesure bien le mme
domaine (lintelligence) possde galement ses propres spcificits (rfrences
thoriques, matriel...). Nous trouvons dans le manuel du WISC-III les
rsultats dune tude comparative avec le test K-ABC. Ce dernier test permet
dvaluer deux types de processus mentaux : les Processus Squentiels et les
Processus Simultans. La runion de ces deux chelles permet dvaluer un
indice global defficience, ou Processus Mentaux Composites (PMC), qui
peut tre compar au QIT du WISC. Cette preuve comporte galement
une chelle de connaissance (Kaufman et Kaufman, 1993).
Tableau 3.6
Corrlations entre WISC-III et K-ABC (Wechsler, 1996).
WISC-III
K-ABC
Q.I.V
Q.I.P
Q.I.T
I.C.V
I.O.P
I.V.T
P. Squentiels
.66
.46
.64
.63
.51
.20
P. Simultans
.68
.61
.72
.66
.69
.22
P.M. Composites
.74
.62
.77
.73
.69
.27
Connaissance
.81
.46
.72
.79
.54
.19
On peut remarquer, au niveau des deux indicateurs globaux, QIT pour

le WISC-III et chelle composite PMC pour le K-ABC, une valeur assez
leve de corrlation (.77) pour deux tests dintelligence qui ne relvent pas
de la mme approche thorique : malgr leurs diffrences, ces deux preuves
mesurent bien une mme ralit.
Une autre valeur est remarquer sur ce tableau 3.6, cest la corrlation
leve (.81) entre QIV et lchelle de connaissance du K-ABC. Nous y
reviendrons.
Nous trouvons galement, dans le manuel du WISC-III, des corrlations
observes avec un autre test dintelligence : la batterie factorielle DAT. La
125
batterie DAT1 permet dvaluer diffrentes aptitudes cognitives : aptitude

verbale, numrique, spatiale, raisonnement... Dans ltude prsente dans
le manuel, seules trois aptitudes ont t mesures : verbale, numrique et
raisonnement abstrait.
Tableau 3.7
Validit du WISC-III : corrlations avec la DAT (daprs Wechsler, 1996).
WISC-III
DAT
Q.I.V
Q.I.P
Q.I.T
Verbal
.33
.25
.31
Numrique
.52
.47
.54
Abstrait
.43
.37
.43
Nous pouvons observer que les corrlations sont trs infrieures celles
observes dans les tableaux prcdents avec des valeurs comprises entre .25
.54 selon les indicateurs. Ce nest pas surprenant, compte tenu du fait quil
sagit ici de deux preuves trs diffrentes : lune, le WISC-III, value une
intelligence gnrale, lautre, la DAT, des aptitudes plus spcifiques. On
pouvait cependant sattendre obtenir une corrlation plus leve entre QIV
et aptitude verbale (.33) qui sont, a priori, deux dimensions assez proches.
Ce point est soulign dans le manuel du WISC-III :
La corrlation entre le Q.I. Verbal et le Raisonnement Verbal apparat

anormalement faible. Considrant le contenu des deux tests, une corrlation denviron .50 pouvait tre attendue. (Wechsler, 1996, p. 214).
Ces rsultats ne remettent nullement en cause la validit du WISC-III.

Dune part, on peut effectivement remarquer, comme lindique le manuel,
que lchantillon est restreint (ltude porte sur seulement 41 sujets) et peut
expliquer cette faiblesse. Dautre part, on pourrait galement souligner que
la version DAT utilise est assez ancienne (1974 pour la version franaise),
et quil conviendrait alors de mener une nouvelle tude en utilisant une
version plus rcente de la DAT et/ou une autre batterie factorielle.
On ne trouve, par contre, aucune tude, et on peut le regretter, qui
confronte le WISC-III et un test de type facteur g sur une population
franaise.
Enfin, la troisime approche de la validit consiste comparer les rsultats
obtenus au WISC-III avec des indicateurs de russite scolaire (notion
1. Une version rnove de cette batterie, la DAT-5, a t depuis dite (voir chapitre 5).
126
de validit prdictive ou concomitante). Une tude est rapporte dans le

manuel qui utilise le test TNO (Test de Niveau dOrthographe). On peut
stonner du choix de cet indicateur de russite scolaire qui ne prend en
compte ici quune mesure spcifique (lorthographe) : un test portant sur
des connaissances plus larges aurait probablement mieux convenu, comme
par exemple les tests TAS (Test dAcquisition Scolaire, diffuss par les
ECPA) qui permettent dvaluer les connaissances en franais mais aussi en
mathmatiques.
Lanalyse de la liaison entre WISC-III et russite scolaire nous parat donc
assez incomplte mme si lon observe, comme attendu, des corrlations
modres, autour de .50 (Wechsler, 1996, p. 216).
ces donnes nous pourrions rajouter les liaisons observes entre lchelle
de connaissance du test K-ABC et le QIV que nous avons dj prsentes
(voir tableau 3.6). Les valeurs leves (.81 avec le QIV et .72 avec le QIT)
tmoignent galement de la validit du WISC-III, et principalement ici celle
du QIV, dans le domaine des acquisitions scolaires. Remarquons que ces
lments ne sont pas comments dans cette partie du manuel du WISC-III.
La validit des indicateurs du WISC-III (Q.I. et Indices Factoriels)
Lorsquun test permet, comme ici, de calculer diffrents indicateurs du

niveau de performance du sujet, il convient de vrifier les bases sur lesquelles
reposent ces diffrents indicateurs (notion de validit structurale).
Pour les Q.I. du WISC-III, des tudes doivent confirmer, dune part, la
validit de la distinction de deux chelles, et donc le calcul spar de deux
scores (QIV et QIP), dautre part, la validit dun indice total, le QIT.
Pour les Indices Factoriels, qui nexistaient pas dans la version WISC-R,
ils doivent correspondre, comme leur nom lindique, aux facteurs mis en
vidence par des mthodes statistiques appropries (les mthodes danalyse
factorielle).
Examinons les informations fournies dans le manuel sur ces aspects.
La validit des indicateurs de type Q.I.
Le manuel propose une synthse de diffrentes tudes qui dmontrent

que les regroupements des subtests pour aboutir deux chelles distinctes,
QIV et QIP, reposent sur des donnes solides : les liaisons sont plus
importantes entre les subtests dune mme chelle quentre les subtests
dchelles diffrentes. Ce qui confirme la validit du calcul spar des deux
Q.I.
Cependant, tous les subtests prsentent une corrlation significative entre
eux, ce qui montre quils valuent tous une mme dimension, que lon
127
peut effectivement considrer comme une mesure gnrale de lintelligence.

Laddition des scores de tous les subtests pour le calcul du Q.I.T est donc
aussi valide.
Nous pouvons considrer que ces trois indicateurs classiques du WISC-III
(QIV, QIP et QIT) sont bien des indicateurs valides :
Les rsultats sont relativement stables au travers des groupes et justifient
clairement lusage des QIV et des QIP au WISC-III. (Wechsler, 1996,
p. 202)
On peut remarquer ce propos que les saturations (corrlations) des

subtests sur leur chelle prsentent des valeurs diffrentes. Le tableau 3.8
prsente les subtests dans lordre des saturations observes.
Tableau 3.8
Saturations des subtests du WISC-III sur les QI (Wechsler, 1996).
QIV
QIP
Vocabulaire (.86)
Cubes (.74)
Information (.73)
Assemblages dobjets (.67)
Similitudes (.73)
Compltement dimages (.49)
Comprhension (.70)
Arrangements dimages (.47)
Arithmtique (.50)
Symboles (.45)
Mmoire chiffres (.33)
Labyrinthes (.41)
Code (.39)
Les donnes du tableau 3.8 apportent des informations sur la force de la

liaison entre chaque subtest et son chelle de rattachement (son Q.I.). Par
exemple, le subtest vocabulaire (avec une saturation de .86) est un meilleur
reprsentant de lchelle Verbale que le subtest mmoire des chiffres (qui
prsente une saturation beaucoup plus faible). De mme, pour lchelle de
performance, le subtest cubes est le meilleur reprsentant de cette chelle
avec une valeur de saturation de .74 (voir plus loin les critres de slection
des subtests slectionns pour laborer une version rduite du WISC-III).
Ces diffrences entre subtests se retrouvent galement dans les valeurs
de saturation concernant le QIT (voir Grgoire, 2000a). Ces diffrences,
comme nous le verrons plus loin, sont prendre en compte dans la phase
dinterprtation des rsultats aux subtests.
128
La validit des Indices Factoriels
Avant daborder la validit de ces indices il faut en prsenter rapidement

lhistorique, car ces indices ne figuraient pas dans la prcdente version
WISC-R.
Plusieurs recherches portant sur le WISC-R mettent en vidence, par
des mthodes factorielles, trois facteurs (voir par exemple les recherches
de Kaufman, cites pages 193-194 dans le manuel WISC-III). Ces trois
facteurs sont interprts comme :
la comprhension verbale, facteur qui sature la plupart des subtests de
lchelle Verbale ;
lorganisation perceptive, qui lui sature la plupart des subtests de lchelle
Performance ;
lattention, ou rsistance la distraction, troisime facteur qui sature les
subtests arithmtique, mmoire des chiffres et code.
partir des rsultats de ces recherches, il devient possible de calculer des
indices reprsentant chacun de ces facteurs. Ces indices factoriels viendraient
complter les informations classiques exprimes en terme de Q.I. Mais le
troisime facteur repr semble peu fiable, car il ne repose que sur trois
subtests. Do lun des objectifs affichs dans llaboration du WISC-III :
Renforcer la structure factorielle sous-jacente du WISC-R. (Wechsler,
1996, p. 12).
On retrouve ici lun des objectifs gnraux, que nous avons noncs
plus haut, dans la rnovation dpreuves : prendre en compte les rsultats
de recherches. Dans ce but, les concepteurs du WISC-III ont labor un
nouveau subtest, le subtest symboles, qui devrait tre rattach ce troisime
facteur hypothtique, dans lobjectif den obtenir un indicateur plus fiable,
compos alors de quatre subtests.
Les auteurs pensaient pouvoir observer ces trois facteurs dans lexprimentation du WISC-III. Mais sur lchantillon de sujets de la population
amricaine, la meilleure solution factorielle comporte quatre facteurs au lieu
des trois attendus ! En effet, le nouveau subtest symboles sassocie en fait avec
le subtest code pour donner au final un facteur supplmentaire. Cest pour
ces raisons que la version originale (amricaine) du WISC-III comporte
quatre Indices Factoriels : Comprhension Verbale, Organisation Perceptive,
Attention/Concentration (qui correspond aux subtests arithmtique et
mmoire des chiffres) et ce quatrime facteur interprt comme Vitesse
129
de Traitement (qui sature les subtests codes et symboles) [voir Wechsler, 1996,
p. 200-201].
Lors de ladaptation du WISC-III la population franaise, les chercheurs
pensaient donc retrouver ces quatre facteurs. Mais l encore, les donnes
sont surprenantes : sils retrouvent bien les facteurs Comprhension Verbale
(C.V), Organisation Perceptive (O.P) et Vitesse de Traitement (V.T), le
facteur Attention/Concentration ne sature plus ici que le seul subtest mmoire
des chiffres. De plus, cette solution quatre facteurs se rvle tre instable
avec lge. En conclusion, pour cette population franaise, la fiabilit et la
signification du quatrime facteur pose donc problme (Wechsler, 1996,
p. 202). Cest pour cette raison que, pour la version franaise du WISC-III,
une structure en trois facteurs a finalement t retenue en lieu et place de la
structure en quatre facteurs du WISC-III amricain. Cest cette diffrence
dans la structure factorielle des donnes qui explique que, comme nous
lavons dj indiqu, trois subtests (arithmtiques, mmoire des chiffres et
labyrinthes) ne sont pas utiliss dans ladaptation Franaise pour le calcul
des Indices Factoriels (voir tableau 3.1).
Au final, la version franaise du WISC-III ne comporte donc pas
lIndice Factoriel Attention/Concentration mais uniquement les trois
Indices Factoriels suivants :
Comprhension Verbale (I.C.V), qui reprend les subtests de lchelle
Verbale sauf Arithmtique et Mmoire des chiffres ;

Organisation perceptive (I.O.P), qui reprend les subtests de lchelle
Performance sauf Code, Symbole et Labyrinthe ;
Vitesse de traitement (I.V.T), form de deux subtests Code et Symbole.
Ces trois Indices Factoriels se trouvent donc bien valids, comme nous
venons de lexpliquer, par le rsultat danalyses factorielles, mais nous
pouvons nanmoins mettre trois remarques les concernant.
La premire concerne lindice I.V.T. Dune part, cet indicateur ne
reposant que sur deux items, sa fiabilit nest pas assure. Dautre part,
comme lindique Grgoire, le terme mme de vitesse de traitement
peut se discuter car ce subtest ne mesure pas exclusivement une vitesse
de traitement sa dnomination Vitesse de Traitement est sans doute
trompeuse (Grgoire, 2000a, p. 114). De plus il y a dautres subtests dans
le WISC-III qui valuent galement, au moins en partie, cet aspect du
fonctionnement cognitif.
La deuxime remarque concerne la logique mme de calcul de ces Indices.
Nous avons vu plus haut que la liaison (la valeur de la saturation) entre un
130
subtest et son chelle tait plus ou moins leve en fonction du subtest (voir
tableau 3.4). De la mme faon, la liaison entre un subtest et son indice
factoriel est plus ou moins forte. Ainsi, nous trouvons dans le manuel le
classement des subtests en fonction des valeurs de saturation (Wechsler,
1996, p. 208). La logique de calcul de ces indices factoriels devrait tre alors
de pondrer le poids de chaque subtest en fonction des saturations observes
(voir Chartier, 2001, sur ces points). Par ce mode de calcul, les indices
obtenus seraient plus proches des rsultats des analyses factorielles. Cette
possibilit de pondration a bien t envisage par les auteurs, mais au final,
pour le calcul de ces indices, ils retiennent laddition classique des subtests
(sans effectuer de pondration) en fournissant lexplication suivante :
Malgr ces diffrences de saturations factorielles, le mme poids a t
attribu tous les subtests pour le calcul des indices factoriels afin de
simplifier le travail des praticiens. Ceux-ci doivent tre conscients que
ce mode de calcul conduit une estimation imparfaite des facteurs.
(Wechsler, 1996, p. 208)
On ne peut que regretter cette dcision car il nous semble quun calcul
pondr nest pas si complexe raliser et permettrait au final dobtenir des
indices plus fiables.
Ces deux premires remarques concernant les limites des Indices Factoriels
du WISC-III devront tre prises en compte lors de la phase dinterprtation
de ces indices.
Enfin, la troisime remarque concerne le problme plus gnral de
ladaptation des tests dautres populations et la recherche de biais. Nous
avons abord cette problmatique dans le chapitre 2 mais nous avons ici un
bel exemple de biais potentiel. Comme nous venons de le dcrire, lors de la
phase dadaptation du WISC-III sur la population franaise, et grce la
qualit des analyses statistiques ralises, les auteurs ont repr une mauvaise
adquation du modle suppos (en quatre facteurs) et nont pas retenu ce
modle pour la version franaise de lpreuve. Autrement dit, une adaptation
moins rigoureuse de ce test aurait sans doute gnralis abusivement le calcul
des quatre indices toutes les populations. Or cette dmarche serait entache
de biais. Cet exemple illustre et confirme la ncessit, lors de ladaptation
dun test, de toujours mener des telles tudes.
131
La recherche de biais dans le WISC-III
On ne trouve gure dtudes particulires sur ces aspects, sauf la rfrence

une tude comparative entre enfants franais et enfants belges afin de
vrifier que la version franaise du WISC-III pouvait tre applique aux
enfants belges.
Des tudes sur lanalyse de biais sont prsentes dans louvrage de Grgoire
(Grgoire, 2000a). Cet auteur prcise quelles concernent essentiellement
la version WISC-R, et les populations amricaines, et que globalement
nous pouvons considrer que le WISC-R nest pas un test biais pour les
principaux groupes qui composent la socit amricaine (Grgoire, 2000a,
p. 94). Concernant les populations francophones, Grgoire dveloppe
ltude sur lanalyse du Fonctionnement Diffrentiel des Items (F.D.I)
du WISC-III dans la comparaison des rsultats des enfants belges et franais.
Nous avons prsent la notion de FDI, dans le chapitre 2. Rappelons quil
est ncessaire de sassurer, lors de llaboration dun test, que les items sont
bien du mme niveau de difficult pour des sujets de mme niveau de
comptence. Sinon, litem, ou le groupe ditem, prsente un FDI, et favorise
alors certains sujets, ou certains groupes de sujets. Dans ltude prsente
par Grgoire, qui porte sur une version exprimentale du WISC-III, sur
40 items de lpreuve dinformation, huit ont t reprs comme biaiss
(porteur de FDI). Dans la version dfinitive, qui ne comporte que 30 items,
quatre items ont t conservs sur les huit reprs, mais dans la mesure o
deux items avantagent les Franais, et deux, les Belges, Grgoire considrent
que limpact final est assez limit.
Conclusion sur lanalyse des qualits psychomtriques du WISC-III

Comme nous lavons dj indiqu, la validit du WISC-III comme mesure
de lintelligence, et plus globalement la validit des chelles de Wechsler,
nest plus dmontrer. Le manuel est complet et donne de nombreuses
preuves des qualits psychomtriques de ce test. Mais une lecture attentive
de ce manuel nous a permis de relever quelques limites, comme par exemple
celles relatives aux Indices Factoriels. Ces lments gagneront tre pris en
compte par le praticien dans la phase dinterprtation des rsultats.
132
Les bases de linterprtation du WISC-III
Aprs avoir effectu la cotation du protocole, le psychologue dispose de

plusieurs indicateurs quantitatifs : les notes standards aux subtests, les trois
Q.I. (QIV, QIP et QIT), sans oublier les trois Indices Factoriels (ICV, IOP
et IVT). Il dispose galement de donnes plus qualitatives qui regroupent
lensemble des rponses donnes par le sujet, mais aussi ses procdures
de rsolution, son comportement face une difficult, sa motivation, son
niveau de fatigabilit... Enfin, travers les entretiens, et lanalyse ventuelle
de diffrentes sources informations, il dispose dautres lments concernant
le sujet (comme par exemple lanamnse, le dossier scolaire...).
Ltape suivante va donc consister tenter darticuler toutes ces
informations afin de mieux comprendre le fonctionnement cognitif de
lindividu singulier qui a pass le WISC-III.
Nous traiterons principalement dans cette partie de linterprtation des
indicateurs quantitatifs. Dans le cas du WISC-III, comme dans le cas
des autres chelles de Wechsler, cette phase dinterprtation des rsultats
est relativement complexe de par la multiplicit des indicateurs et leur
signification. Le praticien trouvera dans le manuel des indications assez
sommaires sur le processus dinterprtation des diffrents scores et nous
conseillons de complter ces informations par la lecture de louvrage de
Grgoire qui est plus complet sur ces aspects et qui propose, linverse du
manuel, des tudes de cas (Grgoire, 2000a).
Nous prsenterons ici uniquement les grandes lignes de cette phase
dinterprtation car cette partie, elle seule, mriterait un ouvrage particulier.
Le principe gnral danalyse des rsultats est le suivant : dbuter lanalyse
par lindicateur global defficience, en loccurrence ici le QIT, puis par
les indicateurs plus spcifiques (QIV, QIP et les Indices Factoriels) avant
danalyser les rsultats dans chaque subtest. Ce sera dailleurs, nous le verrons
plus loin, le principe gnral danalyse des autres chelles de Wechsler
(WISC-IV et WAIS-III).
Lobjectif gnral est de reprer quels sont les points forts et les points
faibles du sujet examin et, si possible, dmettre quelques hypothses sur
les spcificits ventuelles de son fonctionnement intellectuel.
Nous pouvons dailleurs esprer que ce travail dinterprtation des rsultats
du WISC-III, la fois riche et complexe, fasse lobjet dune relle formation
dans le cadre des tudes de psychologie. Formation qui sera progressivement
complte par lexprience acquise tout au long de lactivit professionnelle,
133
les stages de formation continue, les changes avec dautres praticiens. Cest
ainsi que va se dvelopper la comptence du psychologue dans ce domaine.
tape 1 : analyse du Q.I. Total (QIT)

La notion de Q.I.
Commenons par rappeler que le Q.I. est un indice de la position des

performances1 du sujet par rapport aux performances des sujets de mme
ge. Cet indicateur se distribue selon la courbe de Gauss, avec une moyenne
de 100 et un cart-type de 15. Une classification des valeurs des Q.I. a t
propose dans le chapitre 2 de ce livre (tableau 2.8) . Nous retrouvons dans
le manuel du WISC-III une classification analogue allant de la catgorie
retard mental pour des Q.I. infrieurs 69 la catgorie trs suprieur
pour des Q.I. suprieurs 130. Bien entendu, comme nous lavons dj
signal, il convient dentourer le QIT observ dun intervalle de confiance
dans lequel va se trouver le score vrai du sujet.
Le tableau 3.9 reprend les catgories utilises dans le manuel du WISC-III.
Tableau 3.9
Classification des Q.I. au WISC-III C (daprs Wechsler, 1996).
Q.I.
Classification
130 et plus
2,2 %
Trs suprieur
120-129
6,7 %
Suprieur
110-119
16,1 %
Normal fort
90-109
50 %
Moyen
80-89
16,1 %
Normal faible
70-79
6,7 %
Limite
69 et moins
2,2 %
Retard mental
Nous pouvons remarquer dans ce tableau que les catgories extrmes sont
dfinies par rapport un seuil statistique :
Moyenne plus deux carts type2 , pour le seuil infrieur de la catgorie
trs suprieure ;
1. Performance ici est comprendre dans son sens large et non pas en lien avec lchelle de
Performance.
2. 100 + (2x15) = 130
134
Moyenne moins deux carts types1 , pour le seuil suprieur de la
catgorie retard mental.

Ces deux catgories ne sont donc pas dfinies par un type particulier
de fonctionnement cognitif, mais par une proportion de population (en
loccurrence ici 2,2 % pour chaque groupe). En dautres termes, les seuils
adopts ici, et particulirement ceux relatifs ces deux catgories extrmes,
mme sils sont, comme nous le verrons plus loin, repris et utiliss dans les
pratiques dvaluation sont finalement assez arbitraires car ils ne reposent
pas sur une limite identifie entre deux types diffrents, ou deux niveaux
distincts, de fonctionnement cognitif.
Par exemple, dans le cas de la prise en compte dun QIT de 130 comme
seuil au-del duquel la personne sera considre comme surdoue , Lautrey
indique bien que ce seuil na aucune vertu particulire (Lautrey, 2004,
p. 227). Nous pourrions faire la mme analyse propos du seuil partir
duquel est dfinie la catgorie retard mental .
Cependant, ces seuils et les dnominations correspondantes sont, dans la
pratique, largement utiliss et permettent dinterprter de manire qualitative
des rsultats quantitatifs.
Le praticien dispose galement dans le manuel du WISC-III de donnes
plus prcises indiquant, pour chaque valeur de Q.I. le rang percentile
correspondant (Wechsler, 1996, p. 251-254). Ces informations vont
permettre de situer trs prcisment une valeur observe de QIT.
Exemple
Prenons un sujet obtenant un Q.I.T de 112.
Une premire tape consiste entourer cette valeur dun intervalle de
confiance : un QIT de 112 correspond lintervalle de [106-117] au seuil .10.
Une deuxime tape consiste situer le QIT dans la classification propose : le
sujet peut ici tre catgoris dans la classe moyen si on se base sur la limite
infrieure de cet intervalle (106), mais il serait class en normal fort , si on
se base cette fois sur le QIT de 112 ou sur la limite suprieure de lintervalle de
confiance (117).
Enfin, la rfrence au rang percentile nous permet de situer plus prcisment le
niveau de performance observ : un QIT de 112, correspond le rang percentile
79, ce qui signifie que 79 % des sujets obtiennent un QIT infrieur ou gal
112 (Wechsler, 1996, tableau A.4, p. 254).
Autrement dit, seulement 21 % des sujets du mme ge obtiennent un QIT
suprieur au QIT observ ici (112).
1. 100 (2x15) = 70
135
Que reprsente le Q.I.T ?
Linterprtation de lindicateur principal du WISC-III est rapprocher des

principes de construction de ce test et des conceptions sous-jacentes de
lintelligence de Wechsler. Ce Q.I.T est donc un indice dune intelligence
globale, dune capacit gnrale dadaptation, value travers un ensemble
de tches varies (les subtests), chacune faisant appel un ensemble
daptitudes diverses. Il faut alors comprendre ce Q.I.T comme tant la
rsultante dun grand nombre de facteurs.
Le Q.I.T peut tre considr comme un indice proche, bien quun peu
plus complexe, du facteur g de Spearman (Grgoire, 2000a).
Nous pouvons finalement retenir que cet indicateur QIT reflte le niveau
global de fonctionnement intellectuel dun individu.
Rappelons que le Q.I., et spcialement ici le Q.I.T, est souvent utilis
comme prdicteur de russite. En effet :
Le QI est un des meilleurs prdicteurs de la russite des apprentissages et
des performances professionnelles. Aucune autre mesure du fonctionnement intellectuel na pu, ce jour, offrir une validit prdictive suprieure.
(Grgoire, 2004, p. 83)
Nous garderons cependant lesprit que, mme si le Q.I.T est un bon

reprsentant de ce qui est communment appel l intelligence , compte
tenu du nombre limit des situations dvaluation retenues1 (mme si elles
sont varies) il ne rend pas obligatoirement compte de tous les aspects2
de lintelligence, notamment de ce que Wechsler appelle les facteurs
non intellectuels de lintelligence (voir chapitre 1) et dont il souligne
limportance (Grgoire, 2000a ; Loarer, 2006).
Q.I.T et diagnostic
Le Q.I.T est souvent utilis, nous lavons dj soulign, comme critre de

diagnostic pour reprer un retard mental ou, linverse, une prcocit
intellectuelle . Cest en particulier lpreuve la plus utilise comme rfrence
dans les commissions administratives destines orienter les lves en grande
difficult vers les structures de lenseignement spcialis (voir chapitre 8 de
ce livre).
Concernant le diagnostic de retard mental (comme dj indiqu, cf.
tableau 3.9), cette catgorie concerne les sujets pour lesquels un score QIT
1. Limite de tout test.

2. Ces limites sont signales ds les premires pages du manuel du WISC-III.
136
maximum de 69 a t observ, ce qui reprsente environ 2,2 % dune classe

dge.
Rappelons que ce seuil est conventionnel et ne repose pas sur une dfinition
prcise de cette catgorie en termes de fonctionnement cognitif1 . La
prudence simpose donc et le psychologue doit, avant de poser un tel
diagnostic, dune part, prendre en compte lerreur de mesure, dautre
part, complter cet indicateur QIT par dautres informations concernant
les capacits cognitives du sujet.
Nous rapprochons dailleurs cette ncessaire prudence dans le diagnostic
de retard mental, avec les volutions terminologiques dans la dnomination des scores trs faibles (scores infrieurs 69) entre la version WAIS-R
qui utilisait le terme de dficient mental et les versions WAIS-III et
WISC-IV, plus rcentes, qui prfrent utiliser le terme de trs faible .
Ce changement de dnomination, comme nous lavons dj voqu
dans le chapitre 2, a t adopt afin dviter quun Q.I. trs faible ne
soit considr comme un indice suffisant pour tablir le diagnostic de
dficience mentale.
Concernant le diagnostic de prcocit intellectuelle, on peut remarquer que
ce terme nest pas utilis dans la classification des rsultats au WISC-III. Pour
des Q.I. gaux ou suprieurs 130, seuil qui correspond habituellement
au seuil conventionnel utilis pour reprer une prcocit intellectuelle
(Lautrey, 2004) et qui reprsente environ 2,2 % dune classe dge2 , les
auteurs du manuel du WISC-III utilisent le terme de trs suprieur (voir
tableau 3.9).
Nous devons cependant signaler que ce seuil de 130 ne fait pas lobjet
dun consensus, selon les auteurs, ce seuil peut varier de 120 140,
voire plus (Caroff, 2004, p. 238). Effectivement, et nous lavons dj
indiqu, il nexiste pas de seuil prcis permettant didentifier formellement
un fonctionnement mental qualitativement suprieur ou diffrent. Ainsi :
Ce seuil na aucune vertu particulire et compte tenu de la nature
conventionnelle de la dfinition, les discussions sur la proportion denfants
surdous dans la population ou sur la vraie valeur du QI partir de
1. Par exemple, rien ne distingue fondamentalement un fonctionnement cognitif qui aboutirait un
QIT de 68, donc situ en dessous du seuil de .69/.70 dun fonctionnement cognitif correspondant
un QIT de 72, situ lui au dessus de ce seuil.
2. Cest dailleurs la catgorie symtrique la catgorie retard mental que nous venons de prsenter.
137
laquelle on peut considrer quun enfant est surdou (135 ? 150 ?) sont
dnues de sens. (Lautrey, 2004, p. 227).
De plus, la seule valeur du QIT nest pas suffisante car il convient

danalyser plus prcisment comment ce score a t atteint. Ainsi, un QIT
lev mais obtenu avec une diffrence importante entre QIV et QIP, au
bnfice du QIV, nest pas obligatoirement un indice fiable de prcocit
intellectuelle car ce score lev dans lindicateur QIV peut ventuellement
rsulter dun effet de surentranement ou de sur-stimulation du milieu,
notamment du milieu familial.
Avant de porter un diagnostic de prcocit intellectuelle il faut donc,
comme dans le diagnostic de retard mental, complter le score de QIT
par la prise en compte dautres lments dinformation sur le sujet, le
QIT ntant alors que lun des critres disponibles pour porter un tel
pronostic. Par exemple, Ziegler et Raul (cits par Caroff, 2004, p. 235)
ont isol quatre catgories de critres complmentaires au traditionnel
critre de Q.I :
les performances scolaires,

les dimensions de la personnalit,
la crativit,
les intrts.
Le lecteur intress par cette problmatique de prcocit peut consulter

la revue de questions, coordonne par Jacques Lautrey, qui a donn lieu
un numro spcial de la revue Psychologie Franaise (Lautrey, 2004b) ainsi
que louvrage de Lubart (2006).
tape 2 : analyse du QIV et du QIP

Lanalyse du QIT va ensuite tre complte par ltude du profil global
des rsultats. On regardera en particulier si ce profil est homogne (faible
diffrence entre QIV et QIP) ou htrogne (diffrence plus importante
entre ces deux Q.I.).
Le premier problme rencontr dans cette analyse est relatif aux seuils de
diffrences : partir de quelle valeur peut-on considrer que la diffrence
entre ces deux Q.I. mrite notre attention et notre analyse ?
138
Lapproche prconise par le manuel est de sappuyer sur la notion de

diffrence significative et de proposer alors, pour chaque classe dge, les
valeurs minimales de diffrences entre QIV et QIP aux seuils de signification
de .15 et .05 (Wechsler, 1996, tableau B.1, p. 261).
Nous pensons, comme Grgoire (2000a), que lon peut plus simplement
considrer quune diffrence de 12 points entre QIV et QIP est suffisamment
importante pour mriter une analyse. Ce seuil est prendre avec souplesse et
une diffrence plus faible, de 10 ou de 11 points par exemple, peut galement
tre commente mais avec plus de prudence dans son interprtation.
Un second problme concerne la signification de cette diffrence. Nous
pouvons dj indiquer quune diffrence de score entre QIV et QIP
correspond au fonctionnement cognitif normal (non pathologique). Le
manuel fournit dailleurs les pourcentages observs pour chaque valeur
de diffrences et, fait qui pourrait sembler surprenant, aucun sujet de
lchantillon ne prsente un QIV strictement gal au QIP (Wechsler, 1996,
tableau B.2, p. 262). Au contraire, on observe une diffrence de 11,3 points
en moyenne entre ces deux Q.I., avec des proportions non ngligeables de
sujets prsentant des diffrences plus importantes. Par exemple, 16 % des
sujets (soit prs dun sujet sur six) prsentent une diffrence dau moins
20 points entre QIV et QIP. Contrairement sans doute aux conceptions de
nombre de praticiens (Grgoire, 2000a), la rgle gnrale est bien dobserver
une diffrence entre QIV et QIP, et non pas dobserver un profil plat ,
cest--dire une absence de diffrence entre ces deux indicateurs. Autrement
dit, une diffrence dune dizaine de points entre QIP et QIV est donc
assez frquente, et avant de commenter toute diffrence observe entre
ces deux indicateurs il est conseill de se reporter aux donnes du manuel
afin destimer la singularit du profil. Ainsi ce nest qu partir dune
diffrence QIV/QIP suffisamment importante, et suffisamment rare, que
lon pourra ventuellement envisager lexistence dun rel trouble de type
dysfonctionnement cognitif .
En rsum
Si le profil du sujet est homogne, avec une faible diffrence entre QIV
et QIP, linterprtation des rsultats portera sur le QIT, les deux Q.I.
spcifiques tant alors considrs comme quivalents cet indice global.
Si le profil est plus htrogne, avec une diffrence suprieure 12 points
entre QIV et QIP, il sera alors pertinent dinterprter sparment chaque
139
Q.I. car le dcalage observ peut reflter une relle diffrence defficience
entre les deux aspects de lintelligence valus par ces deux chelles.
lextrme, une diffrence trop importante entre ces deux Q.I. retirerait
toute validit linterprtation du Q.I.T.
Que reprsentent le QIV et le QIP ?
Il faut ici se rappeler les bases de la construction du WISC : le QIV a t

labor pour tre une mesure de lintelligence verbale, le QIP comme une
mesure de lintelligence non verbale (et/ou comme une mesure non verbale
de lintelligence).
On peut aussi considrer le QIV comme une estimation de lintelligence
cristallise, le QIP tant lui plus proche de lintelligence fluide. Mme
si le recouvrement entre ces diffrentes notions nest pas parfait, une
quivalence approximative nest pas absurde (Grgoire, 2000a, p. 51).
partir de ces informations, linterprtation de la diffrence QIV/QIP
dpendra, bien sr de son importance, mais galement de son sens afin de
dterminer, parmi ces deux grandes dimensions de lintelligence, quelle est
celle qui semble, chez un sujet donn, plus efficiente. Bien entendu, comme
pour le QI.T, lutilisation dun intervalle de confiance pour chaque Q.I.
sera prfrable lutilisation dune estimation ponctuelle.
tape 3 : Analyse des rsultats aux diffrents subtests (analyse du scatter)

La troisime tape de lanalyse consiste reprer les rsultats du sujet dans
chaque subtest de manire construire son profil de notes standard. Ce
profil, sous forme de graphique, figurera dailleurs en premire page du
protocole du sujet. Lobjectif gnral ici est de reprer les points forts et
les points faibles du sujet et de tenter de les expliquer. Pour ce processus
danalyse on utilise le terme danalyse de scatter (en franais : analyse de la
dispersion).
Comme dans ltape prcdente, lanalyse va porter sur la variabilit du
profil, mais ici il ne sagit plus danalyser la diffrence entre QIV et QIP
mais danalyser les diffrences entre toutes les notes standards lintrieur
de chaque chelle. En effet, un sujet peut prsenter un profil de notes assez
homogne, avec un niveau de russite comparable travers les diffrents
subtests, ou au contraire, prsenter un profil plus htrogne avec des
subtests particulirement chous et dautres, au contraire, particulirement
russis. Dans le second cas, une telle variabilit des rsultats est alors souvent
considre comme lindicateur dun fonctionnement cognitif singulier.
140
Pour pouvoir interprter ces ventuelles variations, on dispose ici de deux

types de rfrences :
Une rfrence interindividuelle : il sagira ici de situer le score observ
chaque subtest par rapport la valeur moyenne de 10 (comparaison des

rsultats du sujet au niveau moyen de russite observ dans la population
de rfrence) ;
Une rfrence intra-individuelle : il sagira ici de situer chaque score par
rapport la moyenne individuelle du sujet (moyenne propre du sujet
calcule partir de ses diffrentes notes standard).
Ces deux analyses demandent tre confrontes car il faut la fois situer
le niveau de performance du sujet par rapport aux sujets de mme ge, et
reprer ses propres points forts et ses points faibles.
Exemple
Prenons le cas dun sujet qui a un QIT assez lev, avec une moyenne
individuelle de 13 sur lensemble des subtests.
Un score de 11 un subtest sera alors peru comme un subtest relativement chou (comparaison ici intra-individuelle par rapport sa moyenne
personnelle de 13) mais il ne faut pas oublier que cet chec est relatif
car il correspond en ralit un score plus lev que la moyenne des sujets
(comparaison ici interindividuelle par rapport la moyenne de 10).
Dans linterprtation du scatter il faudra toujours articuler ces deux types

de comparaisons.
Pour la comparaison interindividuelle, il faut se rappeler que les notes
standards varient de 1 19, avec une moyenne de 10 et un cart-type de 3.
On peut donc considrer les scores suprieurs 13 (seuil qui correspond la
moyenne + un cart-type) comme levs, et les scores infrieurs 7 (moyenne
un cart-type) comme faibles. Les valeurs extrmes, correspondant des
notes dviant dau moins deux carts type, pouvant tre alors qualifies
respectivement de trs leves et de trs faibles
Le tableau 3.10 prsente cette proposition de catgorisation des notes
standard.
Pour la comparaison intra-individuelle, il est galement prconis de
vrifier si la diffrence observe entre les subtests, ou entre les subtests et la
moyenne du sujet, est suffisamment importante pour justifier une analyse.
Grgoire propose ainsi la notion de note dviante pour dfinir les notes
qui scartent significativement de la moyenne du sujet (Grgoire, 2000a).
Quelle que soit la modalit de comparaison, il convient de se rappeler que
la fiabilit des interprtations dune note isole est limite. Il est prfrable
141
Tableau 3.10
Proposition de classification des notes standard au WISC-III.
Notes
standard
13
46
7 13
14 16
17 19
Classification
Note trs
faible
Note faible
Note
moyenne
Note leve
Note trs
leve
Rpartition
thorique
2,2 %
13,4 %
68,8 %
13,4 %
2,2 %
Remarque : Ce tableau ne figure pas dans le manuel du WISC-III : il sagit dune proposition de notre
part, qui sappuie sur des seuils statistiques et sur des propositions de Grgoire (Grgoire, 2004, p. 217).
de privilgier la prise en compte dun ensemble plus vaste de subtests. En

effet, rappelons que du fait de la conception assez empirique du WISC-III,
chaque subtest ne mesure pas une et une seule aptitude, mais fait appel un
ensemble plus vaste de capacits. Do la difficult interprter de faon
univoque un chec un subtest isol. Par contre, en analysant un ensemble
de scores, en regroupant par exemple les subtests chous, on peut alors
rechercher une ventuelle cause commune qui expliquerait ces checs.
Dans cette analyse, le praticien peut utiliser la grille daide linterprtation des scores qui a t propose par Grgoire (Grgoire, 1996).
Cette grille se prsente sous la forme dun tableau double entre
avec, en colonne, les subtests du WISC-III et, en ligne, des facteurs
cognitifs (aptitudes ou processus) censs intervenir dans tel ou tel subtest.
Vingt-huit facteurs cognitifs sont ainsi proposs par lauteur. Par exemple, le
facteur dpendance/indpendance lgard du champ (DIC) intervient
principalement, daprs cette grille, dans trois subtests : mmoire, cubes et
assemblages dobjets. Un chec combin dans ces trois subtests pourrait alors
sexpliquer (ce nest quune hypothse) par leffet de ce facteur.
Cette grille peut ainsi fournir au praticien des pistes explicatives des
russites et des checs des sujets. Bien entendu, cette grille ne doit pas tre
utilise de manire mcanique et le psychologue devra toujours formuler ses
interprtations en termes dhypothses, quil conviendra de confirmer ou
dinfirmer par des observations et examens complmentaires.
Mme avec laide de cette grille, linterprtation de la dispersion des scores
(ou analyse du scatter) est une tche complexe. Lexplication de certains
rsultats peut chapper au psychologue qui doit faire preuve de prudence et
dhumilit :
142
Il peut arriver que le sens de certaines dispersions de notes standard nous

chappe. Il vaut alors mieux faire aveu dignorance plutt que de se lancer
dans des affirmations sans fondements. Grgoire (2000a, p. 222-223).
Le psychologue doit en effet toujours tayer ses rflexions et ses

interprtations sur des lments fiables et identifis du protocole du sujet.
Dautres approches danalyse du scatter existent, la plus connue tant
celles de Bourgs (1979) mais elle a t labore partir de la version
prcdente (WISC-R). On peut galement signaler les propositions plus
rcentes de Arbisio (2003) qui se situent plutt dans le cadre dune approche
psychanalytique.
tape 4 : Interprter les Indices Factoriels ?

Le lecteur attentif aura remarqu ici le point dinterrogation. En effet, pour
cette version WISC-III, nous avons dj signal nos rserves sur lintrt
de ces Indices Factoriels et sur les limites de leur fiabilit. En effet, comme
nous lavons dj indiqu, lindice ICV est trs proche du QIV, lindice IOP
tant lui trs proche du QIP, on peut donc raisonnablement sinterroger sur
les informations spcifiques apportes par ces deux nouveaux indices.
Nous avons galement apport des lments critiques sur les modalits de
calcul de ces Indices. Enfin, nous avons dj soulign la fiabilit insuffisante
de lindice IVT. Cette faiblesse a dailleurs galement t releve par
Grgoire qui prne une certaine prudence dans linterprtation de cet indice
IVT (Grgoire, 2000a, p. 115).
En outre, le psychologue qui souhaiterait nanmoins interprter ces
Indices Factoriels trouvera dans le manuel du WISC-III assez peu dinformation ce sujet, ce que lon peut regretter. Rappelons que ces indices
sont exprims dans la mme mtrique que les Q.I. (moyenne de 100 et
cart-type de 15) et que lon peut donc leur appliquer les mmes principes
de classification qui permettent de situer globalement le niveau de russite
du sujet (voir tableau 3.9).
Une version abrge du WISC-III
On peut signaler quil existe une version abrge du WISC-III, version qui
ne figure pas dans le manuel, et qui a t propose par Grgoire (Grgoire,
2000a). Cette version rduite a t labore dans lobjectif de fournir aux
praticiens une preuve plus rapide faire passer, tout en tant suffisamment
143
fiable, qui puisse convenir dans certaines situations dvaluation. Pour

constituer cette preuve, Grgoire a slectionn les deux subtests les plus
reprsentatifs de chaque chelle (les plus saturs avec le Q.I. de lchelle),
ce qui donne au final une version abrge comportant seulement quatre
subtests (vocabulaire, similitude, cubes, arrangement dimages) et ne ncessitant
quenviron trente minutes de passation. partir de la somme de ces quatre
notes standard, il est possible de calculer un indice de type Q.I. grce aux
donnes fournies par lauteur (Grgoire, 2000a, p. 125).
Bien entendu, cet indicateur, bas sur seulement quatre subtests, prsente
une fiabilit plus faible, bien que correcte, que le Q.I.T calcul sur lensemble
des subtests du WISC-III. Cest pour cette raison que Grgoire prne la
prudence dans lutilisation de cette forme (Grgoire, 2000a, p. 126).
Conclusion sur le WISC-III
Le WISC-III, chelle composite dintelligence pour enfants, propose une

valuation des performances du sujet travers des situations varies (les
diffrents subtests), faisant ou non appel au langage (do la distinction
entre une chelle verbale et une chelle de performance). Il sagit dune
preuve individuelle, base sur une approche globale de lintelligence, dont
les indicateurs principaux sont exprims sous la forme de trois Q.I. : QIT,
QIV et QIP.
Les donnes du manuel concernant les qualits psychomtriques du
WISC-III sont nombreuses et tmoignent dune validation rigoureuse de ce
test. Le praticien dispose galement de trois Indices Factoriels (ICV, IOP
et IVT) qui nous semblent, en ltat actuel, apporter peu dinformations
supplmentaires par rapport aux indices classiques QIV et QIP.
Comme toute preuve individuelle, le temps de passation est important,
de mme que le temps ncessaire linterprtation des rsultats. En effet,
une analyse fine des russites et des checs du sujet est possible par la
mthodologie danalyse de scatter (analyse de la dispersion des rsultats du
sujet), analyse qui vient enrichir le simple constat du niveau de performance
estim par les Q.I.
Comme nous lavons indiqu en introduction, cette version WISC-III est
remplace depuis 2005 par le WISC-IV, version que nous allons maintenant
prsenter.
144
3.
Le WISC-IV
Cette quatrime version de lchelle de Wechsler pour enfant a t dite en
2003 aux tats-Unis et adapte en France en 2005. Elle remplace donc la
version WISC-III que nous venons de prsenter.
Pourquoi une nouvelle version du WISC ?
Nous avons dj indiqu les raisons pour lesquelles il est ncessaire de

procder rgulirement des rnovations dpreuve, lune des principales
tant la ncessit de disposer de normes rcentes (talonnages) afin de tenir
compte de lvolution des scores dans les tests dintelligence (effet Flynn).
Rappelons ce propos que ltalonnage du WISC-III datait de 1996, et
quil tait justifi alors, dix ans plus tard, de procder ltablissement de
nouvelles normes. Mais cette ractualisation des normes ne reprsente que
lune des raisons de llaboration de cette nouvelle version WISC-IV. Plus
prcisment, les auteurs distinguent ici cinq objectifs principaux cette
rnovation :
Une actualisation des fondements thoriques ;
Une extension des applications cliniques ;
Une meilleure adquation dveloppementale ;
Une amlioration des proprits psychomtriques ;
Une augmentation de la convivialit (WISC-IV, manuel dinterprtation,
p. 8).
Mais comme nous le dtaillerons dans ce chapitre, les diffrences apportes
avec la version WISC-IV sont si nombreuses que lon peut parler de
mtamorphoses, pour reprendre lexpression de Grgoire (Grgoire, 2005),
voire mme sinterroger sur les liaisons existantes entre cette version et
lapproche originelle de Binet (Rozencwajg, 2006).
Quelles sont les principales modifications entre la version WISC-III et la
version WISC-IV ?
Globalement, on peut situer ces diffrences plusieurs niveaux : au niveau
des subtests, au niveau de la passation, au niveau des indicateurs et enfin au
niveau des rgles gnrales dinterprtation.
145
Modifications des subtests

Cette version WISC-IV comporte 15 subtests : 10 sont repris de lancienne
version WISC-III et cinq sont de nouveaux subtests (le plus souvent
adapts des autres chelles de Wechsler : WPPSI-III et WAIS-III). Les
subtests conservs ont fait lobjet de modifications : nouveaux items, rgles
dadministration et/ou de cotation, passation optionnelle...
Les 15 subtests seront prsents plus loin.
Modifications au niveau de la passation

Certains subtests sont maintenant optionnels : dans cette version WISC-IV
on distingue ainsi des subtests principaux et des subtests supplmentaires.
Les subtests principaux sont ncessaires pour calculer les indicateurs
du test, dont le QIT, les subtests supplmentaires servant alors au calcul
dindicateurs supplmentaires, appels notes additionnelles et/ou au
remplacement de certains subtests obligatoires. Le praticien doit donc
dcider, avant ou au moment de la passation, des indicateurs quil souhaite
recueillir afin de prsenter au sujet les subtests correspondants.
Modifications par rapport la prise en compte de la vitesse de ralisation des

tches
Cette version WISC-IV contient moins de situations donnant lieu des

bonifications en fonction des temps de passation : seulement trois subtests
sont concerns maintenant par cette possibilit de bonification.
Modifications des indicateurs

Il sagit l sans doute de lune des principales modifications et en tout cas de
la plus apparente apporte dans le WISC-IV : le Q.I. Total est conserv mais
le Q.I. Verbal et le Q.I. Performance sont supprims ! Les modifications
touchent galement les Indices factoriels : ils taient au nombre de trois dans
le WISC-III (ICV, IOP et IVT) ils sont maintenant quatre et portent des
appellations diffrentes (voir plus loin). Le fondement de ces volutions tient
la volont des auteurs du WISC-IV de chercher rapprocher ce qui est
valu par le WISC des aptitudes et processus cognitifs mis en vidence dans
les modles thoriques les plus actuels (en particulier le modle hirarchique
propos par Caroll que nous avons prsent chapitre 1).
146
Les quatre indices factoriels, nomms aussi notes composites , valuent

chacun lun des aspects principaux du fonctionnement cognitif du sujet :
Indice de Comprhension Verbale (ICV),

Indice de Raisonnement Perceptif (IRP),
Indice de Mmoire de Travail (IMT),
Indice de Vitesse de Traitement (IVT).
Que reprsentent ces nouveaux indices ? Alors que lon peut tre tent
de rapprocher ces nouveaux indices des anciens indicateurs du WISC III la
vigilance est de mise : ce rapprochement est valide pour certains dentre eux
mais pas pour tous, comme nous le verrons plus loin.
Modifications des rgles gnrales dinterprtation des rsultats du sujet

Dans le chapitre concernant le WISC-III, nous avons dtaill les rgles
gnrales dinterprtation des scores, et indiqu que celles-ci reposaient
essentiellement sur linterprtation de lcart ventuel entre QIP et QIV.
Bien entendu ici, du fait de la disparition de ces deux indicateurs, il nest
plus possible de procder ces comparaisons. Nous prsenterons en dtail
les rgles dinterprtation qui sont conseilles pour le WISC-IV.
Historique
Le WISC - IV est donc la version la plus rcente ce jour de lchelle
dintelligence de Wechsler pour enfant (Wechsler Intelligence Scale for
Children), dite en 2003 aux tats-Unis et adapte en 2005 en France par les
ECPA. Il sagit dune preuve individuelle de type chelle de dveloppement.
Elle est utilisable pour des enfants gs de 6 16 ans 12 .
Le matriel
Tout le matriel est regroup dans une mallette (matriel de passation, de
cotation, manuels...). Le psychologue dispose ici de deux manuels :
lun est consacr lensemble des rgles de passation et de cotation
(WISC - IV. Manuel dadministration et de cotation, Wechsler, D.,
2005a). Nous lappellerons manuel 1 ;
147
lautre prsente les qualits psychomtriques de lpreuve et linterprtation des rsultats (WISC-IV. Manuel dinterprtation, Wechsler, D.,
2005b). Nous lappellerons manuel 2 ).
Les subtests
Sur les 15 subtests de lpreuve, 10 seulement sont obligatoires pour calculer
les indicateurs principaux de lpreuve (le QIT et les quatre notes composites).
Cinq subtests sont ainsi optionnels (notes additionnelles), destins fournir
des informations supplmentaires (en fonction des objectifs du psychologue),
et ventuellement mesurer un indice spcifique dans le cas du subtest
Barrage. Ces subtests optionnels peuvent, dans certains cas, remplacer des
subtests obligatoires dont les rsultats ne seraient pas valides.
Les auteurs du manuel conseillent ainsi de faire passer systmatiquement
les subtests Arithmtiques et Barrages (manuel 1, p. 27), ce qui fait au final
12 subtests faire passer.
Nous allons prsenter les subtests partir de leur indice de rattachement
(note composite).
Les subtests de lIndice de Comprhension Verbale (ICV)
Similitudes : directement issu du WISC - III ce subtest consiste trouver
en quoi deux notions (ou deux objets) se ressemblent (chercher les

similitudes) (23 items, dont 15 nouveaux) ;
Vocabulaire : subtest classique du WISC dans lequel lenfant doit indiquer
la dfinition de mots (36 items, dont 27 nouveaux) ;
Comprhension : issu lui aussi du WISC - III ce subtest value la capacit
de lenfant expliquer des situations de la vie courante (21 items dont
13 nouveaux) ;
Information : subtest obligatoire dans le WISC - III il devient ici lun des
subtests optionnels de lchelle. Dans ce subtest lenfant doit rpondre
des questions de connaissances (33 items, dont 19 nouveaux) ;
Raisonnement verbal : second subtest supplmentaire cest galement
un nouveau subtest dans lequel il sagit de rpondre des devinettes
(24 items).
Lindice ICV est donc constitu de trois subtests principaux et de deux

subtests supplmentaires, dont lun est entirement nouveau (Raisonnement
verbal).
148
Les subtests de lIndice de Raisonnement Perceptif (IRP)

Cubes : subtest classique des chelles de Wechsler dans lequel lenfant
doit reproduire une configuration gomtrique laide de cubes bicolores

(14 items, dont 3 nouveaux) ;
Identification de concepts : nouveau subtest dans lequel lenfant doit
choisir une image afin de constituer un groupement autour dun concept
commun (28 items) ;
Matrices : nouveau subtest de type matrice analogique, adapt de la
WAIS-III, et proche des tests de type facteur g (35 items) ;
Compltement dimages : ce subtest qui tait obligatoire dans le WISCIII devient ici supplmentaire. Lenfant doit indiquer, ou nommer, la
partie manquante dun objet reprsent par une image (38 items, dont
13 nouveaux).
Lindice IRP est donc constitu de trois subtests principaux et dun subtest
supplmentaire.
Les subtests de lIndice de Mmoire de Travail (IMT)
Mmoire de chiffres : subtest issu du WISC-III, dont la tche consiste ici
rpter une suite de chiffres. On peut remarquer que ce subtest, optionnel

dans le WISC-III, devient ici obligatoire. Ce subtest est organis en deux
sries : ordre direct et ordre inverse (8 items dans chaque srie) ;
Squence Lettres-Chiffres : nouveau subtest, compos comme son nom
lindique de lettres et de chiffres, et adapt de la WAIS-III, dans lequel
le psychologue lit une squence au sujet qui doit ensuite restituer les
chiffres, puis les lettres (10 items) ;
Arithmtiques : subtest obligatoire du WISC-III, il devient ici supplmentaire. Il sagit de traiter mentalement des petits problmes arithmtiques
(34 items dont 24 nouveaux).
Lindice IMT est donc constitu de deux subtests principaux et dun
subtest supplmentaire.
Les subtests de lIndice de Vitesse de Traitement (IVT)
Code : subtest issu du WISC-III dans lequel lenfant doit copier des
symboles associs des figures gomtriques. En fonction de lge du

sujet deux formes existent : code A et code B ;
Symboles : galement issu du WISC-III, mais avec ici un statut de subtest
obligatoire, la tche consiste indiquer si un symbole propos correspond
lun des symboles cibles. Deux formes galement ici en fonction de
lge de lenfant : symbole A et symbole B ;
149
Barrage : subtest nouveau et optionnel dans lequel lenfant doit barrer
des images cibles.

Lindice IVT est donc constitu de deux subtests principaux et dun
subtest supplmentaire.
Par rapport au WISC-III, les changements relatifs aux subtests sont donc
trs nombreux :
1. Apparition de nouveaux subtests ;
2. Disparition de certains subtests (en particulier Arrangements
dimages et Assemblages dobjets) ce qui diminue fortement le nombre
de subtests qui reposent sur une manipulation concrte de matriel
(il ne reste que le subtest cubes) ;
3. Ajout ou changement ditems aux anciens subtests (parfois en
proportion trs importante) ;
4. Changement de statut (obligatoire ou optionnel) de certains subtests ;
5. Regroupement des subtests en quatre indices (ou notes composites),
et disparition des chelles verbale et performance.
Ces modifications ne sont pas sans consquences sur ce qui est valu par
le WISC-IV (Grgoire, 2005 ; Rozencwajg, 2006).
Standardisation
La passation
La passation est individuelle et ncessite un temps de passation compris
entre 1h15 et 1h45 en fonction du niveau de russite de lenfant.
La dure de passation peut galement varier, et ceci est nouveau, en
fonction des dcisions du psychologue. En effet, un certain nombre
de subtests sont optionnels et leur passation va dpendre des objectifs
du psychologue. Si celui-ci souhaite calculer uniquement les quatre
indices centraux du WISC-IV, la passation des 10 items principaux est
suffisante ; par contre, sil souhaite pouvoir calculer galement une, ou
des, note(s) additionnelle(s) alors la passation doit comprendre les subtests
supplmentaires correspondants.
Lordre de passation des subtests est codifi avec une alternance entre
diffrents types de tches.
150
La passation de chaque subtest dbute par des items-exemples, et se

poursuit en fonction de lge des sujets (rgles de dpart spcifiques chaque
subtest). Toutes les prcisions concernant les rgles de passation figurent
dans le manuel 1 (pages 65 203).
La cotation : les indicateurs de la performance du sujet

Les rgles gnrales de cotation du WISC-III sont reprises :
cotation en 0 ou 1 pour certains subtests ;
cotation plus fine en 0, 1 ou 2 pour dautres ;
bonification ventuelle selon la vitesse dexcution...
De mme est conserv le processus dlaboration des notes standard
(notes talonnes en rfrence aux enfants de mme ge) partir des scores
bruts du sujet. Rappelons que les notes standards de chaque subtest peuvent
varier de 1 19, avec une moyenne de 10 et un cart-type de 3. Cette
standardisation des notes rend directement possible les comparaisons du
niveau de performance du mme sujet sur des subtests diffrents (variations
intra-individuelles et analyse de scatter).
Le regroupement des subtests par chelle permet le calcul des quatre
indicateurs ICV, IRP, IMT et IVT, puis de lindicateur global QIT. Comme
dans le WISC-III tous ces indicateurs adoptent la mme mtrique : moyenne
de 100 et cart-type de 15.
Au final on dispose donc dune note (standard) pour chaque subtest et
dun score pour chaque indice.
Le tableau 3.11 permet de synthtiser la structure du WISC-IV.
Comme le montre ce tableau, le calcul de chaque note composite repose
sur un nombre limit de subtests (deux ou trois) alors que lindicateur global,
le QIT, prend en compte lensemble des 10 subtests obligatoires. Cet indice
est donc bien lindicateur le plus complet, et le plus fiable, de lpreuve
WISC-IV.
Les nouveaux indicateurs notes additionnelles sexpriment dans la
mme mtrique que les notes standards et permettent dobtenir des
informations plus prcises sur certaines aptitudes cognitives (voir plus loin).
151
Tableau 3.11
Rpartition des subtests sur les diffrents indicateurs du WISCIV.
Les indicateurs du WISC-IV
Les notes composites
ICV
IRP
IMT
IVT
Lindicateur
global :
QI T
Subtests
Similitudes
Vocabulaire
Comprhension
Information
(X)
(X)
Raisonnement verbal
(X)
(X)
Cubes
Identification de
Concepts
Matrice
Compltement
dimages
(X)
(X)
Mmoire de chiffres
Squence
Lettres-Chiffres
Arithmtique
Les notes
additionnelles
sans bonification
ordre direct
ordre inverse
(X)
(X)
Code
Symboles
(X)
(X)
Barrage
ordre alatoire
ordre structur
(Les parenthses signalent les subtests optionnels.)
Ltalonnage repose sur un chantillon de 1 103 enfants, gs de 6 16 ans,

reprsentatifs de la population franaise. Comme pour les autres chelles
de Wechsler, il faut souligner ici lattention apporte la constitution de
lchantillonnage de sujets avec contrle de diffrentes variables : profession
et CSP des parents, zone dhabitation, sexe et ge des enfants... Au final on
dispose dtalonnages par classes dges, avec des groupes dges de 4 mois
(voir annexe A du manuel 1).
152
Comme pour les autres chelles de Wechsler les indicateurs du niveau de

performance du sujet sont des scores talonns, avec une moyenne de 10
pour les notes standards de chaque subtest et une moyenne de 100 pour
les indicateurs principaux de lchelle. Le tableau 3.12 donne les valeurs
caractristiques de chaque indice.
Tableau 3.12
Valeurs caractristiques des indicateurs du WISC-IV.
Valeur
mini
Valeur
maxi
Moyenne
cart type
Notes standards
et notes additionnelles
19
10
Q.I.T
40
160
100
15
Notes composites : ICV, IRP, IMT,

IVT
50
150
100
15
Indicateurs
Le manuel 1 fournit galement les rangs percentiles et les intervalles de

confiance, pour les indicateurs factoriels et pour le QIT. Il est intressant
de consulter ces tables afin de situer plus prcisment les performances du
sujet : par exemple, il faut savoir quun QIT de 110 nest atteint (ou dpass)
que par seulement 30 % des enfants (voir galement le chapitre 2 ce livre
sur les talonnages de type Q.I.).
Les qualits psychomtriques
Nous reprendrons ici les indications du manuel concernant les qualits

psychomtriques du WISC-IV (sensibilit, fidlit et validit) en effectuant
des comparaisons avec lancienne version WISC-III.
Rappelons que la version originale, dite aux tats-Unis, a fait lobjet
dune validation et quil ne sagit donc ici que de vrifier les qualits
psychomtriques de ladaptation franaise sur lchantillon denfants
franais.
La sensibilit
Il faut ici distinguer deux aspects :
La sensibilit au sens classique du terme, cest--dire la capacit du
WISC-IV diffrencier des enfants du mme niveau dge ;
153
La sensibilit dveloppementale : les chelles de Wechsler tant des
chelles de dveloppement, il faut ici vrifier que le niveau moyen de

russite des items est bien ordonn selon lge moyen des sujets et permet
donc de diffrencier des enfants dge diffrents.
Pour le premier aspect de la sensibilit, les donnes du tableau 3.12
indiquent que cette sensibilit est assure au niveau de tous les indices.
Remarquons que lindice QIT, avec des valeurs possibles de 40 160,
permet, par rapport aux notes composites (ICV, IRP, IMT et IVT), une
diffrenciation plus fine des enfants situs dans les catgories extrmes. Les
notes standards, comme les notes composites, prsentent nanmoins un bon
niveau de sensibilit avec des valeurs schelonnant sur trois carts types de
part et dautre de la moyenne.
La fidlit
La fidlit, ou consistance interne a t value partir de la mthode
pair-impair. Les coefficients varient de .65 .86 pour les subtests, de .62
.82 pour les notes additionnelles et de .84 .89 pour les notes composites.
Cette fidlit est de .94 pour le QIT.
La fidlit temporelle a t value par la mthode test-retest sur un
chantillon de 93 enfants avec un intervalle moyen de 27 jours entre les
deux passations. Les valeurs sont globalement correctes avec des variations
de .64 .83 selon les subtests, de .78 .88 selon les notes composites et une
valeur de .91 sur le QIT (manuel 1, p. 34). On observe galement, et cest
attendu, des gains moyens entre les deux passations (effets dapprentissage).
La fidlit de la cotation sur les subtests verbaux a galement fait lobjet
dune valuation, avec des valeurs quasiment parfaites : .98 et .99.
Enfin, lerreur de mesure, inversement proportionnelle la fidlit du test,
a t value pour chaque type dindicateur. Exprime en unit dcart-type,
cette erreur-type de mesure varie pour les notes standards de 1,16 1,78,
de 4,98 6,01 pour les notes composites et elle est estime 3,63 pour le
QIT. partir de ces indications, il devient possible de calculer un intervalle
de confiance dans lequel doit se situer la note vraie du sujet. Comme pour
le WISC-III, les auteurs du manuel nous facilitent la tche en proposant
les valeurs de cet intervalle, pour les risques de 5 % et de 10 %, et pour
chaque indice (en annexe du manuel 1). Le praticien est dailleurs invit
faire figurer pour chaque score de lenfant un intervalle de confiance.
154
Lensemble des donnes concernant la fidlit du WISC-IV tmoigne

dun bon niveau de fidlit de lpreuve mais le praticien doit se rappeler
que le QIT est lindicateur qui prsente le meilleur niveau de fidlit et
que les scores aux indices composites sont plus fidles que les scores aux
subtests.
La validit
Rappelons que cest sans doute la qualit la plus importante dune preuve.
Il sagit ici danalyser les donnes qui justifient lutilisation du WISC-IV
comme mesure de laptitude intellectuelle. Dans un premier temps nous
analyserons les donnes concernant lanalyse de la validit du WISC-IV
comme mesure de lintelligence puis, dans un second temps, nous nous
intresserons la validit de la structure de lpreuve (la validit des diffrents
indicateurs du WISC-IV).
La validit du WISC-IV comme mesure de lintelligence
Bien que la validit des chelles de Wechsler soit atteste par un grand
nombre dtudes publies, il est normal que, lors de chaque rnovation
dpreuve, les auteurs apportent des lments de validation concernant
la nouvelle version. Ce sont ces lments que nous allons prsenter et
analyser. Comme nous lavons dj indiqu (voir le chapitre 2 de ce livre),
la validation est entendre comme un processus : les lments prsents
dans le manuel vont tre progressivement complts par les publications
dtudes sur cet instrument Nous nous centrerons ici principalement sur
les donnes concernant lchantillon franais. Une premire approche
consiste comparer le WISC-IV avec les autres chelles de Wechsler, une
seconde approche consistera analyser les liaisons existant avec dautres tests
dintelligence.
Corrlations avec le WISC-III
On attend des corrlations leves entre les deux versions de lpreuve mme
si, comme nous lavons dj signal, les diffrences sont nombreuses entre
WISC-III et WISC-IV. Ces deux tests ont t administrs 159 enfants. La
corrlation obtenue sur les QIT est de .78, valeur leve mais cependant
un plus faible que la corrlation qui avait t observe entre WISC-III et
WISC-R, qui tait de .88 (voir tableau 3.3). Cette baisse de corrlation
peut sexpliquer par les modifications importantes apportes au WISC-IV.
155
Malgr cela, la valeur leve de la corrlation indique que ces deux preuves
valuent bien le mme domaine : lintelligence dite globale.
Il est galement intressant dobserver les corrlations entre les diffrents
indicateurs de ces deux versions. Cest ce que nous permet le tableau 3.13.
Tableau 3.13
Corrlations entre WISC-IV et WISC-III (daprs le manuel 2).
WISC-IV
QI T
QI T
QI V
WISC-III
IOP
IVT
IRP
IMT
IVT
.82
QI P
ICV
ICV
.78
.62
.83
.60
.66
Que nous apportent ces valeurs ? Elles permettent destimer les relations
qui existent entre les indicateurs de la version WISC-III et les nouveaux
indicateurs (les notes composites) de la version WISC-IV. Par exemple,
lindicateur ICV du WISC-IV est, comme attendu, assez proche la fois du
QIV (r = .82) et de lICV (r = .83) du WISC-III. Par contre les liaisons entre
le nouvel indicateur IRP du WISC-IV et les indicateurs les plus proches du
WISC-III sont moins leves : .62 avec le QIP et .60 avec lindice IOP.
Ces observations confirment ici un point que nous avons dj voqu :
il ne faut pas chercher assimiler les indicateurs des deux versions et
principalement, on le voit ici, lindice IRP au QIP. En effet, et cest un
point que nous reprendrons, mme sil existe un assez large recouvrement
entre les deux indices, ce qui est valu par lindice IRP du WISC-IV ne
correspond quen partie ce qui tait valu par lindice QIP du WISC-III.
Corrlations avec la WPPSI-III
Rappelons que la WPPSI-III est lchelle dintelligence de Wechsler destine

aux enfants plus jeunes, gs de moins de 7 ans. Ces deux preuves ont t
administres 60 enfants gs de 6 7 ans. Les rsultats figurent dans le
tableau 3.14.
Les corrlations observes ici (de .69 .84) sont globalement du mme
niveau que celles qui avaient t observes entre le WISC-III et la WPPSI-R
(voir tableau 3.4) et tmoignent de la proximit de ce qui est valu par les
nouvelles versions de ces deux instruments.
156
Tableau 3.14
Corrlations entre WISC-IV et WPPSI-III (daprs le manuel 2).
WISC-IV
QI T
QI T
WPPSI-III
ICV
IRP
IMT
IVT
.84
QI V
.79
QI P
.72
QVT
.69
Corrlations avec la WAIS-III
Il sagit l encore de comparer les rsultats entre deux versions des chelles
de Wechsler mais cette fois pour les sujets les plus gs. Lchantillon est
compos ici de 55 sujets gs de 16 ans. La corrlation de .83 observe entre
les QIT (tableau 3.15) confirme galement que le WISC-IV value bien la
mme forme dintelligence que celle value par la WAIS-III.
Tableau 3.15
Corrlations entre WISC-IV et WAIS-III (daprs le manuel 2).
WISC-IV
QI T
QI T
QI V
ICV
ICV
IOP
IMT
IVT
IMT
IVT
.83
.81
QI P
WAIS-III
IRP
.74
.78
.78
.79
.64
Nous avons dj indiqu que la nouvelle structure du WISC-IV, avec

ses quatre notes composites, est trs proche de la version WAIS-III qui
contient galement quatre indices composites. La proximit de ces indices
(pris deux deux) confirment lquivalence structurelle des deux preuves
avec des corrlations leves entre les mmes indicateurs : .78 au niveau de
lindicateur de la comprhension verbale (ICV), .78 galement au niveau
de lorganisation/raisonnement, perceptif (IRP/IOP), .79 au niveau de la
mmoire de travail (IMT) et .64 pour la vitesse de traitement (IVT).
157
Corrlations avec le K-ABC
Les deux preuves ont t administres 70 enfants gs de 6 12 ans.

Rappelons que le K- ABC, qui relve dune autre approche que celle de
Wechsler, distingue deux types de processus cognitifs :
les processus squentiels (P. Squentiels),
les processus simultans (P. Simultans).
Lchelle des processus mentaux composites (PMC) reprsente lindicateur
global de cette preuve, qui comporte galement une chelle de connaissance
(Kaufman et Kaufman, 1993).
Tableau 3.16
Corrlations entre WISC-IV et K-ABC (daprs le manuel 2).
WISC-IV
K-ABC
Q.I.T
ICV
IRP
IMT
IVT
P. Squentiels
.59
.36
.49
.70
.30
P. Simultans
.57
.38
.64
.33
.41
P.M. Composites
.69
.44
.70
.58
.44
Connaissances
.74
.66
.69
.61
.32
Au niveau des deux indicateurs globaux, QIT pour le WISC-IV et chelle

composite PMC pour le K-ABC, la corrlation est de .69. Cette valeur
tmoigne du large recouvrement de ce que mesurent ces deux tests, bien
quils reposent sur des approches thoriques diffrentes.
On aurait pu sattendre observer une valeur plus leve entre K-ABC
et WISC-IV quentre K-ABC et WISC-III compte tenu que le WISC-IV
affiche clairement un ancrage cognitif. Or cest linverse qui est observ
(mme si la diffrence reste faible) : la corrlation entre K-ABC et WISC-III
tait, sur ces mmes indicateurs, de .74 (voir tableau 3.6).
On peut galement remarquer la valeur leve (.74) de la corrlation entre
QIT et lchelle de connaissance du K-ABC, valeur plus leve que celle
observe entre les deux indicateurs dintelligence (.69 entre QIT et P.M.C).
Enfin, on observe une proximit plus importante, dune part entre IRP
et Processus Simultans (.64, contre une valeur de .49 avec Processus
Squentiels), dautre part, entre IMT et Processus Squentiels (.70, contre
.33 avec Processus Simultans). Les autres indices, QIT, ICV et IVT, tant
plus quilibrs ce niveau.
Toutes les tudes de validit prsentes dans le manuel (avec le WISC-III,
la WPPSI-III, la WAIS-III et le K-ABC) apportent donc des lments
158
convergents sur la fiabilit du WISC-IV comme mesure de lintelligence

globale.
Par contre ne figurent ici aucune tude concernant les liaisons entre
WISC-IV et batteries factorielles1 , ni entre WISC-IV et preuve de facteur g.
On ne peut que le regretter.
Concernant cette fois la validit critrielle, on sattend observer des
donnes concernant par exemple les liaisons entre WISC-IV et russite
scolaire. tonnamment aucune tude de ce type, sur une population
franaise, nest prsente dans le manuel. Rappelons, l aussi, que de telles
tudes avaient t menes lors de ladaptation du WISC-III, avec lanalyse
des relations entre les indicateurs du WISC et des tests standardiss de
connaissance. Sachant que le WISC est trs utilis dans le cadre scolaire il est
fort regrettable que de telles tudes ne figurent pas dans le manuel de cette
version WISC-IV. Mme sil est fort probable que lon puisse appliquer au
WISC-IV les rsultats observs avec le WISC-III, la prsentation de donnes
permettrait de conforter, et de prciser, la validit du WISC-IV dans ce
domaine.
Les seules donnes disponibles sont celles observes entre WISC-IV et
lchelle de connaissance du K-ABC, donnes que nous venons de prsenter
(voir tableau 3.16) et qui tmoignent de la relation troite entre ce qui est
valu par le WISC-IV et les connaissances acquises (corrlation de .74
entre QIT et lchelle de connaissance du K-ABC). Il est dailleurs un peu
surprenant de constater sur ce tableau 3.16 que, contrairement ce que
lon pourrait prdire, entre ICV et IRP, cest lindicateur thoriquement le
moins li aux connaissances (IRP) qui prsente la corrlation la plus leve
avec cette chelle de Connaissances du K-ABC (.69 contre .66). Mme si
la diffrence reste faible, ce rsultat mriterait une analyse, ou au moins un
commentaire, tous deux absents du manuel.
tudes de groupes cliniques
Cette partie constitue galement une nouveaut par rapport lancienne

version WISC-III. En effet, mme si nous disposions de donnes et/ou
de pistes concernant les possibilits dutilisation du WISC-III dans une
dmarche de premier diagnostic de diffrents troubles (voir Grgoire, 2000a)
il faut signaler la prsence ici dtudes spcifiques sur diffrents types
de sujets : prcocit intellectuelle, pilepsie, dyslexie, retard mental lger,
1. Rappelons quune telle tude, avec la batterie DAT, a t mene dans lexprimentation du
WISC-III (voir tableau 3.7).
159
troubles des apprentissages, trouble de lattention/hyperactivit, trouble du

langage, traumatisme crbral, trouble autistique...
Ces tudes concernent majoritairement des donnes amricaines (seules
trois tudes1 sur 18 portent sur des enfants franais), le plus souvent sur de
petits effectifs, avec des critres de diagnostic pouvant tre diffrents. Par
consquent, il faut prendre avec prudence les observations et conclusions de
ces tudes, comme dailleurs le prconisent les auteurs du manuel (manuel 2,
p. 63). Nous indiquerons ici uniquement le principe gnral de ces tudes :
il sagit de comparer les rsultats dun groupe clinique un groupe tmoin
et de relever les ventuelles spcificits du profil de ce groupe.
Exemple
Le groupe denfants dyslexiques se singularise par des notes standards
particulirement faibles dans les subtests reposant sur le langage, comme
information (m = 5,9) et vocabulaire (m = 6), mais galement sur des subtests
qui font le plus appel la mmoire de travail : arithmtiques (m = 5,2) et
Squence Lettres-Chiffres (m = 6,1).
Autre exemple, les enfants du groupe prcocit intellectuelle obtiennent
bien des scores sensiblement suprieurs dans les diffrents indicateurs, mais
la diffrence est moins marque pour les subtests en lien avec la mmoire de
travail, avec au final une moyenne de 107,3 (donc lgrement au-dessus de la
moyenne) pour la note composite IVT.
Nous ne pouvons pas ici prsenter les conclusions de ces diffrentes tudes
et renvoyons le lecteur intress vers le manuel (manuel 2, p. 63-83).
La validit de la structure du WISC-IV
Comme nous lavons indiqu plusieurs reprises, le WISC-IV propose

cinq types dindicateurs de la performance du sujet : un indicateur global
(QI T) et quatre indicateurs spcifiques (ICV, IRP, IMT et IVT). Il va
sagir ici de vrifier le bien fond de ces regroupements de subtests. Par
exemple, pour valider le calcul de lindicateur global QIT, il faut que tous
les subtests prsentent un certain niveau de liaison entre eux. De mme,
pour vrifier la validit de structure au niveau des indicateurs spcifiques
(les notes composites) on doit vrifier que la liaison de chaque subtest avec
son chelle de rattachement (sa note composite) est bien suprieure sa
liaison avec une autre chelle.
1. Il sagit dtudes concernant la prcocit intellectuelle, lpilepsie et la dyslexie.
160
Analyse du QIT
Pour justifier le calcul du QIT, chaque subtest doit donc prsenter une
liaison non ngligeable avec les autres subtests, liaison qui indique bien
que toutes les situations du test valuent une mme dimension, que lon
interprte ici comme lintelligence globale. Si on consulte le tableau 5.1 du
manuel 2 (p. 45) on saperoit que les intercorrlations entre les subtests
obligatoires varient de .12 pour la plus faible (entre Mmoire de chiffres
et Code) .67 pour la plus leve (entre Vocabulaire et Similitudes). Il est
tout fait normal que certains subtests prsentent entre eux des valeurs plus
leves de corrlation, explicables par la plus grande proximit de ce quils
valuent, lessentiel tant dobserver des corrlations significatives entre tous
ces subtests. Lexistence de telles corrlations valide le calcul dun indicateur
global, le QIT, reposant sur lensemble des subtests.
Analyse des notes composites
Il sagit ici de vrifier la structure du WISC-IV en quatre facteurs. On

sattend ici observer des saturations maximales de chaque subtest sur son
chelle de rattachement. Effectivement, une analyse factorielle exploratoire
confirme cette structure. Les donnes du manuel (p. 45) nous indiquent
galement que, dune faon gnrale, les subtests rattachs une mme note
composite corrlent plus fortement entre eux quavec les autres subtests.
On peut signaler ici que lexprimentation sur lchantillon franais
confirme les donnes amricaines, ce qui, rappelons-le, ntait pas le cas lors
de lexprimentation du WISC-III. Le tableau 3.17 prsente les saturations
observes entre chaque subtest et son chelle de rattachement (ou note
composite).
Dans ce tableau, dont les subtests optionnels figurent entre parenthses,
on peut noter que les saturations entre subtests et note composite de
rattachement sont assez leves mais varient selon les indices. Pour lindice
ICV, les valeurs restent leves (de .67 .78), de mme pour IVT (except
le .45 observ pour le subtest barrage), par contre les saturations sont plus
faibles pour lindice IRP (de .50 .56) et pour IMT (.46 .62).
Cette premire tape de validation des quatre indices est confirme par
des analyses supplmentaires, utilisant des mthodes danalyses factorielles
confirmatoires. Rappelons que lintrt de ces mthodes confirmatoires est
de tester la, ou les, structure(s) factorielle(s) qui a(ont) t dfinie(s) a priori
par les chercheurs.
Il faut se rappeler ici que lun des objectifs de llaboration du WISC-IV,
qui a guid les modifications apportes au WISC-III, tait dobtenir quatre
161
Tableau 3.17
Saturations factorielles des subtests sur leur chelle de rattachement
(analyses factorielles exploratoires, manuel 2, p. 49).
Les notes composites
Subtests
ICV
Similitudes
.73
Vocabulaire
.78
Comprhension
.68
(Information)
(.70)
(Raisonnement verbal)
(.67)
IRP
Cubes
.54
Identification de Concepts
.50
Matrice
.54
(Compltement dimages)
Mmoire de chiffres
Squence Lettres-Chiffres
(Arithmtiques)
IMT
(.56)
.56
.62
(.46)
Code
IVT
.69
Symboles
.67
(Barrage)
(.45)
indices fiables du fonctionnement cognitif du sujet. Par exemple, la cration

du subtest Matrice tait destine renforcer lindicateur IRP comme mesure
de lintelligence fluide. Les auteurs avaient donc une ide trs prcise de
la structure de lpreuve, une structure en quatre facteurs (les quatre notes
composites), chacun tant obtenu partir dune combinaison dtermine
de subtests.
Cest ce modle thorique, dfini a priori, quil sagit de tester laide de
mthodes confirmatoires. Sans entrer dans les dtails de ces analyses1 nous
en retiendrons uniquement ici les principaux rsultats obtenus : parmi les
diffrents modles thoriques tests, cest bien le modle postul (4 facteurs
constitus des subtests dfinis a priori) qui reprsente le mieux les donnes
observes. La structure du WISC-IV en quatre facteurs est donc confirme.
Au final lensemble des analyses, exploratoires et confirmatoires, valident la
pertinence des cinq indicateurs du WISC-IV : QIT, ICV, IRP, IMT et IVT.
1. Nous renvoyons le lecteur intress par ces aspects au manuel 2 (pages 51 54).
162
Les bases de linterprtation du WISC-IV
Les auteurs du manuel rappellent que dans la phase dinterprtation des

rsultats de lenfant, le psychologue doit prendre en compte, en plus des
performances values au WISC-IV, un ensemble vari dinformations,
quantitatives et qualitatives (anamnse, rsultats scolaires, contexte familial
et social, comportement pendant la passation...) qui lui permettront de
proposer des pistes explicatives au profil des rsultats observs.
Ils indiquent galement que le WISC-IV se situe dans la tradition
des chelles de Wechsler et que, ce titre, les mthodes et procdures
dinterprtation des rsultats labores pour les autres versions de ces chelles
et nous pensons plus particulirement ici au WISC-III sont toujours
pertinentes. Le psychologue pourra ainsi consulter avec profit, comme nous
ly avons dj invit, les parties de cet ouvrage consacres au WISC-III, ainsi
que le dernier ouvrage de Grgoire consacr au WISC-IV (Grgoire, 2006).
Nous avons dj indiqu que, pour cette version WISC-IV, le psychologue
dispose de deux manuels.
Le second manuel (manuel 2) est compos de 123 pages, dont seulement
11 (le chapitre 6) sont exclusivement consacres linterprtation des
rsultats. Nous aurions aim que cette partie, essentielle pour le praticien,
soit davantage dveloppe. De mme, il nous semble que des tudes de cas
mriteraient de figurer dans ce manuel dautant plus que les modifications
sont nombreuses entre le WISC-III et le WISC-IV, ce qui ne va pas faciliter
le transfert de comptence que doit oprer le psychologue entre ces deux
outils.
Aprs la cotation de chaque subtest et la transformation des notes brutes
en notes standard, le psychologue doit remplir les diffrentes rubriques du
cahier de passation qui lui permettront de procder lanalyse des rsultats.
Pour cela il peut suivre les indications du manuel 1 (pages 49 63) qui
dtaillent les tapes de cette procdure.
Indications pralables
Avant de proposer un cadre gnral dinterprtation des rsultats, les auteurs
du manuel passent en revue quelques notions essentielles sur la mesure
en gnral, et sur les indicateurs du WISC-IV en particulier. Nous avons
dj prsent ces notions mais il nous a sembl pertinent de reprendre ces
lments afin de proposer au lecteur une rapide synthse sur ces notions clefs
dont la matrise sera ncessaire dans la phase dinterprtation des rsultats.
163
Le psychologue confirm pourra ventuellement survoler cette partie et

aborder directement la partie spcifique concernant le cadre dinterprtation
des rsultats.
Nous aborderons ici succinctement, les points suivants : la notion de note
standard, la mtrique des notes composites, la notion de rang percentile,
lerreur type de mesure et lintervalle de confiance, la description qualitative
des notes composites et enfin, les possibilits dquivalence en niveau dge.
La notion de note standard et de rang percentile
La note standard est une note talonne, en rfrence aux performances

releves sur des enfants de mme ge.
Au niveau des subtests, les notes standards suivent une loi normale, de
moyenne 10 et dcart-type 3. Ainsi on peut retenir quenviron 68 % des
enfants obtiennent une note standard comprise entre 7 (moyenne un
cart-type) et 13 (moyenne + un cart type). Le tableau 6.1 du manuel
(manuel 2, p. 86) permet de connatre le rang percentile de chaque note
standard.
Exemple
une note standard de 6 correspond un rang percentile de 9, ce qui signifie que
seulement 9 % des enfants du mme ge ont une note infrieure ou gale 6.
Au niveau des notes composites, les notes sont exprimes sur une chelle
normalise de moyenne 100 et dcart-type 15. Le tableau 6.2 du manuel
(manuel 2, p. 86) fournit les informations concernant les rangs percentiles
de chaque valeur de note composite.
Lerreur-type de mesure
Rappelons que le score observ nest quune estimation de la valeur de la

note vraie du sujet dans la dimension value et quil est plus valide de
caractriser le sujet par un intervalle de confiance que par une estimation
ponctuelle (voir la prsentation de lerreur de mesure et de la thorie du
score vrai dans le chapitre 2 de cet ouvrage). Le psychologue est alors
invit entourer le score observ dans chaque indice (QIT et les quatre
notes composites) dun intervalle de confiance en utilisant les donnes du
manuel 1 (annexe A, p. 237-240).
Exemple
Pour un risque de 10 %, un QI T observ de 110 devra tre entour de lintervalle
de confiance [104-115]. Autrement dit, on considre que dans 90 % des cas, le
score rel (score vrai) du QI T de lenfant se situe entre 104 et 115.
164
La description qualitative des notes composites
Comme dans les autres versions des chelles de Wechsler le manuel propose
une catgorisation des indices principaux (le QIT et les quatre notes
composites) qui reprend dailleurs globalement les catgories utilises dans la
WAIS-III : de la catgorie trs faible (score de 69 et moins) la catgorie
trs suprieur (score de 130 et plus).
On remarquera ici labandon de la dnomination retard mental , qui
figurait dans le manuel du WISC-III pour les scores les moins levs, au
profit ici de la dnomination trs faible pour les mmes scores.
Cette grille de catgorisation est reprise en dernire page du cahier de
passation, accompagne des pourcentages de sujets appartenant chaque
catgorie. Le psychologue est invit situer le niveau de performance de
lenfant de la manire suivante :
Par rapport aux enfants du mme ge, le fonctionnement intellectuel de
cet enfant, mesur laide dun test standardis, se situe actuellement dans
la zone [insrer ici la catgorie qualitative approprie]. (manuel 2, p. 87)
Lquivalence en niveau dge
Le psychologue dispose galement de donnes lui indiquant lge moyen

auquel une note brute est obtenue dans chaque subtest. Mais en fait, tout
en proposant ces rfrences, proches de la notion dge mental, le manuel
expose les nombreuses limites de leur utilisation et conseille finalement de
ne pas les utiliser (manuel 2, p. 88).
Ces diffrents points ayant t rappels, nous pouvons maintenant aborder
linterprtation des rsultats.
Analyse et interprtation des rsultats

Comme dans le cas des autres chelles de Wechsler linterprtation du
profil des rsultats est sans doute la partie la plus dlicate dans lutilisation
du test, mais aussi la partie la plus intressante, qui suppose la fois une
bonne matrise des concepts thoriques sous-jacents (aspect particulirement
essentiel ici avec cette version WISC-IV pour pouvoir en interprter les
nouveaux indices) mais galement de relles qualits cliniques, de manire
intgrer dans cette phase un ensemble de variables diffrentes (et de statut
diffrent) : scores aux indices, profil des performances, indications cliniques
recueillies pendant la passation.... Cette phase dinterprtation suppose
donc, de la part du psychologue, une bonne capacit de synthse, une bonne
matrise de loutil et une exprience clinique dans la passation dpreuves.
165
Les tapes de lanalyse des rsultats de lenfant
Le cadre gnral dinterprtation des rsultats du WISC-IV est comparable

celui prconis dans les autres versions des chelles de Wechsler : il sagit
toujours de dbuter lanalyse par lindicateur global (le QIT), avant daborder
les indicateurs spcifiques (ici les quatre indices ou notes composites). Dans
un premier temps, ces indices seront pris isolment, puis dans un second
temps, lanalyse sera centre sur les diffrences ventuelles entre les valeurs
de ces quatre indices. Enfin, le praticien pourra procder lanalyse des
mesures les plus spcifiques (les notes aux subtests et, ventuellement, les
notes additionnelles).
Comme pour le WISC-III, il sagira toujours darticuler deux types de
comparaison :
une comparaison interindividuelle (comment lenfant se situe-t-il par

rapport la russite moyenne des enfants de son ge ?) ;
une comparaison intra-individuelle (quels sont les domaines sur lesquels
il russit le mieux, comparativement ses autres rsultats ?).
Les deux manuels du WISC-IV fournissent au psychologue un ensemble
assez vaste de rfrences diverses concernant linterprtation des scores de
lenfant : tables dtalonnage (conversion des scores bruts en notes standard),
tables relatives linterprtation des diffrences entre indices, et entre
subtests... Ainsi il dispose de prs de 70 pages de tableaux divers (pages 204
270), composant les annexes A et B du manuel 1, dans lesquels cependant
le psychologue non familier du WISC-IV aura sans doute quelques difficults
sy retrouver.
Nous avons donc tent de synthtiser les informations principales
concernant cette phase dinterprtation des rsultats en reprenant le principe
de la dcomposition en 10 tapes qui est propose dans le manuel 2.
Cette partie nest pas destine se substituer la lecture du manuel mais
elle est conue comme une introduction, une invitation approfondir les
points abords ici par la lecture des manuels du WISC-IV, ainsi que les
publications concernant lutilisation de cette preuve (voir en particulier
Grgoire, 2006).
tape 1 : Description du QI Total
Rappelons que le QI T est lindicateur le plus fidle, le plus valide et le plus

complet de lensemble des capacits cognitives de lenfant. Comme pour
le WISC-III, le QIT est un indicateur de lintelligence globale de lenfant.
Il repose sur les 10 subtests obligatoires. Comme nous lavons indiqu, ce
QI T doit tre entour dun intervalle de confiance. Le psychologue pourra
166
nuancer ventuellement cet intervalle partir de ses observations concernant

la passation, comme par exemple le degr dinvestissement de lenfant dans
les tches proposes.
Un premier niveau danalyse consiste catgoriser le niveau de performance de lenfant (de trs faible trs suprieur ) partir des
indications du manuel 2 (p. 87). Cette catgorisation permet de situer les
rsultats dun enfant par rapport aux enfants de son ge. Pour affiner ce
positionnement le psychologue est invit reporter sur le cahier de passation
le rang percentile correspondant.
Enfin, il se pose la question de lhomognit de ce score global partir
de lestimation globale (qui sera plus tard prcise) du profil des rsultats :
le profil semble-t-il relativement homogne (le QIT tant obtenu partir
de valeurs comparables dans les quatre notes composites) ou le profil
semble plutt htrogne (cas o on observe une, ou plusieurs, diffrence(s)
sensible(s) entre les notes composites) ?
Cette premire estimation du profil des rsultats sera ensuite affine dans
les tapes ultrieures partir de la dmarche type, qui constitue une sorte
de fil rouge dans linterprtation des rsultats et qui repose sur ces deux
questions centrales :
La diffrence observe est-elle statistiquement significative ?
La diffrence observe est-elle frquente au sein de la population de
rfrence ?
Aprs cette analyse globale du QI T, le psychologue va adopter la mme
procdure (score, intervalle de confiance, classification du score observ,
rang percentile, ...) pour analyser les quatre notes composites. Il va sagir
galement de prciser ce qui est valu par chaque indicateur. Ce sont les
tapes 2 5 que nous allons maintenant aborder.
tape 2 : Description de lindice ICV
LIndice de Comprhension Verbale, qui repose sur trois subtests obligatoires (Similitudes, Vocabulaire et Comprhension), est une mesure du
raisonnement partir de situations dans lequel le langage intervient, mais
cest aussi une estimation de lintelligence cristallise qui repose en partie
sur les apprentissages raliss par lenfant.
tape 3 : Description de lindice IRP
LIndice de Raisonnement Perceptif repose galement sur trois subtests

obligatoires (Cubes, Identification de concepts et Matrice). Mesure du
raisonnement perceptif, il value plutt laspect fluide de lintelligence,
167
comme en tmoigne lun des nouveaux subtests, Matrice, directement

inspir de tests de type facteur g.
Par rapport lancien indicateur QIP, seul un subtest a t conserv :
Cubes.
Pour le psychologue familier du WISC-III il sagit donc ici de bien
distinguer ce qui est valu par ce nouvel indice IRP de ce qui tait valu
par le QIP. En particulier, IRP est un indice des capacits de raisonnement
partir de stimuli perceptifs et il met moins laccent sur le raisonnement
visuo-spatial (Grgoire, 2005). De plus limpact de la vitesse de raisonnement
est ici rduit (rduction des bonus de temps).
tape 4 : Description de lindice IMT
LIndice de Mmoire de Travail ne repose lui que sur deux subtests

obligatoires (Mmoire de chiffres et Squence Lettres-Chiffres). Cest une
mesure moins fidle que les deux indices prcdents.
IMT value les capacits de lenfant conserver temporairement certaines
informations, tout en effectuant un traitement sur celles-ci.
Si le psychologue le souhaite, il peut calculer les notes additionnelles
ordre direct (plus proche de la notion de mmoire court terme) et
ordre inverse (plus proche de la notion de mmoire de travail) de manire
distinguer ces deux facettes de la mmoire.
tape 5 : Description de lindice IVT
LIndice de Vitesse de Traitement ne repose galement que sur deux

subtests obligatoires (Code et Symboles). Cet indice fournit une valuation
des capacits de lenfant traiter rapidement des informations. Nous
formulerons deux remarques sur cet indice :
Si lon observe les corrlations avec le K-ABC (voir tableau 3.16) on
peut remarquer que la corrlation est en ralit plus leve avec lchelle
de processus simultans (.41) quavec lchelle des processus squentiels
(.30), ce qui tendrait montrer que, contrairement ce que nous indique
le manuel (manuel 2, p. 90), lIVT serait plus proche dun traitement
simultan. Ce point ncessiterait un approfondissement ;
Le fait quun traitement plus rapide (score lev en IVT) permet de
traiter plus dinformations et/ou dpargner les ressources de la mmoire
de travail explique la corrlation souvent observe entre niveau de
performance et vitesse de traitement.
Arriv la fin de cette cinquime tape, le psychologue a donc caractris le
sujet sur les indicateurs principaux du WISC-IV. Parmi ces cinq indicateurs
168
(QIT, ICV, IRP, IMT et IVT), on peut considrer les trois premiers (QIT,
ICV et IRP) comme les principaux indicateurs des capacits cognitives
globales de lenfant, IMT et IVT apportant des informations sur des
aptitudes plus spcifiques.
Dans les tapes suivantes, le psychologue va sintresser aux ventuelles
diffrences entre ces indices.
Rappelons ici deux rgles fondamentales dans linterprtation dune
diffrence entre deux scores :
Il convient dune part de vrifier le caractre significatif, au sens statistique,
de cette diffrence. En effet une diffrence trop faible, statistiquement

non significative, peut rsulter de lerreur de mesure et de fluctuations
normales (alatoires), et ne fera pas obligatoirement lobjet dune
analyse ;
Il convient dautre part de vrifier la frquence de cette diffrence dans
la population de rfrence : une diffrence, mme significative, mais
relativement frquente, ne fera pas non plus lobjet dinterprtations.
Pour pouvoir considrer un profil, ou une partie du profil, comme
htrogne, et donc susceptible danalyse approfondie, il est donc ncessaire
que la, ou les, diffrence(s) observe(s) soit(ent) la fois significative(s), au
sens statistique du terme, et relativement rare(s). Comme nous lindiquerons,
le manuel fournit les informations ncessaires pour traiter ces deux aspects.
tape 6 : Comparaison des diffrences entre les quatre indices principaux
(ICV, IRP, IVT et IMT)
Il faut ici analyser les diffrences entre les indices pris deux deux,
soit 6 comparaisons. Le psychologue dispose pour cela dun tableau
comparaisons des diffrences (tableau situ en haut de la page 2 du
cahier de passation) quil est invit complter. Il note les valeurs des quatre
indices, calcule les diffrences, puis se reporte au tableau B.1 du manuel
(manuel 1, p. 256) pour connatre la valeur critique de chaque diffrence,
valeur partir de laquelle une diffrence sera statistiquement significative.
Le tableau B1 donne ces valeurs critiques en fonction de lge de lenfant et
du seuil de confiance retenu (.15 et .05).
Si la diffrence observe nest pas suprieure la valeur critique lue dans
le tableau B.1 (au seuil .15), on considre que les rsultats de lenfant sont
du mme niveau dans les deux indicateurs.
169
Si la diffrence observe est gale ou suprieure la valeur critique (au

seuil .15 et ventuellement au seuil .051 ), il faut alors analyser la frquence
de cette diffrence sur lchantillon dtalonnage afin de pouvoir connatre
sa frquence dapparition.
Pour cela, le psychologue se rfre aux tableaux B.2 du manuel (manuel 1,
p. 257-262), qui lui indiquent le pourcentage denfants qui ont obtenu une
diffrence au moins gale aux valeurs indiques. Attention, il faut utiliser de
prfrence le tableau correspondant au niveau du QIT de lenfant (cocher
alors la case par niveau sur le cahier de passation2 ) et distinguer galement
le sens de la diffrence entre les deux indices. Ces informations permettent
de remplir la colonne taux observ dans le tableau du cahier de passation.
Se pose alors ici le choix dun seuil critique : partir de quelle proportion
de sujets peut-on considrer une diffrence comme rare (cest--dire peu
frquente) ? Sattler propose de considrer comme inhabituelle des diffrences
qui ne sobservent que chez moins de 15 % de sujets (manuel 2, p. 91).
Si lon suit ces indications il faut donc que la valeur de la diffrence
observe soit infrieure 15 dans ce tableau B.2 pour considrer une
diffrence comme significative mais cette fois au sens clinique du terme.
Exemple
Un enfant de 15 ans qui obtient un QIT de 115, avec un indice ICV de 120 et un
indice IRP de 108 aura une diffrence ICV-IRP de + 123 .
Le tableau B.1 nous indique que cette diffrence est statistiquement significative
au seuil de .15 (mais elle ne lest pas au seuil de .05) et le tableau B.2 nous
apprend quune diffrence gale ou suprieure sobserve chez 23 % des enfants
de mme niveau de QIT.
Cette dernire information modre alors limportance que lon peut accorder
cette diffrence : elle nest pas considre ici comme inhabituelle car elle
sobserve chez prs dun enfant sur quatre et ne donnera donc pas lieu
interprtation.
Bien entendu, il faut aborder ces diffrents seuils avec souplesse et

lon pourra ventuellement proposer des hypothses explicatives propos
de diffrences statistiquement significatives, mais relativement frquentes
dans la population. Dans ce cas, il conviendra dtre plus prudent dans
linterprtation de la signification de cette diffrence.
1. Le psychologue indiquera si une diffrence significative .15 lest galement au seuil de .05.
2. Une autre possibilit de comparaison est possible : prendre en compte lensemble de lchantillon ;
cocher alors la case tout lchantillon .
3. Rappelons quune valeur minimale de 12 points de diffrence tait ncessaire entre les QIV et
QIP du WISC-III pour que lon considre cette diffrence comme non ngligeable.
170
tape 7 : Mise en vidence des forces et des faiblesses
Il va sagir ici danalyser les variations intra-individuelles du niveau de

performance du sujet travers ses scores aux diffrents subtests. Rappelons
que lobservation dun certain niveau dhtrognit des rsultats est assez
frquente, un profil rellement plat est, linverse, plutt rare. Ici encore,
comme lors de ltape prcdente, toute diffrence observe ne mrite pas
obligatoirement une analyse prcise. Cest en se rfrant ce principe gnral
que le psychologue va analyser le profil des rsultats du sujet travers les
diffrents subtests (on parle ici danalyse du scatter) et tenter de reprer
le(s) subtest(s) dans le(s)quel(s) il obtient un score plus lev (ses forces),
ou plus bas (ses faiblesses), que sa moyenne personnelle. Il sagit bien de
comparaison intra-individuelle : situer le niveau de performance du sujet
dans les diffrentes tches du WISC-IV (les diffrents subtests), non plus par
rapport la moyenne de 10 mais par rapport la moyenne de ses rsultats
(sa moyenne personnelle).
Comment calculer cette moyenne personnelle ? Il faut distinguer deux
situations :
Si aucune diffrence significative entre ICV et IRP na t observe (cf.
ltape prcdente) la moyenne personnelle du sujet est calcule sur les

dix subtests obligatoires ;
Dans le cas inverse, si une diffrence significative est observe entre ICV
et IRP, il faut calculer deux moyennes : lune partir des trois subtests
obligatoires de lindice ICV, lautre partir des trois subtests IRP. Il
faudra alors utiliser comme rfrence la moyenne de lindice auquel est
rattach le subtest considr.
Le psychologue calculera alors les carts entre le score de chaque
subtest et la moyenne personnelle du sujet. Comme pour lanalyse des
autres comparaisons, seule une diffrence statistiquement significative, et
relativement rare, pourra tre le signe clinique dun certain niveau de
singularit du profil.
Quelques remarques gnrales
concernant cette tape dinterprtation des rsultats
1. La mise en vidence ventuelle de force(s) et de faiblesse(s) doit tre
relativise par rapport au niveau global de performance : il sagit bien
ici de force(s) et/ou de faiblesse(s) relative(s), quil conviendra ensuite
de nuancer en fonction du niveau du QI T observ.
171
2. Linterprtation du profil des rsultats du sujet (analyse du scatter), de

ses ventuelles forces et faiblesses, doit reposer sur ce qui est valu dans
chaque subtest ou groupe de subtests. Rappelons que pour le WISC-III
le psychologue pouvait utiliser une grille daide linterprtation lui
permettant de reprer ce quil y avait de commun entre diffrents
subtests (voir Grgoire, 1996). Le psychologue peut ventuellement
sinspirer de cette grille pour linterprtation des subtests du WISC-IV
qui figuraient dans le WISC-III.
3. La mthodologie propose dans le manuel consistant choisir entre
deux types de comparaisons selon les diffrences observes entre ICV
et IRP (une moyenne gnrale ou deux moyennes spares), est en
fait prendre avec souplesse car il est tout fait possible de procder
aux deux types de comparaison (manuel 2, p. 92).
tape 8 : Comparaison des diffrences entre paires de subtests
Cette tape consiste analyser plus finement les rsultats du sujet

partir de ses scores dans deux subtests particuliers. Les tableaux B.3 et
B.4 (manuel 1, p. 264-264) indiquent les seuils critiques de diffrences
entre deux subtests, ainsi que les frquences observes de ces diffrences
dans lchantillon de sujets de ltalonnage. Lanalyse se fera ici partir
dhypothses spcifiques du psychologue et/ou des propositions du manuel.
Le cahier de passation comporte ainsi un emplacement pour indiquer trois
diffrences particulirement intressantes analyser :
mmoire de chiffres/squence lettres-chiffres ;
code/symboles ;
similitudes/identification de concepts.
tape 9 : valuation du profil des notes au sein des subtests
Le psychologue va tudier ici le profil des russites et des checs au sein

de chaque subtest. Le profil observ doit tre conforme la logique de
construction de lpreuve qui ordonne les items en fonction de leur niveau
de difficult. Ainsi il est rare quune russite apparaisse aprs plusieurs checs
conscutifs (do la validit des rgles darrt). Mais certains enfants peuvent
prsenter un certain degr dhtrognit de leurs rsultats ce niveau.
Par exemple, un enfant brillant peut rpondre trop rapidement aux
questions faciles (au risque de faire une erreur), tout en russissant les items
suivants, plus difficiles mais, pour lui, sans doute plus intressants.
172
Cette analyse des erreurs peut ventuellement permettre de reprer des

profils de rsultats qui mriteraient une attention particulire.
tape 10 : Analyse des notes additionnelles
Lune des nouveauts de cette version WISC-IV est la possibilit de bnficier

de scores supplmentaires : les notes additionnelles. Trois subtests sont
concerns : Cubes, Mmoire de chiffres et Barrage.
Pour Cubes, le psychologue dispose dj de la note au subtest mais
il peut galement prendre en compte la note additionnelle Cubes sans
bonifications de temps . Lobservation de la diffrence ventuelle dans les
rsultats de lenfant dans les deux situations doit permettre dvaluer le poids
du facteur vitesse.
Pour Mmoire de chiffres, autre subtest obligatoire, le psychologue peut
distinguer deux rsultats, mmoire en ordre direct et mmoire en ordre
indirecte , avec ici aussi la possibilit de comparer ces deux performances.
Enfin, pour le subtest Barrage, subtest optionnel, l encore deux mesures :
Barrage en ordre alatoire et Barrage en ordre structur.
Pour lanalyse de ces diffrents scores, le psychologue dispose de tableaux
(manuel 1) lui permettant de calculer des notes standards, mais il dispose
galement de rfrences concernant les seuils critiques de signification
statistique et des informations sur la frquence des carts dans la population
dtalonnage afin de pouvoir effectuer des analyses comparatives entre deux
mesures diffrentes du mme subtest. Le manuel donne quelques indications
sur la signification de ces diffrents scores.
Conclusion sur le WISC-IV
Le WISC-IV est la version la plus rcente de lpreuve de Wechsler pour

enfant et adolescents, utilisable auprs de sujets gs de 6 16 ans 12 . Il
sagit dune preuve individuelle, qui repose sur une approche globale de
lintelligence, et qui fournit au psychologue un indicateur concernant le
niveau global defficience du sujet (le QIT) et quatre indices spcifiques (ICV,
IRP, IMT et IVT). Cette nouvelle structure du WISC se rapproche ainsi
des modlisations thoriques des aptitudes intellectuelles, principalement
celle propose par Carroll (voir chapitre 1).
Comme nous lavons indiqu, les modifications sont nombreuses par
rapport lancienne version WISC-III, lune des plus visibles tant sans aucun
doute la disparition des deux indices classiques : QIP et QIV. Les utilisateurs
du WISC-III risquent dtre, au moins dans un premier temps, assez
173
dsorients en raison de la difficult transfrer rapidement leur exprience

du WISC-III linterprtation des rsultats du WISC-IV. Dautant plus,
et nous le regrettons, que les manuels ne contiennent aucune illustration
dinterprtation de scores ou dtude de cas (le lecteur trouvera quelques
tudes de cas dans louvrage de Grgoire de 2006).
Certains psychologues regrettent limportance des modifications apportes
au WISC-IV, comme par exemple, la diminution du nombre de subtests
qui ncessitent une manipulation concrte du matriel (il ne reste que le
subtest Cubes), situations dans lesquelles lobservation de la conduite de
lenfant apportait souvent des lments pertinents dinformation. Dautres
encore se questionnent sur ce qui est rellement valu dans cette version IV
(Rozencwajg, 2006).
Par contre, il faut se fliciter de la qualit des tudes de validation, comme
dailleurs dans les autres chelles de Wechsler, qui apportent de multiples
lments sur la fiabilit de la mesure, mme sil manque, nous lavons signal,
des tudes prdictives par rapport la russite scolaire.
Progressivement, le WISC-IV succde dans les pratiques au WISC-III, et
sera sans doute lun des tests dintelligence le plus utilis en France.
Cette situation de domination du WISC risque cependant dtre conteste,
au moins en France, par larrive de nouvelles preuves, comme par exemple
la Nmi-II (Cognet, 2005) ou le K-ABC-II (Kaufman, 2005).
Aprs la prsentation des chelles de Wechsler pour enfant et adolescents,
abordons maintenant la version WAIS pour adulte.
4.
La WAIS-III
Cette chelle de Wechsler pour adultes version WAIS1 (ge minimum
de 16 ans) reste trs proche dans ses fondements thoriques, dans le
choix des subtests, comme dans les principes de passation, de cotation
et dinterprtation, des chelles WISC-III et WISC-IV pour enfants et
adolescents qui viennent dtre prsentes.
Tout en reprenant le plan gnral que nous avons suivi pour la prsentation
des chelles WISC, ce chapitre sera un peu moins dtaill compte tenu que
nombre de propos sur le WISC peuvent tre gnraliss la WAIS-III.
1. Wechsler Adult Intelligence Scale.
174
Nous nous appuierons ici essentiellement sur les donnes du manuel

de lpreuve (Wechsler, 2000) ainsi que sur un ouvrage de Grgoire dans
lequel la WAIS-III occupe une place importante (Grgoire, 2004). Signalons
galement louvrage de Castro (2006) consacr en partie cette preuve.
Historique
La premire version de cette preuve amricaine, version Wechsler-Bellevue,
date de 1939, et est adapte en France en 1956. La version WAIS est dite
en 1955 et adapte en France en 1968. Cette version est ensuite rvise en
1981, version WAIS-R, et adapte en France en 1989. Enfin, la version la
plus rcente, WAIS-III parat en 1997, puis est adapte en France en 2000.
Le matriel
Comme pour le WISC-III, la WAIS-III se prsente sous la forme dune
mallette qui contient tout le matriel ncessaire la passation. Le psychologue
dispose dun manuel bien document de 357 pages. Le praticien consigne
sur un cahier de passation les rponses du sujet et il dispose dun document
rcapitulatif pour reporter lensemble des scores.
Les subtests
La WAIS-III prsente la mme organisation que le WISC-III : un ensemble
dpreuves indpendantes (les subtests) qui sont regroupes en deux sous
chelles (une chelle verbale et une chelle de performance).
Au total la WAIS-III comporte 14 subtests, dont 11 proviennent de la
prcdente version WAIS-R. Lchelle verbale comprend 7 subtests (dont
1 optionnel), lchelle de performance comprend galement 7 subtests (dont
2 sont optionnels). Chaque subtest comporte plusieurs items prsents au
sujet selon leur niveau de difficult.
Lune des grandes modifications par rapport la version WAIS-R concerne
lintroduction dIndices Factoriels (ce point sera dvelopp plus loin).
Nous prsenterons rapidement chacun de ces subtests :
175
Les subtests de lchelle verbale

Vocabulaire : consiste donner la dfinition de mots (33 items) ;
Similitudes : deux termes sont prsents au sujet qui doit indiquer le type
de similitude existant entre ces deux termes (19 items) ;

Arithmtique : petits problmes arithmtiques rsoudre mentalement
(20 items) ;
Mmoire des chiffres : srie de chiffres lue au sujet quil doit rpter dans
le mme ordre ou dans lordre inverse (8 items en ordre direct, 7 en ordre
inverse) ;
Information : questions de connaissances gnrales (28 items) ;
Comprhension : questions relatives des problmes de la vie quotidienne
ou de la vie sociale (18 items) ;
Squences lettres-chiffres : srie de chiffres et de lettres, prsentes oralement.
Le sujet doit les rpter selon un ordre dfini : les chiffres, en ordre
croissant, puis les lettres, en ordre alphabtique (7 items).
Les subtests de lchelle de performance

Compltement dimages : le sujet doit indiquer la partie manquante dun
objet, ou dune situation, reprsent par une image (25 items) ;

Code : le sujet doit associer, par crit, des chiffres des symboles en
respectant des rgles dassociation ;
Cubes : reproduction de configurations gomtriques laide de cubes
colors (14 items).
Matrices1 : le sujet doit choisir parmi cinq possibilits la matrice qui
complte la partie manquante (26 items) ;
Arrangements dimages : srie dimages prsentes dans le dsordre
remettre dans un ordre logique et chronologique (11 items) ;
Symboles : le sujet doit indiquer ici sil retrouve des symboles cibles au
milieu dautres symboles ;
Assemblage dobjets : sorte de puzzle reconstruire (5 items).
1. Tche inspire des Progressives Matrices de Raven.
176
Standardisation
La passation
La passation est individuelle et ncessite un temps denviron 1 heure
1 heure 30 minutes (dure variable en fonction du niveau de russite du
sujet). La passation des subtests est effectue selon un ordre dtermin, avec
alternance entre les subtests verbaux et les subtests de performance afin de
prserver chez le sujet un certain niveau de motivation. Certains subtests
sont en temps limit (utilisation alors dun chronomtre), dautres en temps
libre. Le manuel indique trs prcisment les rgles de passation pour chaque
subtest.
Dans certains subtests, la passation ne dbute pas au premier item mais
un item donn (par exemple, le quatrime) avec administration des premiers
items si le sujet choue aux deux premiers items proposs. Ces rgles de
dpart spcifiques chaque subtest permettent dviter de faire passer
tous les sujets les items de faible niveau de difficult tout en conservant ces
premiers items pour diffrencier les sujets les plus faibles. Selon la mme
logique, des rgles darrt sont indiques pour chaque subtest. Ces rgles de
dpart et darrt permettent ainsi de ne faire passer au sujet que les items les
plus en relation avec son niveau de comptence et de rduire le temps de
passation.
On peut galement noter que le praticien peut dcider de ne faire passer
quune partie des subtests sil ne souhaite pas recueillir tous les indicateurs
de cette chelle (voir plus loin le tableau 3.18).
La cotation et les indicateurs de la performance du sujet

On va retrouver ici la mme logique de cotation que celle suivie dans les
versions WISC.
La premire tape consiste effectuer la cotation des items de chaque
subtest (en 0/1 point ou en 0/1/2 points selon les cas), avec dventuels
bonus en fonction du temps de ralisation, puis den faire la somme. Chaque
total est une note brute qui devra ensuite tre transforme en note standard
(note talonne) en fonction de lge du sujet. En effet, comme dans toutes
les chelles de Wechsler, la population de rfrence est constitue des sujets
de mme ge. Comme pour le WISC, les notes standards sont des notes
talonnes de 1 19 (moyenne de 10 et cart-type de 3).
177
partir des notes standards il est possible alors de calculer sept indicateurs
de la performance du sujet :
les trois Q.I. classiques (QIV, QIP et QIT),
les quatre Indices Factoriels : Indice Comprhension Verbale (I.C.V),
Indice Organisation Perceptive (I.O.P), Indice Mmoire de Travail
(I.M.T) et Indice Vitesse de Traitement (I.V.T).
On peut remarquer ici la proximit de la structure de la WAIS-III avec
la structure du WISC-IV, mme si ce dernier ne comporte plus les QIV et
QIP.
Le tableau 3.18 nous indique les rattachements des subtests aux diffrents
indicateurs.
Tableau 3.18
Rattachement des subtests de la WAIS-III aux indicateurs globaux
(les parenthses signalent les subtests optionnels).
Les 3 Q.I.
Subtests
QIT
I.C.V
Vocabulaire
Similitudes
Arithmtique
Mmoire des chiffres
Information
Comprhension
Squence Lettres-chiffres
QIV
QIP
Les 4 indices factoriels
(X)
I.O.P
(X)
Code
Cubes
Matrices
Symboles
(X)
(X)
Assemblage dobjet
(X)
(X)
I.VT
Compltement dimages
Arrangement dimages
I.M.T
X
X
On peut observer dans ce tableau que les sept indicateurs ne reposent pas
tous sur le mme nombre de subtests :
les deux QI (QIV et QIP) reposant respectivement sur 6 et 5 subtests ;
les Indices Factoriels reposant sur 3 subtests (sauf I.V.T qui ne repose
que sur 2 subtests) ;
178
le QIT, seul indicateur global de la performance du sujet, qui repose sur

lensemble des subtests.
Rappelons que tous ces indicateurs sont exprims dans la mme mtrique
(moyenne de 100 et cart-type de 15) et quil convient dentourer chaque
valeur observe par un intervalle de confiance.
Cette version WAIS-III propose une certaine souplesse dans la passation,
le praticien ne pouvant faire passer quune partie des subtests en fonction
des indicateurs quil souhaite calculer :
Sil souhaite obtenir un maximum dinformation, et calculer alors Q.I
et Indices Factoriels, la passation de lensemble des subtests (hormis les

optionnels) est ncessaire ;
Sil ne souhaite obtenir que certains indicateurs (par exemple, uniquement
les Indices Factoriels), la passation ne concernera alors quune partie des
subtests.
Bien entendu, la dure de passation dpendra de ces choix.
Le praticien reportera lensemble des rsultats sur un document spar
intitul rcapitulatif/profil .

Comme pour le WISC, la composition de lchantillon de sujets constituant
ltalonnage est soigneusement dcrite dans le manuel : un chantillon de
1 104 sujets, gs de 16 89 ans, reprsentatif de la population franaise
(rpartition selon la CSP, lge, le sexe...). Ltalonnage a t ralis en
1998/1999.
Douze groupes dges ont t constitus afin dlaborer des talonnages
par classe dge.
Les talonnages concernent les notes standards, les Q.I. et les Indices
Factoriels. Le tableau 3.19 permet de rsumer les valeurs caractristiques
des diffrents indicateurs talonns de la WAIS-III.
Tableau 3.19
Valeurs caractristiques des indicateurs de la WAIS-III.
Indicateurs
Valeur Mini
Valeur maxi
Moyenne
cart type
Notes standards
19
10
QIV, QIP et QIT
45
155
100
15
IOP, ICV, IMT, IVT
50
150
100
15
179
Sachant que ces indicateurs suivent une rpartition normale on peut

considrer que les talonnages disponibles sont bien adapts la population
vise.
De plus, pour chaque indicateur, le praticien dispose galement de deux
types dinformation : intervalle de confiance et rang percentile.
Nous aborderons ici lanalyse des informations du manuel concernant la

sensibilit, la fidlit et la validit de la WAIS-III.
La sensibilit
La sensibilit dun test reprsente sa capacit diffrencier les sujets. Il sagit
ici de sassurer que les diffrents scores permettent bien de discriminer les
sujets. Nous pouvons vrifier sur le tableau 3.19 que cette diffrenciation est
assure par ltendue des diffrents indicateurs talonns (notes standards,
Q.I. et Indices Factoriels) et par la rpartition gaussienne de ces scores.
Exemple
Au niveau des notes standards, elles peuvent varier de 1 19 (moyenne de 10

et cart-type de 3) et couvrent ainsi trois carts type de part et dautre de la
moyenne, ce qui assure un bon niveau de diffrenciation des sujets. On observe
cette mme qualit de diffrenciation au niveau des Q.I. (variation possible
de 45 155) comme au niveau des Indices Factoriels, mme si ces derniers
prsentent une tendue lgrement plus rduite (de 50 150).
Lensemble de ces donnes assure la WAIS-III un bon niveau de

diffrenciation des sujets.
La fidlit
Rappelons que la fidlit concerne la prcision et la stabilit de la mesure.
Diffrents types de fidlit sont analyss dans le manuel de la WAIS-III
(daprs Wechsler, 2000) :
La fidlit, ou consistance, interne, est value par la mthode pair-impair.
Les coefficients de fidlit varient de .68 .90 selon les subtests, de .92
.97 selon les Q.I. et de .86 .95 selon les Indices Factoriels. La valeur de
ces indicateurs de fidlit est trs satisfaisante ;
180
La fidlit temporelle a t vrifie par la mthode test-retest, sur un

chantillon de 103 sujets, avec un intervalle de 2 13 semaines entre les
passations. Les coefficients sont ici encore satisfaisants avec, par exemple,
des valeurs comprises entre .86 et .94 pour les Q.I. ;
La fidlit intercotateurs, value sur des subtests verbaux dans lesquelles
la cotation est plus complexe (0, 1 ou 2 points par item), est presque
parfaite avec des valeurs suprieures .92 ;
Lerreur-type de mesure est calcule pour chaque type de score : notes aux
subtests, notes de Q.I. et Indices Factoriels.
partir de ces valeurs, il est possible de calculer les intervalles de
confiance qui entourent les scores calculs. Le manuel facilite ici la tche
du psychologue en donnant directement les valeurs de ces intervalles pour
chaque valeur observe aux seuils .10 et .05.
Si lon prend, par exemple, une mme valeur observe de 1031 , le
tableau 3.20 nous indique lintervalle de confiance, au seuil .10, pour
chaque indicateur.
Tableau 3.20
Exemples dintervalles de confiance pour une valeur observe de 103
(daprs le manuel WAIS-III).
Intervalle de confiance (seuil de .10)
Valeur
observe
de 103
QIV
QIP
QIT
ICV
IOP
IMTa
IVTb
98-107
96-109
99-107
97-108
96-109
97-109
95-111
a. La valeur 103 nexistant pas pour cet indice nous avons pris les valeurs intermdiaires situes entre
celles correspondant un score observ de 102 et celles correspondant un score observ de 104.
b. Mme remarque.
On peut remarquer sur ce tableau que lintervalle de confiance le plus

rduit, donc lerreur de mesure la plus faible, concerne le QIT, avec un
intervalle de 9 points [99-107]. En effet, le QIT est la mesure qui porte sur le
plus grand nombre de subtests, ce qui explique sa plus faible valeur derreur
de mesure. Lintervalle sur QIP est un peu plus lev que celui portant
sur QIV, et les intervalles pour les Indices Factoriels sont globalement du
mme ordre que ceux relatifs aux Q.I. Cest lIndice I.V.T qui prsente
1. Bien entendu il sagit dun cas fictif : un mme sujet ne prsente gnralement pas le mme score
sur les diffrents indicateurs.
181
lintervalle le plus important. Nous avons observ dans le tableau 3.18 que
cet Indice I.V.T nest constitu que de deux subtests, ce qui peut expliquer
cette faiblesse.
La validit
Cette qualit fondamentale dun test peut se rsumer en la question suivante :
le test mesure-t-il ce quil est cens mesur ?
Pour rpondre cette question, deux aspects principaux seront ici
analyss :
La WAIS-III est-elle une mesure de lintelligence ?
Quelle est la validit des diffrents indicateurs de ce test (Q.I. et Indices
Factoriels) ?
La validit de la WAIS-III comme mesure de lintelligence
Il sagit ici danalyser les corrlations observes entre les scores obtenus, par
les mmes sujets, la WAIS-III et dautres tests dintelligence.
Nous partons ici avec un a priori largement positif : comme nous
lavons dj indiqu, la validit des chelles de Weschler comme mesures
de lintelligence nest plus dmontrer. Le manuel prsente un grand
nombre dtudes de validation, mais nous pouvons regretter que la plupart
portent sur des populations amricaines et/ou sur lancienne version de cette
chelle (WAIS-R). Nous ne prsenterons ici que les rsultats des tudes qui
concernent lchantillon franais et la version WAIS-III.
Liaison entre WAIS-R et WAIS-III
Une premire tape de lanalyse de la validit de la WAIS-III consiste

vrifier que cette preuve mesure bien les mmes dimensions que lancienne
version WAIS-R. Une tude est prsente dans le manuel qui porte sur un
chantillon assez faible de sujets (55 sujets). Lanalyse des rsultats montre
que, au niveau des Q.I., les coefficients de corrlation varient de .86 .93,
valeurs qui confirment que la WAIS-III value bien les mmes dimensions
que la WAIS-R (intelligence globale, intelligence verbale et intelligence non
verbale). Pour les Indices Factoriels, comme ils nexistaient pas dans la
version WAIS-R, cette analyse nest pas possible.
182
Liaison avec le WISC-III
Nous avons dj prsent, dans la partie concernant le WISC-III, les valeurs

des coefficients de corrlation entre WISC-III et WAIS-III (voir tableau 3.5).
Rappelons que les valeurs se situaient autour de .90 pour les Q.I. et entre
.76 et .88 pour les deux Indices Factoriels communs (I.C.V et I.O.P). Ces
valeurs leves tmoignent de la proximit de ces deux preuves.
Liaisons avec le WISC-IV
Bien entendu, compte tenu de lantriorit de la WAIS-III par rapport

au WISC-IV, le manuel de la WAIS-III ne comporte aucune donne ce
niveau mais nous disposons de rsultats dans le manuel du WISC-IV. Nous
avons dj prsent ces rsultats (voir en particulier le tableau 3.15) qui
confirment la proximit de ce qui est valu par ces deux preuves : .83 au
niveau du QIT, et des valeurs comprises entre .64 et .81 pour les indices
factoriels/notes composites.
On peut remarquer quil aurait t intressant de disposer dtudes, sur
un chantillon franais, relatives aux liaisons entre la WAIS-III et un test de
type facteur g.
La validit des indicateurs de la WAIS-III (Q.I. et Indices Factoriels)

Lorsquun test, comme ici, propose de calculer diffrents indicateurs des
performances du sujet, il convient de vrifier les bases sur lesquelles reposent
ces indicateurs (notion de validit structurale). Dans le cas de la WAIS-III,
la logique de validation des indices sera comparable celle voque dans
lanalyse de la validit structurale du WISC :
La distinction propose entre les deux chelles, donc le calcul spar de
deux scores (QIV et QIP), doit tre justifie par lobservation de fortes
liaisons entre subtests dune mme chelle ;
Le calcul dun indice total, le QIT, doit reposer sur le fait que tous les
subtests valuent bien une mme dimension commune ;
Le calcul des Indices Factoriels, doit lui aussi tre valid par des mthodes
statistiques appropries. Dautant plus que ces Indicateurs reprsentent
une nouveaut par rapport la WAIS-R.
Concernant le premier aspect, le manuel donne les rsultats danalyses
factorielles descriptives qui valident la distinction classique entre les deux
chelles, donc le calcul spar des deux Q.I : QIV et QIP. En effet, les
corrlations entre les subtests de lchelle Verbale sont bien plus leves
183
que les corrlations entre ces subtests et ceux de lchelle de Performance

(Wechsler, 2000, p. 262). Par contre, le manuel indique aussi que cet
effet est moins marqu pour les subtests de lchelle de Performance, en
particulier pour cubes et matrices qui prsentent des corrlations assez leves
avec certains subtests de lchelle Verbale.
Ces analyses montrent galement que tous les subtests valuent bien une
mme dimension, que lon interprte ici comme tant un facteur gnral
dintelligence, ce qui permet de valider le calcul du QIT.
Enfin pour lanalyse des Indices Factoriels, leur nouveaut mrite que
lon dtaille un peu plus les lments de leur validation.
Tout dabord, il faut indiquer lorigine de ces Indices. De manire
comparable aux volutions du WISC, les auteurs de la WAIS-III ont
souhait intgrer dans cette nouvelle preuve les rsultats des recherches
les plus rcentes dans le domaine de lintelligence et du fonctionnement
cognitif afin dvaluer plus prcisment la mmoire de travail et la vitesse
de traitement. Cet objectif explique lapparition de nouveaux subtests dans
la version WAIS-III.
Plus prcisment, suite aux rsultats de diffrentes tudes portant sur
la WAIS-R et sur le WISC-III, les auteurs souhaitent obtenir, pour la
WAIS-III, une structure comportant quatre facteurs. Ces quatre facteurs
doivent correspondre des mesures spcifiques dfinies comme :
la Comprhension Verbale (I.C.V),

lOrganisation Perceptive (I.O.P),
la Mmoire de Travail (I.M.T),
la Vitesse de Traitement (I.V.T).
Pour valider cette structure hypothtique ils crent de nouveaux items, de

nouveaux subtests, puis utilisent une mthode danalyse factorielle confirmatoire, mthode qui permet de tester ladquation dun modle thorique
(modle compos ici des quatre facteurs) partir des donnes observes.
Effectivement, lanalyse des rsultats confirme cette structure hypothtique
en quatre facteurs et valide ainsi le calcul des quatre Indices Factoriels
reprsentant ces quatre facteurs (le lecteur intress pourra consulter les
pages 270 274 du manuel qui traitent spcifiquement de ces analyses).
Nous pouvons reprendre ici la remarque concernant le calcul de ces
Indices Factoriels, que nous avons dj formul lors de la prsentation du
WISC-III. En effet, comme ctait aussi le cas dans le WISC-III, les valeurs
des liaisons (des saturations) entre subtests et Indice Factoriel varient selon
les subtests et un calcul pondr, tenant compte de ces variations, serait
184
plus proche des donnes, donc plus valide, que la simple addition des notes
standard des subtests concerns.
Par exemple, le tableau 6.7 du manuel (Wechsler, 2000, p. 266) indique
que pour lIndice Factoriel I.M.T, la saturation est de .76 avec le subtest
Squence lettres-chiffres mais seulement de .42 avec le subtest Arithmtique.
Pourtant, dans le calcul de cet indice, on accorde le mme poids ces deux
subtests. Une autre possibilit aurait pu tre envisage qui consisterait
pondrer chaque subtest en fonction de la valeur de sa saturation.
Enfin, toujours propos de ces Indices Factoriels, Grgoire prsente les
rsultats danalyses complmentaires qui confirment la validit de cette
structure factorielle. Cette dcomposition des rsultats de la WAIS-III en
quatre Indices Factoriels lui parat mme prfrable lutilisation des deux
indicateurs classiques QIV et QIP, car ces indices reprsentent des mesures
plus robustes et plus homognes que les deux Q.I. classiques (2004, p. 207).
Les bases de linterprtation
Avec la WAIS-III, le praticien obtient plusieurs indicateurs quantitatifs :

les notes standards,
les trois Q.I.,
les quatre Indices Factoriels.
Il dispose ventuellement dindices plus qualitatifs relevs lors de la
passation de lpreuve :
implication du sujet dans les tches proposes,

stratgies de rsolution,
comportement face une difficult,
niveau de fatigabilit...
Enfin, travers les entretiens il peut ventuellement recueillir des

informations diverses sur le sujet (diplmes, expriences professionnelles...).
Ltape suivante va donc consister tenter de synthtiser toutes ces
informations afin de mieux comprendre le fonctionnement cognitif de
lindividu singulier qui a pass la WAIS-III.
Nous traiterons dans cette partie principalement de linterprtation des
donnes quantitatives relatives aux diffrents scores observs la WAIS-III.
Le principe gnral danalyse et dinterprtation des rsultats la WAIS-III
suit la mme logique que celle qui rgit lanalyse des rsultats au WISC : partir
185
du gnral pour se diriger vers le particulier. Il va donc sagir danalyser lindicateur le plus gnral (le QIT) puis les indicateurs spcifiques (QIV, QIP et
les Indices Factoriels) et enfin danalyser les rsultats aux diffrents subtests.
Avant de prsenter les diffrentes tapes de lanalyse, il faut rappeler que
tous les indicateurs talonns de la WAIS-III se rfrent aux performances
observes chez des sujets de mme ge. Ce point est trs important
rappeler, surtout dans le cas o le sujet est relativement g. En effet, avec
le phnomne de dclin de certaines aptitudes avec lge, un sujet de 70 ans
ayant un Q.I. de 100 aura en fait un niveau de performance moins lev
quun sujet de 30 ans qui a pourtant le mme Q.I. de 100. Ces deux
sujets se situent de la mme manire (ici trs prcisment au centre de
la distribution, au niveau de la moyenne) mais dans des populations de
rfrence diffrentes. Prenons par exemple deux subtests particulirement
sensibles ce phnomne de dclin, le subtest mmoire des chiffres et le
subtest matrices. Le tableau 3.21 donne les notes talonnes (notes standards)
pour un mme niveau de russite (score brut) en fonction du groupe dge.
Tableau 3.21
Comparaison des diffrentes notes standard attribues un mme score brut selon la classe
dge (daprs Wechsler, 2000, p. 302 307).
Notes standards selon le groupe dge
Score brut observ
20-34 ans
55-64 ans
70-74 ans
80-89 ans
Matrices : 21 points
10
12
16
17
Mm. chiffres: 17 points
10
12
13
14
Les donnes illustrent bien le phnomne que nous voulions dcrire : les
notes talonnes (notes standards) dpendent bien du niveau de russite
observ dans chaque classe dge.
Exemple
Pour un mme niveau de russite au subtest matrice (un score brut de 21 points),
le sujet sera situ juste dans la moyenne sil est g de 25 ans (avec une note
standard de 10) mais plus il sera g, plus sa note standard sera leve, avec ici
par exemple une note standard de 17 sil est g de 80 ans. On peut galement
observer un processus quivalent pour lautre subtest (mmoire des chiffres).
Cet effet de variation des niveaux de performances selon les classes

dge peut intervenir pour tous les subtests et pour tous les indicateurs qui
sont calculs partir de ces notes standards (Q.I. et Indices Factoriels).
Il convient donc, avant toute interprtation des rsultats, de prendre en
compte les notes talonnes du sujet (qui situent ses performances par
186
rapport aux sujets de mme ge) mais galement les valeurs de rfrence
proposes (le groupe dge 20-34 ans), surtout si le sujet est loign de cette
classe dge. Cest pour ces raisons quil est conseill de faire figurer sur
le document rcapitulatif /profil les valeurs des notes standard pour le
groupe 20-34 ans qui correspond un groupe de rfrence ventuellement
diffrent du groupe dge du sujet (voir la colonne rserve cet effet
en troisime page de ce document). Enfin rappelons quil est fortement
conseill dentourer chaque score calcul dun intervalle de confiance.
Abordons maintenant les diffrentes tapes danalyse des rsultats.
tape 1 : Analyse du Q.I. Total (QIT)

Cet indicateur QIT est, comme dans toutes les versions des chelles de
Wechsler, lindicateur le plus complet de la WAIS-III, car il prend en compte
un grand nombre de subtests, donc un ensemble vari de situations.
Cet indicateur de lintelligence globale permet de situer le sujet dans une
population de rfrence laide du rang percentile.
Exemple
Un QI de 109 correspond au rang percentile 73 ce qui signifie que 73 % des
sujets obtiennent un score infrieur ou gal 109 et donc que seulement 27 %
des sujets obtiennent un score suprieur.
Tableau 3.22
Classification des Q.I. et des Indices Factoriels au test WAIS-III (daprs Wechsler, p. 280).
Q.I ou Indice Factoriel
Classification (catgorie)
130 et plus
2,2 %
Trs suprieur
120-129
6,7 %
Suprieur
110-119
16,1 %
Moyen suprieur
90-109
50 %
Moyen
80-89
16,1 %
Moyen infrieur
70-79
6,7 %
Limite
69 et moins
2,2 %
Trs faible
Ce positionnement prcis de la performance du sujet peut galement tre

interprt de manire plus qualitative partir de la classification propose
dans le manuel.
187
Cette classification, qui concerne plus largement tous les Q.I. et tous
les Indices Factoriels, peut tre utilise par le psychologue pour situer de
manire plus qualitative le niveau de performance du sujet.
Les valeurs des diffrents seuils qui dterminent les classes ont t dfinies
en fonction de la rpartition thorique des sujets (par exemple, la valeur de
130 correspond une performance situe deux carts types au-dessus de la
moyenne). Sur la justification de ces seuils, nous renvoyons le lecteur aux
rflexions que nous avons proposes dans la prsentation des WISC-III et
IV.
tape 2 : Analyse du QIV, du QIP et des Indices Factoriels

Il faut, dans un premier temps, rappeler la signification de ces diffrents
indicateurs, puis, dans un second temps, donner les lments essentiels pour
leur analyse.
Que reprsentent ces indicateurs ?
Pour les deux Q.I. nous pouvons considrer quils correspondent globalement aux indicateurs QIV et QIP du WISC-III, que nous avons dj
prsent (voir prsentation du WISC-III). Ainsi le QIV est une mesure du
raisonnement verbal mais aussi une valuation des connaissances acquises.
Le QIP tant quant lui plutt une valuation des capacits de raisonnement
dans des situations nouvelles, dans lesquelles le langage nintervient pas,
ou peu. Le QIV est considr comme proche de la notion dintelligence
cristallise, le QIP tant associ la notion dintelligence fluide. Ces deux
Q.I. sont galement trs proches des indicateurs QIV et QIP de lancienne
version WAIS-R. On peut signaler que, suite lintroduction du subtests
matrice, et au fait que le subtest assemblage dobjet devient optionnel, le QIP
de la WAIS-III devient moins sensible la vitesse de traitement et plus
proche du raisonnement abstrait non verbal.
Pour les Indices Factoriels, nous avions questionn dans la version WISC-III,
lintrt de ces Indices qui taient trs (trop ?) proches des indicateurs
classiques de Q.I. et napportaient pas alors dinformations suffisamment
spcifiques et/ou suffisamment fiables. Par contre, dans cette version WAISIII, les Indicateurs Factoriels prsentent des diffrences plus importantes avec
les deux Q.I., et constituent des mesures plus pures ou plus fines (pour
reprendre les termes du manuel) du fonctionnement intellectuel du sujet.
Ainsi lIndice ICV est, du fait de labsence des subtests comprhension,
mmoire des chiffres et arithmtique, une mesure plus pure de la comprhension verbale (Wechsler, 2000, p. 284),
188
De mme, IOP peut tre dfini comme une mesure plus pure de
lintelligence fluide.
Enfin, les Indices Factoriels IMT de IVT, sont des mesures assez
spcifiques, qui apportent des lments complmentaires sur deux aspects de
fonctionnement intellectuel : la mmoire de travail et la vitesse de traitement
des informations.
Aprs avoir situ le niveau de performance du sujet dans chaque indicateur,
le psychologue analysera, comme pour le WISC, le profil des rsultats du
sujet autour de la question suivante : le profil est-il homogne (cas dune
faible diffrence entre les indicateurs) ou htrogne (diffrence importante
entre les indicateurs) ?
Attention !
Comme pour le WISC, toute diffrence observe nest pas obligatoirement
significative.
En effet, pour que cette diffrence ait un sens au niveau du fonctionnement
cognitif il est ncessaire quelle soit la fois assez importante (statistiquement significative) et relativement rare. Les valeurs de rfrence fournies
dans le manuel permettent de guider linterprtation des diffrences
ventuellement observes.
Par exemple, pour la WAIS-III, la diffrence moyenne entre QIV et QIP
est proche de 10 points (9,7 points) et prs de 20 % des sujets prsentent
une diffrence gale ou suprieure 16 points (p. 320).
Ces informations relativisent ainsi grandement la singularit des profils
qui prsenteraient une diffrence entre QIV et QIP infrieure ou gale
ces valeurs.
Le manuel propose deux exemples dinterprtation des diffrences
observes, lun concerne une diffrence entre les deux Q.I., lautre une
diffrence entre deux Indices Factoriels (voir p. 289 et 290).
En conclusion, on ne peut que conseiller au praticien de se rfrer aux
informations du manuel (valeurs significatives des diffrences, rpartition
de ces diffrences dans lchantillon de rfrence, exemples dinterprtation
de profils...) avant deffectuer toute interprtation des diffrences observes.
Enfin, on peut rappeler que Grgoire est plus favorable lanalyse des
Indices Factoriels qu lanalyse traditionnelle des deux Q.I. (QIV et QIP),
les Indices ayant une fiabilit plus importante :
189
Avec la WAIS-III, le calcul des Indices apparat comme une option

prfrable au calcul des traditionnels QI Verbal et QI Performance. Les
Indices apparaissent en effet comme des mesures plus robustes et plus
homognes que les QI. (Grgoire, 2004, p. 207).
tape 3 : Analyses des subtests

La dernire tape de lanalyse concerne lanalyse des rsultats aux diffrents
subtests. Rappelons que lon parle alors danalyse de scatter, cest--dire
danalyse de la dispersion des notes standard. Il sagit ici danalyser lhomognit du profil des notes standard, de reprer les subtests particulirement
russis et ceux particulirement chous...
Il faudra, comme pour le WISC, articuler deux types de comparaison :
Une comparaison interindividuelle, avec comme rfrence le niveau moyen
de russite dans la population de rfrence : il sagira alors de situer le

score observ chaque subtest par rapport la valeur moyenne de 10 ;
Une comparaison intra-individuelle, avec comme rfrence ici la moyenne
propre du sujet : il sagira alors de situer chaque score par rapport la
moyenne individuelle du sujet (moyenne calcule partir de ses diffrentes
notes standards).
Pour effectuer la comparaison interindividuelle, le praticien peut utiliser la
classification des notes standard que nous avons propose dans la prsentation
du WISC-III pour reprer les points forts et les faiblesses du sujet (voir
tableau 3.10).
Pour lanalyse intra-individuelle, le manuel propose les valeurs seuils des
diffrences significatives notes standard. partir de ces informations le
praticien peut reprer les notes dviantes, qui scartent significativement
de la moyenne personnelle du sujet et qui peuvent singulariser son profil et
son fonctionnement cognitif
Dans la feuille de synthse des rsultats du sujet il est dailleurs demand
dindiquer la valeur de la diffrence observe entre chaque subtest et la
moyenne individuelle, ainsi que le niveau de significativit statistique de ces
diffrences.
Une analyse plus approfondie du protocole, consistant en la prise en
compte des covariations des notes diffrents subtests, est galement possible
mais le praticien ne dispose pas ici, contrairement au WISC-III, dune
grille daide spcifique (Grgoire, 1996). Mais, compte tenu des nombreux
subtests communs entre WISC-III et WAIS-III, il nous semble possible
190
dappliquer, au moins en partie, cette grille daide linterprtation des

scores la WAIS-III.
Conclusion sur la WAIS-III
La WAIS-III, chelle de Wechsler pour adulte, qui repose sur une conception
globale de lintelligence, permet donc au final de disposer de sept indicateurs
de lefficience du sujet :
les trois Q.I. classiques : QIT, QIV et QIP ;
les quatre Indices Factoriels : ICV, IOP, IMT et IVT.
Les donnes disponibles confirment la fiabilit de ce test et de ses diffrents
indicateurs. Pour cette version WAIS-III, et contrairement aux rserves que
nous avions formules pour le WISC-III, les Indices Factoriels apportent
bien ici des informations spcifiques sur le fonctionnement cognitif du sujet.
Dailleurs, pour certains auteurs (Grgoire, 2004), en raison dune fiabilit
plus leve, lutilisation de ces Indices est prfrable lutilisation classique
des QIV et QIP. Il est probable dailleurs que dans la prochaine version
(WAIS-IV) le praticien ne dispose plus de ces indicateurs QIV et QIP, mais
uniquement des indices factoriels, accompagns du QIT, comme cela est
dj le cas dans la version WISC-IV.
Il serait intressant de connatre la proportion de praticiens qui conserve
une utilisation traditionnelle de la WAIS-III (analyse prfrentielle du QIV
et du QIP) et celle qui privilgie lutilisation et linterprtation de ces Indices
Factoriels. Il est fort probable que ce changement de pratique demande un
peu de temps...
Enfin, signalons quil nexiste pas de version abrge de cette preuve1
(comme ctait le cas pour le WISC-III) mais quune certaine latitude est
laisse au praticien lors de la passation, lui permettant, en fonction des
indicateurs quil souhaite obtenir (les Q.I. et/ou les Indices Factoriels), de
ne faire ventuellement passer quune partie des subtests de lchelle.
1. De telles versions font lobjet de recherche (voir par exemple Rmy, 2008).
CHAPITRE
4
Les tests de facteur g

(et dintelligence fluide)
Sommaire
1. Les tests de Raven . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Page 194
2. Le test NNAT (Test dAptitude Non Verbal de Nagliri) . . . . . . .
Page 215
3. Les tests D48, D70 et D2000 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Page 231
4. Le test R85/R2000 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Page 244
5. Quelques autres tests de facteur g . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Page 248
193
le chapitre 1, nous avons dcrit lapport de Spearman et ses

propositions, formules il y a prs dun sicle, concernant le
facteur g et la place prpondrante quil occupe dans le modle
factoriel de lintelligence. On en trouve toujours la marque dans
les modles actuels de lintelligence : le facteur g correspond
au troisime niveau (niveau suprieur) dans le modle hirarchique de
lintelligence de Carroll et est trs proche de la notion dintelligence fluide
(Gf), laquelle se rfrent de nombreux auteurs.
Limportance et la pertinence du facteur g sont largement reconnues dans
lexplication des capacits cognitives individuelles, en particulier lorsque
lon cherche prdire la capacit dune personne rsoudre des problmes
logiques dans des situations et des domaines varis. Mesurer cette dimension
est donc particulirement utile. Cest lobjectif des tests dits de facteur g
que nous allons maintenant prsenter.
ANS
Il existe un assez grand nombre dpreuves de facteur g qui, malgr leurs

spcificits, prsentent de nombreux points communs :
Ce sont gnralement des preuves prvues pour des passations
collectives (avec cependant presque toujours une possibilit de passation

individuelle) ;
Le temps de passation est souvent court, de 15 30 minutes ;
Le niveau de performance du sujet est, le plus souvent, un indicateur
unique ;
Les tches proposes sont gnralement de type lois de sries dans
lesquelles le sujet doit analyser la situation afin de dcouvrir les relations
(la ou les lois de transformation) qui relient les diffrents lments
de cette situation, puis appliquer cette loi afin de trouver (ou de
slectionner) la bonne rponse (voir dans le chapitre I les notions
dduction de relations et de corrlats, proposes par Spearman) ;
Enfin, dernier point, la part du facteur verbal nintervient pas ou peu
dans ces preuves.
Nous analyserons ici de manire dtaille les preuves de facteur g les plus
connues et/ou les plus utilises en France :
les matrices de Raven,
le test NNAT,
194
Les tests de facteur g (et dintelligence fluide)
les preuves de dominos (D70 et D2000),

les tests de raisonnement R85 et R2000.
En fin de chapitre nous prsenterons aussi, mais de manire plus
synthtique, dautres preuves du mme type galement disponibles en
France (preuve de Cattell, BLS4, B53 et RCC).
1.
Les tests de Raven

Les preuves Progressive Matrices de Raven sont des exemples prototypiques
de tests de facteur g et dintelligence fluide. Nous verrons plus loin que
Raven sest directement inspir de Spearman pour concevoir ses preuves.
Les preuves de Raven sont bien connues des praticiens et des chercheurs,
et ont dmontr depuis longtemps leur validit. Une littrature considrable
leur est consacre et elles font preuve dune remarquable longvit
puisquelles existent depuis environ 70 ans et que leur popularit chez les
praticiens ne se dment pas (elles figurent sans doute parmi les preuves les
plus connues/utilises au monde). Elles ont en outre inspir de nombreuses
preuves (voir par exemple le test NNAT ou, plus rcemment, le subtest
Matrices de la WAIS-III et du WISC-IV).
Il existe trois versions des Progressive Matrices.
Ces versions reposent sur le mme type de tche mais correspondent
trois niveaux distincts de difficult ;

La tche consiste pour le sujet slectionner, parmi plusieurs possibilits
offertes, llment qui vient le mieux complter une srie propose ;
Les matrices (doubles sries en lignes et en colonne) comportent quatre
lments (2 lignes et 2 colonnes) ou neuf lments (3 lignes et 3 colonnes),
lensemble correspondant au problme rsoudre ;
La tche du sujet consiste dcouvrir les rgles dorganisation (de
transformation) de ces diffrents lments, puis appliquer ces rgles afin
didentifier la rponse pertinente ;
La rponse est donne en choisissant un lment dans un ensemble
comportant 6 8 rponses possibles.
Un exemple ditem est donn dans la figure 4.1 : le sujet doit slectionner,
parmi les 8 lments possibles, celui qui vient complter la srie propose.
195
Figure 4.1
Exemple dun item (fictif) des Progressives Matrices de Raven (daprs Huteau, 2002, p. 47).
Exemple
Dans cette tche complexe le sujet doit prendre en compte lensemble des
informations disponibles, et ne pas slectionner trop vite une solution qui
lui apparatrait premire vue correcte, mais qui ne comporterait pas en
ralit tous les lments constitutifs de la bonne rponse. Lune des erreurs
prototypiques (voir plus loin la partie consacre lanalyse des erreurs) est
justement la slection dun distracteur proche de la bonne rponse, mais ne
comportant pas toutes les caractristiques de celle-ci.
La premire version des Progressives Matrices date de 1938. Cest la version

Progressives Matrices Standard ou SPM (ou encore appele PM38). Cette
version standard se caractrisait au moment de sa conception par un niveau
moyen de difficult. Ce niveau tant trop facile pour des adultes de haut
niveau, il justifia la construction en 1943 dune version plus difficile : les
Advanced Progressives Matrices ou A.P.M.
Mais pour les enfants, la version standard a t juge cette fois trop
difficile, do la diffusion en 1947 dune version en couleur, assez attrayante
pour les enfants : les Progressives Matrices Couleur1 . Au final, on recense
1. Une version encastrable (avec manipulation) destine de jeunes enfants (ou enfants prsentant
un handicap) est galement diffuse en France (Kaufman et al., 1993).
196
donc trois versions des tests Progressives Matrices capables de couvrir une
large gamme de niveaux diffrents et adaptes un large public allant des
enfants aux adultes de haut niveau. Chaque version dispose de son propre
manuel et il existe galement un manuel commun dintroduction aux tests
de Raven (Manuel des Raven, section 1).
Nous ne prsenterons ici que les versions utilisables auprs dadolescents
et dadultes : la version standard SPM et la version APM (diffuses par les
ECPA).
Prsentation de la version SPM de Raven
Cette version SPM est la version originelle des Progressives Matrices de

Raven destine des sujets de niveaux dtudes qui correspondent au collge
et au lyce. La premire dition date de 1938. Elle comportait 60 items,
catgoriss en cinq classes et ordonns selon leur niveau de difficult (do
lappellation progressive). En 1956, de lgres modifications, concernant
en particulier lordre de passation de certains items, ont t adoptes, et la
dernire version dite en France en 1998 est similaire celle de 1956.
Le manuel commun des Raven (manuel section 1) contient une introduction gnrale aux preuves de Raven, et le manuel spcifique la version
SPM (manuel section 3) prsente un ensemble de donnes pour cette version.
Des talonnages complmentaires figurent dans un fascicule spar, dit
en 2003.
Les bases thoriques

Les SPM de Raven ont t crs partir des hypothses de Spearman
concernant le facteur g. En effet, elles sont destines valuer laptitude
ductive, cest--dire la capacit du sujet percevoir des relations entre
diffrents lments. Pour Raven,
Laptitude ductive est laptitude crer de nouveaux insights, percevoir,
et identifier des relations. (Manuel section 3, p. 5)
Spearman (1927) distinguait lduction de relations et lductions de corrlats.

Ces termes correspondent aux formes de raisonnement que nous appelons
aujourdhui pour la premire linduction (processus dextraction dune rgle
gnrale partir dexemples particuliers) et pour la seconde la dduction
(processus dapplication dune rgle gnrale pour gnrer une rponse
particulire). Ces deux formes de raisonnement sont ncessaires pour
197
rsoudre les preuves de Matrices : il sagit de reprer les lois de progression

entre diffrents lments dune mme srie et de les appliquer ensuite afin
didentifier llment qui vient complter la srie.
Mme si les auteurs des manuels font une distinction entre aptitude
ductive et facteur g, ils indiquent que les matrices donnent bien lune des
meilleures mesures de g (Manuel section 1, p. 19).
Les items de la version SPM

Les 60 items de cette preuve sont organiss en cinq sries de 12 items. Rien
nindique cependant au sujet cette organisation, car les items se suivent
de faon continue. Quelle que soit la srie, la tche consiste toujours
slectionner, parmi plusieurs possibilits (6 ou 8 possibilits selon les sries),
la figure qui vient complter lensemble.
Lpreuve est organise selon un ordre de difficult croissant, aussi bien
au sein dune mme srie quentre les sries. Ainsi, chaque srie (de A
E) dbute par un item trs facile dont la solution saute aux yeux (pour
reprendre les termes des auteurs : Manuel section 3, p. 5) et se poursuit par
des items reposant sur la mme logique de rsolution mais dont le niveau
de difficult augmente progressivement. Lobjectif tant de familiariser le
sujet avec le type de raisonnement spcifique la srie ditems afin de
lui fournir une possibilit dapprentissage en cours de tche. Cet objectif
dapprentissage en cours dpreuve est dailleurs clairement indiqu par les
auteurs du manuel (Manuel section 1, p. 65).
Cest aussi par rapport cet objectif dapprentissage quil faut entendre
le terme Progressives : la rsolution des items de chaque srie repose
sur la capacit tirer profit de lexprience acquise dans la rsolution
des items prcdents. Le test value alors en partie la capacit du sujet
exploiter lexprience quil vient dacqurir. Attention cependant : cette
dimension progressive de la tche ne doit pas tre confondue avec de rels
tests dapprentissage utiliss dans le cadre dune procdure dvaluation
dynamique (voir chapitre 7).
Une exprience intressante, ralise par Vigneau et al. (2001), vient
confirmer leffet positif de la progressivit de la difficult. Les auteurs
ont fait passer les items du test de Raven en ordre inverse de la version
habituelle. Les rsultats obtenus indiquent que lpreuve devient alors plus
difficile, ce qui peut prcisment sexpliquer par labsence de cette possibilit
dapprentissage en cours dpreuve.
198
Comment se diffrencient ces cinq sries ditems ?

1. Les problmes de la srie A, premire srie des SPM et donc srie
la plus facile, sont particuliers. Chaque item se prsente comme
un dessin dont il manque une partie. Dans cette srie, la tche
consiste donc complter le dessin propos en se reprsentant les
caractristiques du morceau manquant et en slectionnant la rponse
adquate parmi les six possibilits de rponse offertes. Laspect visuel
et figuratif du traitement de la tche est dominant dans cette srie.
2. Les items de la srie B ont la forme dune matrice quatre lments
dont celui trouver (situ en bas droite) avec six possibilits de
rponse. Les premiers items de cette srie sont assez simples : il sagit
de rpter les configurations proposes. Le niveau de complexit de la
tche augmente ensuite progressivement et ncessite le reprage des
lois de transformation afin de slectionner la bonne rponse.
3. partir de la srie C, les items sont plus difficiles car ils prennent la
forme de matrices neuf lments (et non plus quatre), et la bonne
rponse figure parmi huit propositions et non plus six (voir lexemple
ditem de la figure 4.1). Le nombre dinformations prendre en
compte augmente ainsi sensiblement. La tche est similaire celle des
items les plus difficiles de la srie prcdente : il sagit de reprer les
lois de transformation expliquant les transformations en ligne et en
colonne.
4. Dans les items de la srie D, le sujet doit prendre en compte les
rgles non plus de transformation mais de combinaison des diffrents
lments du problme de manire reprer les caractristiques de la
bonne rponse. Par exemple, il doit identifier la rgle chaque ligne
et chaque colonne doit comporter le mme nombre dlments du
mme type .
5. Dans la dernire srie du test, la srie E, la tche est un peu diffrente
car il sagit dune logique de type addition ou soustraction de figures.
Au final, le test SPM comporte donc 60 items. Le score brut du sujet,
somme des items russis, peut donc varier de 0 60.
199
Remarques sur le SPM

Avant danalyser les qualits mtriques du SPM, nous voudrions proposer
ici deux remarques gnrales sur cette version, lune concerne les limites de
son utilisation en temps limit, lautre concerne ses modalits de rponse.
1. Cette organisation en cinq sries prsente un inconvnient pour une
passation en temps limit. Comme nous lavons indiqu, les items sont
prsents dans un ordre de difficult croissant au sein de chaque srie1 , avec
des premiers items trs faciles, dont la solution doit sauter aux yeux , plus
faciles que les derniers items de la srie prcdente. Cela donne au sujet la
possibilit, lorsquil est confront aux derniers items dune srie, de ne pas
perdre trop de temps chercher la bonne rponse et de passer directement
aux premiers items de la srie suivante. Chaque bonne rponse comptant
pour un point dans le score total, quel que soit le niveau de difficult de
litem, deux sujets de mme niveau de comptence peuvent obtenir au final
des scores diffrents en fonction de leur style de rponse.
En effet, si lun adopte cette stratgie de rponse consistant sauter les items
les plus difficiles, alors que lautre sujet prfre, pour diffrentes raisons,
rsoudre chaque item, mme sil doit passer plus de temps sur les plus
difficiles, le premier sujet obtiendra probablement un score total plus lev
que le second, en particulier si ce dernier na pas eu le temps de traiter tous
les items.
Cette possibilit de biais est dailleurs voque par les auteurs dans le manuel
gnral des Raven. Ils conseillent fortement dutiliser cette version SPM
en temps libre (Manuel section 1, p. 66). Il nous semble que la majorit
des utilisateurs du SPM ne connat pas ce risque potentiel de biais pour
une passation du test en temps limit. Nous reconnaissons que le manuel
spcifique du SPM (Manuel section 3) ne les y aide pas car la plupart des
talonnages figurant dans cette section sont en temps limit !
Nous avons ici un bon exemple de lutilit pour le praticien de consulter
soigneusement, avant dutiliser un test, les informations figurant dans le
manuel.
1. Les sries tant elles-mmes prsentes selon leur niveau de difficult (la srie A tant la plus facile,
la srie E la plus difficile).
200
Recommandation
Nous recommandons donc vivement dutiliser la version SPM en temps
libre, et de prfrer, si lon souhaite effectuer les passations en temps limit,
utiliser la version APM (version Advanced) car dans cette version, comme
nous allons le prsenter plus loin, dune part la phase dapprentissage
est distincte de la phase valuation et, dautre part, les items ne sont pas
organiss en srie ce qui vite ce type de biais.
2. Notre seconde remarque porte sur les modalits de rponse. Nous
avons indiqu que dans le test SPM, comme dailleurs dans les autres
versions des tests de Raven, le sujet ne cre pas la rponse mais il la choisit
parmi plusieurs possibilits proposes selon le principe des rponses choix
multiples. Comme nous lavons indiqu, dans les sries les plus faciles, le
nombre de choix possibles est de six (la bonne rponse + cinq distracteurs1 ),
puis ce nombre augmente partir de la srie C qui comporte huit possibilits
de rponse. Nous savons quavec des rponses de type QCM, la possibilit
de trouver la bonne rponse par hasard nest jamais ngligeable. Cest
pour cette raison quil est ncessaire, dune part, de proposer un nombre
significatif de distracteurs (ce qui est le cas ici) et, dautre part, de sassurer de
lgale attractivit de chaque distracteur. Sur ce dernier point, il nous semble
que pour certains items du SPM, les caractristiques de certains distracteurs
sont si loignes dune rponse probable quun sujet peut rapidement les
carter, ce qui lui laisse au final un nombre plus faible de possibilits de
rponses avec une probabilit non ngligeable de trouver quelques bonnes
rponses par hasard .
De plus, le fait de fournir les rponses possibles, lui permet de mettre en
uvre une stratgie consistant essayer chaque matrice en lappliquant
mentalement sur la partie problme, stratgie du type essais/erreurs qui,
selon nous, relve probablement dun autre type de logique que celle qui est
vise par cette preuve. Pour ces raisons il est souvent prfrable dlaborer
des preuves dans lesquelles le sujet doit produire sa rponse, comme cest
le cas par exemple dans les tests de type dominos ou sries logiques (voir
plus loin en 4.4).
1. Rappelons quun distracteur correspond une possibilit de rponse incorrecte.
201
Les qualits psychomtriques de la version SPM

Depuis la premire dition du test SPM en 1938 de trs nombreuses tudes
ont t menes qui tmoignent de la fiabilit des mesures effectues par ce
test. Les manuels de Raven ne reprennent dailleurs quune partie de ces
diffrentes tudes. Cette fiabilit explique sans doute en grande partie la
longvit de ce test et son succs.
Le manuel prsente les rsultats des principales tudes concernant les
qualits mtriques des SPM, tudes menes sur diffrents pays et sur
des chantillons varis (public scolaire, public adulte...). Ces tudes sont
tellement nombreuses que nous ne pourrons en prsenter ici une synthse
exhaustive (nous renvoyons le lecteur intress vers les manuels). Nous
indiquerons cependant quelques rsultats qui nous semblent parmi les plus
reprsentatifs.
Les indicateurs de validit
Validit concomitante
Il sagit ici de vrifier la liaison existante entre ce que mesurent les SPM et
ce que mesurent dautres tests dintelligence.
Chez les enfants et les adolescents anglophones on observe des liaisons
comprises entre .54 et .86 avec des chelles dintelligence comme celle de
Binet ou celle de Wechsler, avec des liaisons plus leves au niveau du Q.I.
Performance quau niveau du Q.I. Verbal. Cet aspect nest pas surprenant
car le Q.I. Performance est plus proche de lintelligence fluide que le Q.I.
Verbal. On constate dailleurs de faon gnrale dans de nombreuses tudes,
que les liaisons avec les SPM sont plus leves avec des tests non verbaux.
Ce constat vaut galement pour les comparaisons avec les versions
Wechsler pour adultes, comme lindiquent les donnes du tableau 4.1.
Tableau 4.1
Corrlations entre les SPM et la WAIS-III (daprs Grgoire, 2004, p. 224).
WAIS-III
SPM
QI Total
QI Verbal
QI Performance
Subtest Matrices
.64
.49
.79
.81
On retrouve bien ici les rsultats observs avec les autres versions des
chelles de Wechsler : les SPM corrlent de faon relativement importante
avec le QI Total (.64) mais la corrlation est plus leve avec le QI
202
Performance (.79) quavec lchelle verbale (.49), et cette corrlation est

encore plus leve avec le subtest Matrice (.81) qui est, rappelons-le,
directement inspir des tests de Raven.
Les liaisons entre les SPM et des valuations de connaissances sont moins
leves : corrlations variant de .20 .60 selon les recherches (Manuel
section 3, p. 25).
On peut regretter que le manuel ne fournisse pas, sur ces aspects, de
donnes plus compltes relatives des populations franaises.
Validit prdictive
Les corrlations des SPM avec des critres lis la russite scolaire ou la
russite professionnelle varient largement selon les tudes. Les valeurs sont
justes significatives pour certaines et beaucoup plus leves (allant jusqu
.70) pour dautres (voir Manuel section 3, p. 26 et 27). La plupart des tudes
cites dans le manuel sont assez anciennes mais cest sur cette base que le test
a acquis une bonne rputation de validit prdictive. Les ralits scolaires
et professionnelles ayant largement volu, des tudes plus rcentes sur cet
aspect seraient minemment souhaitables.
Validit de concept
Les SPM, comme les autres tests de Raven sont souvent considrs comme
fournissant une mesure relativement pure de facteur g. Cette conception
est nuancer. Les analyses factorielles confirment effectivement une forte
saturation en facteur g des SPM. Mais les tudes concluent galement une
composante spatiale non ngligeable. Pour Carroll1
Les performances aux matrices de Raven sont la fois dtermines par
lintelligence fluide (niveau II) et par le facteur induction (niveau I).
Toutefois, Carroll observe quau niveau I, le facteur Visualisation joue

un rle (Carroll, 1993 cit par Grgoire, 2004, p. 229). Enfin, on peut
galement observer une relation entre SPM et traitement simultan de
linformation (Manuel section 3, p. 29).
Par ailleurs lhypothse de la verbalisation (interne) de la dmarche de
rsolution par le sujet, et de son effet sur la performance, ne peut plus tre
carte. On peut donc considrer, comme dailleurs lindiquent les auteurs
(p. 30), que ce que mesure le test SPM est bien proche du facteur gnral,
et donc de lintelligence fluide, mais nest pas pour autant une mesure pure,
1. Voir les propositions de Carroll sur le modle hirarchique de lintelligence dans le chapitre 1.
203
en raison principalement du rle probable des aptitudes spatiales et, dans

une moindre mesure, verbales.
Les indicateurs de fidlit
La consistance interne
La plupart des tudes de fidlit interne (mthode split-half ) concluent

une fidlit leve avec des coefficients de lordre de .90 ce qui est trs
satisfaisant (Manuel section 3, p. 18).
La fidlit test-retest
Diffrentes tudes font tat de coefficients autour de .90 pour des intervalles
assez courts entre les deux passations et autour de .80 pour des intervalles
plus longs, donnes qui sont trs satisfaisantes.
Les auteurs indiquent une tendance une baisse progressive des scores
avec lge, surtout partir de 50 ans, avec par exemple un score moyen de
48 pour les sujets de moins de 30 ans et un score moyen de 29 pour les plus
de 50 ans (daprs le tableau SPM1, p. 21, Manuel section 3), mais il faut
prendre ces repres avec prudence car les auteurs ne donnent ici aucune
indication sur la constitution des chantillons de sujets. Ce phnomne de
dclin des performances avec lge justifiera la prsence, chez les adultes,
dtalonnages par classes dges.
La sensibilit
Le test SPM est adapt un large public, mais un niveau minimum

correspondant des tudes de collge est ncessaire. En dessous de ce niveau
il faut utiliser la version PM Couleur.
Pour les sujets de niveau suprieur au baccalaurat il est prfrable dutiliser
la version APM, plus difficile.
Si le praticien hsite entre la version SPM et la version APM il peut tablir
un diagnostic rapide avec la premire srie de la version APM, qui contient
12 items, et proposer ensuite la version la plus approprie au niveau rel du
sujet (voir la prsentation de la version APM dans les pages suivantes).
Les talonnages disponibles tmoignent dune bonne sensibilit des SPM.
La standardisation
La passation
Dans la forme classique papier-crayon, le test SPM est un test collectif. La

passation ncessite des cahiers de passation, des feuilles de rponse et des
stylos. Les auteurs distinguent les consignes pour une passation individuelle
204
et celles pour une passation collective. Ils estiment environ 1 heure le

temps de passation.
Attention !
Il faut que le psychologue sassure des caractristiques des talonnages
quil veut utiliser afin de dterminer sil doit limiter le temps de passation.
En effet, les talonnages disponibles sont assez htrognes de ce point
de vue et lon trouve certains talonnages de passations en temps libre,
condition prfrable, mais galement en temps limit (l encore la vigilance
est de rigueur car, selon les talonnages, le temps de passation est de 20
ou 30 minutes !).
Les consignes de passation fournies par les auteurs diffrent en fonction
de la modalit de passation : individuelle ou collective. Pour une passation
individuelle, le psychologue va se servir des premiers items de la premire
srie (items A1 A5) comme items dexemples. Lpreuve proprement dite
ne dbutant alors qu litem A6. Mais pour une passation collective, il ny
a quun seul item exemple, litem A1, lpreuve dbutant alors litem A2.
Ces diffrences selon les modalits de passation dans le nombre ditems
exemples, et donc dans le nombre ditems pris en compte dans la notation,
sont un peu surprenantes et peuvent mme tre sources de biais pour les
sujets de faible niveau, susceptibles de ne pas russir tous les items de la
srie A. Il est vrai que, pour ce type de sujet, il est prfrable dutiliser la
version Couleur.
Les auteurs indiquent lexistence de versions informatises des SPM
(Manuel section 3, p. 41) mais, notre connaissance, ces versions ne sont
pas diffuses en France.
La cotation
Comme gnralement dans les tests collectifs, la cotation est aise. On

accorde ici 1 point par bonne rponse. Le score brut du sujet, somme des
items russis, peut donc varier de 0 60 points.
Les feuilles de rponse sont auto-scorables, la cotation ne prend donc que
quelques minutes.
Le psychologue est invit calculer galement des scores partiels
correspondant chaque srie afin dvaluer la cohrence des rsultats. Il
dispose alors de normes de rfrences qui indiquent, pour chaque score total,
205
la dcomposition thorique de ce score en cinq scores partiels (voir tableau

SPM II, page 59 du manuel section 3).
Par exemple, pour un score brut de 48 points on doit observer la
rpartition suivante : 12 points sur la srie A, 11 points sur la srie B, et 9,
10 et 6 sur les sries suivantes. En cas dcart trop important par rapport
cette rpartition thorique (plus ou moins 2 points) le psychologue peut
sinterroger sur la validit des rsultats. Le manuel donne lexemple de scores
truqus par le sujet, dans le sens dune sous-valuation de ses performances
dans le but dobtenir une indemnisation (voir Manuel section 3, p. 48).
Au-del de cette possibilit, cette approche danalyse des sous-scores nous
semble intressante dans un autre objectif car elle peut permettre de reprer
des patrons de rponses atypiques, par exemple un sujet qui russirait tous les
items des sries les plus difficiles (les sries D et E) mais chouerait certains
items des sries plus faciles. Dans ce cas le profil serait alors intressant
approfondir afin de tenter de comprendre ces checs tonnants : peut-on
les attribuer au niveau de comptence du sujet ? Doit-on envisager dautres
explications, comme par exemple, dventuels biais (erreur dattention...) ?
Ces possibilits danalyses des sous-scores nous semblent particulirement
pertinentes dans le cas de passation auprs de personnes ne matrisant pas,
ou matrisant mal, la langue du psychologue et/ou auprs de personnes
trs loignes, culturellement, des situations de tests, car elles peuvent
permettre de vrifier si le sujet a bien compris les tches proposes dans
les diffrentes sries ditems.
Autre exemple dutilisation : reprer les sujets qui ont adopt la stratgie
de sauter les derniers items des sries difficiles. Toutes ces possibilits
danalyse permettant, trs probablement, de rduire lerreur de mesure,
cest--dire de rapprocher ce qui est mesur par lpreuve (score observ)
du niveau rel de comptence du sujet (score vrai).
Le manuel donne galement les tables de correspondance afin de convertir
un score brut SPM en score brut des autres versions CPM ou APM (voir
Manuel section 3, p. 60).
Les talonnages
Ils figurent dans le manuel ainsi que dans un fascicule talonnages

supplmentaires dit en 2003 par les EAP.
Les talonnages proposs dans le manuel sont nombreux mais il est parfois
difficile de trouver un talonnage pertinent pour un sujet donn. En effet,
206
beaucoup dtalonnages concernent des chantillons de sujets trangers, le

plus souvent de langue anglaise, avec des temps de passation qui ne sont
pas toujours clairement indiqus... De plus certains talonnages sont assez
anciens (on trouve ainsi, par exemple, des talonnages de 1979...).
Dans la plupart des cas, les talonnages prennent la forme de dcilages.
Dans le manuel section 3, sur des chantillons Franais, nous disposons
des talonnages suivants :
1. Un talonnage de 1998 sur 670 enfants de 7 ans 11 ans 12 , passation
en temps libre (tableau SPM 1) ;
2. Un talonnage de 1993/96 sur des collgiens et lycens, en temps limit
de 20 minutes, niveaux 6e 3e , 1re techno, Bac Bac +2 (talonnage
INETOP : tableau SPM 3) ;
3. Un talonnage de 1998, sur 708 candidats emploi jeunes, avec sparation
selon les niveaux (de CAP Bac +3), avec des passations en temps limit
(20 ou 30 minutes selon les groupes) (tableau SPM 2) ;
4. Un talonnage de 1992 sur des publics faiblement qualifis : 160 jeunes
de 16 25 ans, avec ici un talonnage normalis en 9 classes, mais sans
prcisions sur le temps de passation (tableau SPM 5) ;
5. Un talonnage de 1987 sur des ouvriers adultes (distingus par classe
dge), dont on ne nous prcise pas le temps de passation (tableau
SPM 4) ;
6. Un talonnage de 1992 sur 246 candidates des coles des Hpitaux de
Paris, avec un temps de passation de 20 minutes (tableau SPM 6) ;
7. Un talonnage de 1989 sur 136 ingnieurs, temps de passation
20 minutes (tableau SPM 7), talonnage qui ne nous semble pas
suffisamment discriminatif. Rappelons que pour ce type de public il est
prfrable dutiliser la version APM.
Ces diffrents talonnages confirment bien le caractre tout public
de ce test, adapt pour des publics scolaires, des jeunes peu qualifis mais
galement pour des populations niveau bac. Mais nous pouvons remarquer
lhtrognit de ces talonnages, et des conditions de passation (temps
libre/limit 20 minutes/limit 30 minutes).
Pour un test aussi utilis que le Raven, il manque un talonnage
reprsentatif de la population franaise, comparable par exemple aux normes
disponibles pour les chelles de Wechsler. On peut regretter que les diteurs
naient pas ralis un tel talonnage loccasion de la rnovation des manuels
en 1998.
207
Les bases de linterprtation des scores du SPM

Les talonnages disponibles sont le plus souvent des talonnages par
centilages qui ne comportent que les seuils suivants : 5, 10, 25, 50, 75, 90,
95.
Prenons comme exemple un extrait de ltalonnage ralis par lINETOP
(Loarer, 1996) concernant les lves de collges (voir tableau 4.2).
Tableau 4.2
talonnage INETOP (Loarer, 1996) du test SPM, niveau collge
(daprs le manuel SPM, section 3, p. 70).
Niveaux scolaires
Percentiles
6e
5e
4e
95
48
51
53
90
46
50
51
75
43
46
48
50
40
44
45
25
36
38
42
10
30
31
36
27
27
33
Moyenne
38,9
42
44,6
cart type
6,4
7,1
8,1
Comment interprter les scores ?

Une premire tape consiste situer le niveau de performance du sujet par
rapport la population dtalonnage. Avec les donnes de ltalonnage
on connat la moyenne (avant dernire ligne du tableau) et lcart type
(dernire ligne du tableau) de la distribution des scores au test SPM.
Par exemple, pour les lves de 6e , la moyenne est de 38,9 points (sur 60)
avec un cart-type de 6,4, et lon sait quapproximativement 68 % des
sujets se situent entre plus ou moins un cart type de la moyenne, donc
ici entre 32,5 et 45,3. Un lve de 6e ayant par exemple un score brut de
31 points se situe donc en dessous de la moyenne des lves de son niveau
scolaire (qui est de 38,9 points pour ce niveau scolaire), et lgrement
en dessous du groupe moyen que nous venons de dfinir (qui regroupe
68 % des lves), et plus prcisment juste au-dessus du percentile 10.
Autrement dit, seulement un peu plus de 10 % des lves de son niveau
208
scolaire ont un score infrieur au sien. Ce nest pas le signe dun bon
niveau de performance.
Une seconde tape consiste utiliser la grille de catgorisation propose
dans le manuel. Les auteurs proposent une catgorisation des sujets en cinq
classes symtriques, du groupe I capacits intellectuelles suprieures
au groupe V dficience intellectuelle (manuel SPM, section 3, p. 51) :
Classe I : Capacit intellectuelle suprieure si le score atteint ou
dpasse le centile 95 des sujets de son groupe dge. Le sujet se situe

alors parmi 5 % les meilleurs ;
Classe II : Capacit intellectuelle nettement au-dessus de la moyenne
si le score atteint ou dpasse le centile 75. (classe II+ si le score atteint
ou dpasse le centile 90) ;
Classe III : Capacit intellectuelle moyenne si le score se situe entre
les centiles 25 et 75. Cette catgorie regroupe donc 50 % des sujets. On
peut ventuellement indiquer classe III+ si le sujet dpasse le centile 50
et classe III- si le score est infrieur celui ci ;
Classe IV : Capacit intellectuelle nettement infrieure la moyenne
si le score se situe au centile 25 ou au dessous (classe IV- si le score se
situe au centile 10 ou en dessous).
Classe V : Dficience intellectuelle si le score se situe au centile 5
ou au-dessous. Le sujet se situe alors parmi les 5 % les plus faibles.
Il est effectivement prfrable, en particulier en raison de lerreur de

mesure, de caractriser le sujet par une classe plutt que par son score
prcis (cf. la notion derreur de mesure prsente dans le chapitre 2).
Pour reprendre notre exemple de llve de 6e ayant un score brut de
31 points, donc juste au-dessus du centile 10, il se situe alors ici dans la
classe IV Capacit intellectuelle nettement infrieure la moyenne .
Les tudes de cas
Le manuel ne nous propose aucune tude de cas, ce que lon peut regretter,
mais consacre un chapitre au compte rendu des rsultats (voir Manuel
section 3, p. 51 58). Mais celui-ci prsente peu dintrt lorsque le sujet
a pass uniquement le SPM car ce chapitre est plutt consacr lanalyse
compare de deux preuves de Raven (le test SPM et le test de vocabulaire
Mill Hill, qui relve plus de lintelligence cristallise et du vocabulaire).
Dans cette partie du manuel on trouve galement des informations
concernant lanalyse des sous-scores, dont nous avons dj parl, partir
209
des carts entre chaque sous-score et des rfrences thoriques (voir tableau
SPM II, manuel SPM section 3, p. 59). En cas dcarts de plus ou moins
2 points, les auteurs invitent questionner la cohrence des rsultats du sujet.
Sans reprendre nos propositions dveloppes un peu plus haut concernant
lanalyse des sous-scores, nous ne pouvons que conseiller galement aux
praticiens de se pencher attentivement sur le protocole du sujet : analyser
son profil de rponse, reprer les items chous...
Concernant le diagnostic des erreurs, bien que certains chercheurs en
proposent un cadre gnral danalyse (pour une revue de questions sur ce
point voir par exemple Grgoire, 2004, p. 225-229), la pertinence dune
telle analyse semble rduite pour les auteurs du manuel car, selon eux :
Le diagnostic des erreurs demanderait la cration dau moins une nouvelle
version du test. (Manuel section 3, p. 56)
Cette absence est galement releve par Grgoire qui prcise que :
Aucune donne nindique en effet quil soit possible de diffrencier les
individus en fonction du type derreurs commises ou du type de problme
o les erreurs sont observes. (Grgoire, 2004, p. 229)
La version APM des matrices de Raven
Nous venons de prsenter, dune manire assez dtaille, la version SPM la

plus connue des tests de Raven. Nous abordons maintenant, mais de faon
plus synthtique, la version APM (Advanced Progressive Matrices).
Les bases thoriques de la version APM

Cette version Avance repose sur les mmes principes thoriques que la
version Standard SPM, avec des items comparables, donc galement destine
valuer le facteur g et lintelligence fluide. Nous pouvons reprer les
spcificits suivantes de cette version APM :
Elle est plus difficile que la version SPM car elle est adapte des sujets
de niveau minimum Baccalaurat. La version APM vise diffrencier les

sujets qui se situeraient dans les meilleurs scores aux tests SPM (les 25 %
les plus performants) ;
Elle comporte deux sries dpreuves : le Set I, compos de 12 items, est
destin essentiellement familiariser le sujet avec les situations problmes
quil va rencontrer ensuite ; le Set II, qui constitue rellement le test,
210
compos de 36 items rsoudre en temps libre ou en temps limit

(40 minutes) ;
Les items ne sont pas prsents comme ceux de la version SPM : on
ne retrouve pas lorganisation en cinq sries ditems. Les items sont
simplement ordonns selon leur niveau de difficult.
La version APM est donc bien une valuation du facteur g, utilisable
auprs dtudiants et dadultes diplms. Elle fait lobjet dun manuel
spcifique : Manuel des Raven, section 4.
La premire version des APM a t labore en 1943, puis rnove en
1947. Cette premire version, qui comportait 48 items a t rduite
36 items en 1962. Depuis cette date aucun item na t modifi. La version
franaise la plus rcente est date de 1998.

Les tudes de fiabilit des APM prsentes dans le Manuel (section 4),
attestent des bonnes qualits de lpreuve.
Ainsi par exemple, la fidlit, value par la mthode test-retest, varie de
.77 .92 selon les tudes, et la consistance interne varie quant elle de .83
.87. Ces diffrentes valeurs sont trs satisfaisantes.
Les rsultats de diffrentes recherches corrlationnelles sont galement
prsents dont nous pouvons retirer les lments suivants :
Comme la version SPM, cette version APM est fortement lie des
valuations non verbales de lintelligence. On relve par exemple une

corrlation de .42 avec le QI Verbal de la WAIS et de .55 avec le QI de
Performance ;
Des liaisons significatives avec des indicateurs de russite scolaire (validit
pronostique) sont galement observes ;
De mme des liaisons significatives apparaissent avec des critres de
russite professionnelle, mme sil est difficile, comme le soulignent les
auteurs, de prdire la performance professionnelle partir dune seule
variable. La part de variance explique peut paratre ici relativement
modeste (autour de 10 %) mais elle reste selon les auteurs notablement
suprieure aux donnes releves sur dautres tests (Manuel section 4,
p. 43) ;
La validit des APM pour lvaluation du facteur g est donc avre
Les auteurs font cependant (pages 25 36 du manuel) une mise au
211
point utile sur la notion de validit en rappelant que dautres facteurs

que le seul rsultat un test dintelligence comme, par exemple, le
niveau de motivation, doivent tre pris en compte pour expliquer le
niveau de performance dun sujet et/ou prdire un comportement futur.
Ils proposent ainsi leur propre modlisation de lintelligence (voir en
particulier le schma APM 1, p. 32) dans lequel lhabilet ductive,
value par les APM, nest quun des lments, certes central, des
diffrentes variables de cette modlisation.
Ces tudes fournissent des lments attestant dune bonne fiabilit
des APM sont malheureusement plutt anciennes (certaines datent des
annes 1970). Il serait donc utile de disposer dtudes plus rcentes sur des
populations franaises
La standardisation
La passation
Dans le format classique papier/crayon le matriel est compos des deux

cahiers de passation (Set I et Set II) et de feuilles de rponse (auto-scorables).
Selon la procdure classique, la passation dbute avec le Set I (les 12 items
de la srie 1), dont les deux premiers items servent dexemples. On indique
au sujet que cette premire partie est une srie dessais destine lui permettre
de bien comprendre la mthode de rsolution. Il est dailleurs possible de
donner au sujet cette premire srie afin quil rsolve ces items son domicile.
Pour cette srie I le sujet dispose soit de 5 minutes (si la passation du Set II,
seffectue ensuite en temps limit), soit de 10 minutes (dans le cas o la
passation du Set II, seffectue ensuite en temps libre).
Lorsque le sujet a termin le Set I on procde (sans lui) la correction.
Si le sujet a rencontr des difficults dans cette srie, il est alors prfrable
de poursuivre lexamen avec la version standard des matrices (SPM). Dans
le cas inverse, on lui accorde une courte pause puis on lui prsente le livret
Set II qui contient les 36 items de la seconde srie. La passation est alors en
temps libre ou en temps limit (40 minutes).
Le manuel indique quelques variantes selon que la passation est individuelle, collective ou encore lorsque le test est administr sans instructions
verbales.
Les auteurs indiquent galement lexistence de versions informatises,
versions non disponibles en France.
212
La cotation
Grce des feuilles auto-scorables la correction est aise et ne ncessite que

quelques minutes : on accorde 1 point pour chaque item russi. Le score
brut la srie 1 peut donc varier de 0 12 points et le score la srie II, score
rel des APM, de 0 36 points. Contrairement la version SPM rappelons
quil ny a pas ici de possibilit de calcul de sous-scores.
Les talonnages
Nous pouvons ici renouveler les observations que nous avions formules
propos des talonnages de la version SPM :
Les talonnages sont nombreux mais htrognes (du point de vue de la
composition des chantillons comme de celui des conditions de passation :

certains sont en temps libres, dautres ont un temps limit de 30 minutes,
dautres encore de 40 minutes...) ;
De plus, ils portent sur des populations de diffrentes nationalits (britanniques, amricaines, allemandes, chinoises...) mais aucun talonnage
ne concerne des sujets franais. On peut noter que figurent quelques
talonnages concernant la premire srie ditem (les 12 items du Set I).
La standardisation grande chelle la plus rcente des APM date de 1992
auprs dune population britannique. Il sagit dune passation en temps libre
et dun talonnage de type percentile avec les mmes seuils que la version
SPM, soit : 5 ; 10 ; 25 ; 50 ; 75 ; 90 ; 95 (tableau APM 13, p. 89). Il sagit
dun talonnage par classe dge qui distingue 19 catgories (de 12 ans
plus de 70 ans). Les donnes sont galement fournies sous une autre forme
permettant de connatre le rang percentile pour chaque score brut observ
(tableau APM 14, p. 90).
En lisant attentivement les informations relatives cet talonnage, on
apprend que si la passation sur les adultes a bien t ralise lors de la
standardisation de 1992, celle des enfants date en fait de 1979. Il aurait
donc t plus clair de prsenter sparment ces deux talonnages.
Le praticien franais pourra utiliser cet talonnage qui semble, au vu de
comparaisons ralises sur de petits effectifs, assez proche de ce quon pourrait
observer sur des sujets franais. Il peut galement utiliser les talonnages qui
distinguent diffrentes catgories professionnelles (tableau APM 33, p. 104).
Mais il est extrmement regrettable que nous ne disposions pas, dune part,
dun rel talonnage reprsentatif de la population franaise, dautre part, de
normes plus rcentes. Des talonnages par niveaux scolaires et par groupes
professionnels seraient galement trs utiles.
213
Le manuel propose galement une table de conversion qui permet

destimer le score la version SPM partir du score obtenu la version
APM, et inversement (voir tableau APM 27, p. 100 et APM 11, p. 58 pour
les scores levs).
Enfin, on dispose galement dun tableau permettant destimer un Q.I.
partir du score catgoris aux matrices de Raven (tableau APM 29, p. 101).
Attention !
Dune part, il faut bien distinguer ce que reprsente ici lindicateur Q.I.
(qui diffre de ce quil reprsente, par exemple, pour un Q.I. estim partir
dune chelle de Wechsler), dautre part, tout en nous proposant cette
conversion des scores le manuel indique quil ne faudrait pas lutiliser en
raison de la distribution non gaussienne des donnes ! (Manuel section 4,
p. 101). Deux bonnes raisons donc dtre particulirement prudent dans
lutilisation de ce tableau.
Les bases de linterprtation des scores

Comme pour la version SPM, le psychologue commence par reprer le rang
percentile o se situe le sujet, puis il utilise la mme catgorisation que
celle propose pour la version SPM : de la classe I capacit intellectuelle
suprieure la classe V dficience intellectuelle .
On peut regretter, comme nous lavons fait pour la version SPM, quil
ny ait aucune tude de cas prsente dans le manuel.
Lanalyse des erreurs
Cette version APM a fait lobjet de recherches concernant lanalyse des

erreurs. Quatre types derreurs ont ainsi t identifis (Manuel section 4,
p. 15-19) :
Solution incomplte : la rponse slectionne ne contient que certains
aspects de la bonne rponse ;

Mode de raisonnement arbitraire : rponse alatoire ou relevant dun
principe de rsolution non pertinent ;
Choix surdtermin par des lments intrus : choix de la solution la plus
complexe, qui combinent tous les lments prsents ;
Rptitions : choix dune des figures dj prsente dans lespace problme.
214
Daprs les donnes du manuel, les erreurs de type 1 et 2 sont les plus
frquentes : elles reprsentent environ 50 % des erreurs, mais il faut signaler
que cette rpartition fluctue en ralit, selon le niveau des sujets et selon les
items. Le tableau APM 2 (p. 17) fournit ainsi la rpartition des erreurs les
plus frquentes et le praticien pourra y trouver quelque utilit.
Mais rappelons galement que, pour dautres chercheurs, une analyse des
erreurs ne semble pas rellement justifie (Grgoire, 2004, p. 229).
Il peut galement tre intressant danalyser ces erreurs partir des
traitements cognitifs ncessaires la rsolution des items. Nous pouvons
signaler ici que de nombreuses recherches portent sur cette question depuis
celle de Hunt en 1974 jusquaux travaux plus rcents des annes 1990-2000.
Nous citerons en particulier deux exemples de ces recherches :
Carpenter, Just et Shell (1990) ont ralis une analyse cognitive de cette
version des matrices et ont identifi cinq rgles de rsolution. La rsolution

de chaque item ncessite la dcouverte dune ou plusieurs de ces rgles ;
De Shon, Chan, et Weissbein (1995) ont utilis les verbalisations des
sujets pendant la rsolution pour caractriser chaque item des APM selon
le type de rsolution quil ncessite : item analytique, item spatial, item
mixte. Selon leur analyse il y aurait par exemple 12 items analytiques,
13 items spatiaux, 10 mixtes et 1 inclassable. Nous renvoyons le lecteur
intress vers larticle qui propose la typologie complte des 36 items des
APM.
Conclusions gnrales sur les tests de Raven (versions SPM
et APM)
1. Des tests fiables pour valuer le facteur g et lintelligence fluide...

condition de respecter les recommandations des auteurs !
Comme nous lavons indiqu plusieurs reprises, les tests de Raven
ont largement dmontr leur validit comme mesures du facteur g et de
lintelligence fluide. Ils prsentent de plus lavantage de la rapidit de la
passation, ainsi que de la cotation, et permettent, si le praticien le souhaite,
une analyse approfondie du patron de rponse (analyse des sous scores).
Il faut cependant garder lesprit que les auteurs du manuel dconseillent
lutilisation de la version SPM en temps limit en raison du risque de biais
dans lvaluation. Pourtant, comme nous lavons signal, la majorit des
talonnages utilisables du SPM ont t tablis en temps limit...Ce qui
apparat pour le moins paradoxal !
215
Il est de fait probable que la majorit des utilisateurs du SPM utilise cette
preuve en temps limit. Il est alors, dans ce cas, ncessaire de sinterroger
sur la validit du protocole, par exemple, en analysant la rpartition des
sous-scores par srie.
2. Quelle version utiliser : SPM ou APM ? En temps libre ou limit ?
Le premier critre prendre en compte doit tre le niveau du sujet. Le
praticien doit identifier lavance, en fonction du niveau dtude du sujet, la
version la plus adapte (SPM ou APM) ainsi que les modalits de passation
(temps libre ou limit en fonction des talonnages quil souhaite utiliser).
Sil hsite, il peut faire passer le Set I de la version APM et, en fonction des
rsultats, slectionner la version la plus approprie.
Un second critre : limportance de la possibilit dapprentissage au
cours du test. Les auteurs conseillent dutiliser la version SPM (en temps
libre) pour les sujets peu familiariss avec le type de situation propos, en
raison du caractre progressif des items qui fournit au sujet des possibilits
dapprentissage en cours de tche.
3. Des talonnages insuffisants
Quelle que soit la version nous avons signal plusieurs reprises les limites
des talonnages fournis dans les manuels. Il serait ncessaire de pouvoir
disposer :
dtalonnages plus rcents ;

reprsentatifs de lensemble de la population Franaise ;
dtalonnages par niveaux scolaires ainsi que dtalonnages par professions.
De plus, les talonnages en rangs centiles prsentent certaines faiblesses
par rapport la discrimination des sujets (voir ce sujet Grgoire, 2004,
p. 223).
Enfin, on peut regretter dune faon gnrale labsence dtudes de cas.
2.
Le test NNAT (Test dAptitude Non Verbal

de Nagliri)
Le NNAT (Naglieri Non verbal Aptitude Test) a t labor dans les annes
1980 par Naglieri. Il sagit dune rvision et extension dun autre test de
matrice de Naglieri, le MAT (Test de Matrice Analogique), test dit
216
aux tats-Unis en 1985 mais jamais adapt en France. Le test MAT est une
preuve de raisonnement non verbal, assez semblable aux matrices de Raven,
mais destin aux enfants gs de 5 17 ans (manuel NNAT, p. 13).
Directement issu du MAT, le NNAT est donc un test de facteur g et
dintelligence fluide qui sinspire largement des preuves de Raven, comme
on peut le constater figure 4.2.
Figure 4.2
Exemple (modifi) ditem du test NNAT (daprs Naglieri, 1998).
Les items sont assez proches de ceux des preuves de Raven : le sujet
doit reprer les rgles de progression (de transformation) entre les diffrents
lments du problme, puis appliquer ces rgles afin de slectionner la
rponse correcte.
Le NNAT a t dit en 1996 aux tats-Unis, puis adapte en France en
1998. Lpreuve est dite par les ECPA et accompagne dun manuel de
81 pages.
Le NNAT prsente trois caractristiques principales qui le diffrencient
des autres tests de facteur g :
il se dcline en diffrentes formes,
il permet le calcul de sous-scores,
il propose deux types dtalonnage (par niveau scolaire et par classe dge).
217
Les diffrentes formes du NNAT

Le NNAT est compos de sept formes (forme A forme G), chacune adapte
un niveau scolaire, de la maternelle la classe de terminale, comme nous
pouvons le voir dans le tableau 4.3.
Tableau 4.3
Les diffrentes formes du test NNAT.
Niveaux
scolaires
Formes
du NNAT
Maternelle
CP
CE1
CE2-CM1
CM2-6e
5e , 4e , 3e
2e
Terminale
Chaque forme est indpendante (matriels et talonnages spars) mais

toutes comportent 38 items rsoudre en 30 minutes.
Les sous-scores (ou clusters)
Alors que la plupart des tests de facteur g (par exemple, les matrices de
Raven, les tests de type dominos...) ne caractrisent la performance du sujet
que par un score unique1 , le NNAT fournit un score gnral et quatre
sous-scores. Ainsi, partir de lanalyse des types de raisonnement prsents
dans les items du MAT, Nagliri distingue quatre types ditems (appels
galement clusters) :
Compltement de Pattern (P.C),

Raisonnement Analogique (R.A),
Raisonnement en srie (S.R),
Reprsentation Spatiale (S.V).
Chaque item du NNAT tant reprsentatif dun type particulier de

raisonnement, il est alors possible de calculer, pour chaque sujet, quatre
sous-scores. Ces sous-scores apportent une information spcifique sur la
performance du sujet dans un type particulier de raisonnement. Il faut
signaler, et nous le dvelopperons plus loin, que toutes les formes du NNAT
ne contiennent pas obligatoirement ces quatre types ditems.
1. La version SPM de Raven permet, comme nous venons de le voir, de calculer cinq sous-scores
mais dans un objectif trs diffrent.
218
Comment se diffrencient ces quatre types ditems ?

Les items de Compltement de Pattern (PC) se prsentent sous la forme
dun dessin auquel il manque une partie. Le sujet doit complter la

figure en slectionnant le dessin correspondant. Ce sont les items les
plus simples, ils sont donc en assez grande quantit dans les formes les
moins difficiles du test (par exemple 30 items sur 38 sont de ce type
dans la forme A, forme la plus simple du NNAT) et en proportion plus
rduite dans les formes les plus difficiles (il ny a par exemple aucun
item de ce type dans la forme G, version la plus difficile du test) ;
Les items de Raisonnement Analogique (R.A) prsentent des relations
logiques (les rgles de transformation) entre les diffrents lments
du problme. Plusieurs dimensions peuvent varier (forme, hachures,
couleur...) et dterminer ainsi le niveau de difficult de litem ;
Les items de Raisonnement en Srie (S.R) ncessitent pour le sujet de
reprer les rgles de transformations horizontales et/ou verticales, pour
ensuite les appliquer afin de trouver la rponse correcte. Ce type de
raisonnement est en fait trs proche de celui qui prvaut dans les items
de raisonnement analogique ;
Les items de Reprsentation Spatiale (S.V) ncessitent des oprations
dadditions de formes gomtriques, de rotations de figures, de pliages...
Les auteurs indiquent que ce type ditem est assez difficile. Pour cette
raison on les trouve en proportion importante dans les formes les plus
difficiles du test (par exemple, 24 items de ce type, sur 38, dans la
forme G, version la plus difficile du test NNAT).
La rpartition des types ditems dans les tests

Les diffrentes formes du NNAT comportent le mme nombre ditems
(38) mais se distinguent dans la rpartition des diffrents types ditems :
chaque forme ne comprend pas ncessairement les quatre clusters, et la
rpartition entre les clusters est diffrente selon les formes. Les auteurs
justifient ce choix en raison des niveaux de difficult diffrents de chaque
cluster. Par exemple pour la forme A (niveau cole maternelle) on observe
une surreprsentation des items PC, les plus faciles (30 items soit 79 %
des items de la forme A) et une absence des items des catgories les plus
difficiles (aucun item S.R ou S.V dans cette forme), et cest linverse pour
219
la forme G, la forme la plus difficile, qui comporte une majorit ditems

SV. La prise en compte de ces combinaisons diffrentes ditems selon les
versions peut permettre alors au psychologue de mieux comprendre ce qui
est plus particulirement valu dans chaque version du NNAT. Nous y
reviendrons.
Contrairement au test SPM de Raven, qui regroupe les items du mme
type dans cinq sries ditems, dans le NNAT, les diffrents types ditems
sont rpartis sur lensemble de lpreuve.
Deux types dtalonnage

Le NNAT propose deux types dtalonnages :
par niveau scolaire (de la classe de Maternelle la classe de Terminale) ;
par classe dge (de 5 15 ans).
Nous dtaillerons plus loin lintrt de ces talonnages distincts.
Les qualits psychomtriques du NNAT
Llaboration des sept versions du NNAT

Les items du NNAT sont directement issus de la MAT. Les items ont t
slectionns de manire viter au maximum les influences socioculturelles
(manuel, p. 21). De nouveaux items ont t crs pour chaque type de
raisonnement de faon construire les sept formes de test. Les items ont
t expriments, avec analyse des biais, afin de dvelopper les versions
dfinitives du test.
Ladaptation du NNAT
La version franaise du NNAT est une adaptation de la version amricaine

dont elle reprend tous les items. Cette adaptation a t effectue auprs dun
chantillon de 1 78 lves de niveaux varis : des classes de grande section
de maternelle aux classes de Terminales.
Les indicateurs de la sensibilit

Il sagit ici de vrifier le pouvoir discriminant du test : permet-il bien de
distinguer les sujets ? Autrement dit les rsultats sont-ils proches dune
220
distribution Normale (de type Gaussienne) avec un niveau de difficult

adapt aux populations vises ?
Le tableau 9 du manuel (p. 38-39) fournit les valeurs des moyennes et
des carts types pour chaque forme du test. Sachant que chaque version
comporte 38 items, on sattend ce que les moyennes se situent autour
dune valeur de 19 points (qui correspond un pourcentage moyen de
russite de 50 %). De fait, les moyennes varient entre 15,8 27 selon les
versions, ce qui correspond des pourcentages de russite de 41 71 %
selon les niveaux scolaires (voir tableau 15, p. 48 du manuel), les carts types
variant eux de 5,1 8,3.
Si certaines versions semblent un peu trop faciles, ce qui ne facilitera pas
la discrimination des sujets de bon niveau (par exemple, on observe un taux
de russite de 71 % pour la version G destine aux lves de Terminale),
les diffrentes valeurs tmoignent dun niveau globalement satisfaisant de
sensibilit.
Les indicateurs de fidlit

Trois types danalyse sont prsents. Elles portent sur :
la fidlit (ou consistance) interne,
lerreur de mesure
la fidlit temporelle.
Lanalyse de la consistance interne (rappelons quil sagit ici de vrifier dans
quelle mesure tous les items dun test valuent bien la mme dimension) est
ralise par le calcul des coefficients KR 20 : les coefficients varient ici de
.76 .92 selon les formes (manuel, tableau 8, p. 37). On peut considrer ces
valeurs comme satisfaisantes. Par contre, lorsque lanalyse porte cette fois
sur les types ditems (les sous-scores ou clusters) les variations sont beaucoup
plus importantes avec des valeurs comprises entre .23 et .92 en fonction
des formes et des clusters (voir le dtail dans le manuel, tableau 9, p. 38-39).
Linterprtation de ces valeurs doit prendre en compte le nombre parfois trs
faible ditems dun mme cluster mais, et nous y reviendrons, les valeurs les
plus faibles peuvent nous questionner sur lhomognit de certains clusters.
221
Lerreur de mesure est estime environ 2,5 points en note brute1 .

Rappelons que cest un lment ne pas oublier dans la phase dinterprtation
du score du sujet.
Enfin, troisime type danalyse, la fidlit temporelle. Elle est estime par
la mthode test/retest avec un intervalle de 3 5 semaines entre les deux
passations. Les coefficients varient de .47 .82 selon les formes (tableau 10,
p. 41). On peut remarquer que la valeur de .47, qui concerne la forme G,
semble trop faible pour tmoigner rellement dune bonne qualit de fidlit,
mais cette valeur nest pas commente dans le manuel. On observe un gain
denviron 3 points entre les deux passations.
Les indicateurs de validit
La validit concourante avec dautres tests dintelligence
Une seule tude est prsente ici : elle concerne lanalyse de la relation entre
le test NNAT, plus prcisment la forme G, et lpreuve non verbale de
la batterie GAT2 , auprs dun chantillon de 125 lves. La corrlation
obtenue est de .33, ce qui est faible (et les auteurs en conviennent dailleurs,
cf. Manuel, page 42) et beaucoup plus faible que la valeur attendue car
les deux preuves (NNAT et GAT) sont senses valuer le mme type
daptitude.
Pour tenter dexpliquer cette (trop) faible valeur les auteurs proposent
une argumentation reposant sur le contenu mme des items de la forme
NNAT utilise, la forme G, qui est compose dune grande majorit ditems
de visualisation spatiale (24 sur 38) et dont la rsolution suppose des
manipulations mentales spcifiques : rotation dans lespace, superpositions
de figures complexes (manuel, p. 42). Cette argumentation ne nous semble
pas suffisamment convaincante et il aurait t prfrable de pouvoir disposer
dautres lments de validit concourante avec un test comparable, comme
par exemple les matrices de Raven, lments qui viendraient confirmer la
validit du test NNAT comme preuve de raisonnement non verbal de type
facteur g.
Nanmoins, du fait que le NNAT repose sur le mme type de tche que
les matrices de Raven on peut estimer quil value globalement la mme
dimension, mme si la corrlation observe ici peut nous questionner.
1. Ce qui signifie que si un sujet obtient une note brute de 24, il a deux chances sur trois que sa
vraie note se situe entre les notes 22 et 27 (manuel, p. 37).
2. La batterie GAT (Test daptitude gnrale) value laptitude au raisonnement logique.
222
De plus, et cest tonnant que les auteurs ne rappellent pas ici ce point,
les tudes amricaines font tat de corrlations leves (de .63 .78 selon
les formes) entre le NNAT et le MAT (tableau 4, p. 25). Il reste quil est
regrettable de ne pas disposer, sur un chantillon franais, dautres donnes
que la seule tude prsente. Des tudes complmentaires mriteraient donc
dtre menes.
La validit concourante avec des tests scolaires
Plusieurs tudes existent dont les rsultats principaux figurent dans le

tableau 4.4.
Tableau 4.4
Corrlations entre le NNAT et des preuves scolaires (daprs le manuel, p. 44).
Forme NNAT
D
Niveau scolaire
CE2
CM2
E
6e
F
5e et 3e
preuves
Effectif
Corrlation r
NNAT et TNO
50
.45
NNAT et TAS Franais
99
.50
NNAT et TAS Math
97
.53
NNAT et TAS Franais
97
.48
NNAT et TAS Math.
102
.63
NNAT et TNO
104
.32
Les valeurs se situent autour de .50 et nous pouvons observer les points
suivants :
Les corrlations avec le Test dAcquisition Scolaire (TAS) varient de .50
.63, les valeurs tant toujours suprieures avec lpreuve de mathmatiques.

La corrlation la plus leve dans le tableau (.63) tant dailleurs observe
avec cette discipline ;
Les corrlations avec le Test de Niveau dOrthographe (TNO) sont plus
faibles, ce qui peut sexpliquer par la spcificit des acquisitions values
par le TNO.
Ces valeurs sont conformes celles gnralement observes pour ce type
de validit et tmoignent dun niveau satisfaisant de validit du NNAT par
rapport des indicateurs de niveau scolaire.
La validit critrielle avec des apprciations scolaires
Une tude est cite ici qui relie NNAT et apprciations scolaires, partir
dune chelle en trois points : lve bon, moyen ou faible.
Les apprciations sont gnrales ou spcifiques deux matires scolaires
(franais et mathmatiques). Ltude porte sur six niveaux scolaires
223
(maternelle CM2) et concerne au total 760 lves. Des liaisons entre

scores au NNAT et apprciations scolaires sont effectivement observes.
La validit thorique
Une premire tude porte sur laspect dveloppemental de lpreuve. On

sattend par exemple observer un pourcentage de russite plus lev pour
les lves du niveau suprieur lorsque la mme forme sapplique plusieurs
classes. Cest le cas par exemple de la forme F qui sapplique aux lves de
5e , 4e et 3e : les lves de 3e obtiennent bien, en moyenne, de meilleurs
rsultats. Les donnes confirment ainsi laspect dveloppemental du NNAT
(voir dans le manuel, tableau 15, p. 48).
Une seconde tude visait valuer la validit de la structure du NNAT,
structure organise autour des quatre clusters. cet effet une analyse
factorielle confirmatoire a t effectue pour chaque forme du NNAT. Les
rsultats montrent que les clusters attendus apparaissent mais, au moins
dans certaines formes et pour certains clusters, le rattachement de certains
items leur cluster thorique de rattachement pose problme en raison de
saturations parfois importantes sur dautres sous-scores que leur sous-score
de rattachement.
En effet, lorsquon se penche sur les donnes disponibles dans le manuel
(les rsultats complets des analyses factorielles figurent en annexe 2 du
manuel, p. 75 80) on saperoit dune part, que la saturation observe
de certains items avec leur cluster (ou sous-score) dappartenance est faible,
voire nulle, dautre part, que la saturation de certains items avec un autre
cluster est parfois assez forte. Ces observations, que les auteurs nuancent un
peu compte tenu du nombre souvent trs faible ditems par clusters, peuvent
nous questionner sur la typologie des items proposs dans la structure du
NNAT. Autrement dit, le calcul de sous-scores partir des regroupements
proposs nest pas compltement valid par les donnes. Ce qui explique,
dune part, les conseils des auteurs quand linterprtation des sous-scores
ils ne devraient tre interprts que de faon qualitative (Manuel, p. 12)
dautre part, labsence dtalonnages par sous-scores. Nous ne pouvons que
souscrire cette prudence.
Curieusement les auteurs ne nous indiquent pas le dcalage entre ce
quils ont observ ici, sur un talonnage franais, et les rsultats des tudes
amricaines qui ont permis de valider la structure du MAT et de dfinir les
clusters (Manuel, p. 13).
Ces rsultats divergents peuvent-ils sexpliquer par des diffrences au
niveau des outils, par exemple des diffrences entre les items des deux tests ?
Ou sont-ils le signe dune diffrence plus profonde, entre les populations,
224
comme par exemple celle qui a t observ lors de ladaptation franaise du

WISC-III1 ? Une tude complmentaire permettrait sans doute dexpliquer
ces divergences entre recherches et damliorer, du moins on peut lesprer,
la validit des clusters proposs dans la version franaise, donc celle du calcul
de ces quatre sous-scores. Nous y reviendrons.
Ltude des biais

Le NNAT est prsent comme tant culturellement quitable aussi bien
au niveau de lorigine sociale quan niveau du sexe des sujets (manuel, p. 1).
Quels sont les lments du manuel qui permettent aux auteurs daffirmer
ces qualits ?
Analyse des diffrences de russite selon le sexe
Une analyse comparative selon le sexe a t ralise pour les diffrents niveaux
scolaires. Les rsultats montrent quune seule diffrence est significative :
pour les lves de classes de 2de on observe un rsultat suprieur pour les
garons avec une moyenne de 26,55 points contre 23,99 points pour les
filles, soit une diffrence de 2,56 points (manuel, tableau 7, p. 35). Cette
seule diffrence justifierait un talonnage par sexe pour ce niveau dtude.
Pourtant, cet talonnage na pas t labor...
Mme si elles ne sont pas statistiquement significatives, les diffrences
de moyennes qui figurent dans le manuel vont quasiment toujours dans le
mme sens avec une diffrence en faveur des garons dans 9 cas sur 12 (voir
dans le manuel les donnes du tableau 7, p. 35). La non significativit des
diffrences est en outre nuancer compte tenu des effectifs assez restreints
des groupes2 .
Ces remarques nous amnent donc temprer les conclusions des auteurs
concernant lindpendance de la mesure en fonction du sexe et attirer
lattention des praticiens, au moins sur le niveau des classes de 2de pour
lequel un talonnage par sexe aurait t ncessaire.
1. Rappelons que dans cette adaptation les auteurs nont pas retrouv sur lchantillon franais
lorganisation des aptitudes qui avait t observe sur les sujets amricains (voir le chapitre 3 : le
WISC-III).
2. Une mme valeur de diffrence entre deux moyennes sera considre comme statistiquement non
significative lorsque les effectifs sont rduits, et significative lorsque les effectifs sont plus importants.
225
Analyse des diffrences de russite selon lorigine sociale
Mme si le manuel indique la composition des catgories INSEE du chef de

famille (tableaux 5 et 6, p. 29 34) aucune donne nest fournie concernant
la recherche de biais ce niveau. On ne connat donc pas les tudes sur
lesquelles reposent les affirmations des auteurs concernant lindpendance
de la mesure par rapport lorigine sociale.
Au final, on peut observer que les dclarations du manuel concernant
autant labsence de diffrences entre sexe que labsence de diffrences selon
lorigine sociale seraient nuancer, et complter par la prsentation de
donnes dtudes.
La standardisation
La passation
Le test NNAT est une preuve collective.
Le psychologue doit slectionner la version correspondant au niveau du
(ou des) sujets(s) concern(s). Rappelons ce propos quil existe sept formes
diffrentes correspondant aux niveaux scolaires suivants :
Forme A (Grande Section Maternelle),

Forme B (CP),
Forme C (CE1),
Forme D (CE2/CM1),
Forme E (CM2/6e ),
Forme F (5e , 4e et 3e ),
Forme G (2de, 1re , Terminale).
Pour les versions les plus faciles (formes A, B, C et D) le sujet rpond

directement sur le cahier de passation ; pour les versions les plus difficiles
(formes E, F et G) le sujet rpond sur des feuilles de rponse (auto-scorables).
signaler que la premire version du manuel (1998) doit tre accompagne
dun additif, additif inclus dans la seconde version du manuel (1999).
Quelle que soit la version utilise, le cahier de passation comporte
38 items de difficult croissante. Lutilisation ditems en couleur favorise
trs probablement lattrait de lpreuve, surtout chez les sujets les plus jeunes.
Les consignes prcises sont donnes sur la fiche dinstruction, spcifique
chaque forme. La passation dbute par les consignes et les deux items
exemples.
226
Temps de passation : 30 minutes. Avec les consignes et les items-exemples

il faut donc compter environ 40 minutes de passation.
La cotation
On attribue classiquement 1 point par bonne rponse, les scores bruts
peuvent donc varier de 0 38.
Les modalits de cotation diffrent selon les versions :
Pour les formes les plus simples, le sujet rpond directement sur le cahier
de passation, la correction du protocole ncessite une fiche de correction

qui donne les bonnes rponses ;
Pour les formes plus difficiles, avec feuilles auto-scorables, la cotation
est plus rapide : il suffit de comptabiliser les croix (choix de la rponse)
correctement positionnes.
On obtient ainsi le score total du sujet, mais aussi ses sous-scores (score PC,
score RA, score SR et score SV).
Les talonnages
Ils ont t raliss en 1997 sur un chantillon de 1 781 lves de diffrents
niveaux dtudes : des classes de Grande Section de Maternelle aux classes
Terminales de Lyce. Chaque groupe compte environ 120 150 lves.
talonnages du score total
partir du score brut total on peut distinguer ici deux possibilits :

Soit le psychologue cherche situer le sujet par rapport aux lves de son
niveau scolaire : il utilise alors les talonnages par niveaux scolaires partir
de la note brute totale du sujet (talonnages normaliss en 11 classes) ;
partir de la note dchelle (voir plus loin) il est possible dobtenir le rang
percentile du score du sujet par rapport aux diffrents niveaux scolaires ;
Soit le psychologue souhaite situer le sujet par rapport aux sujets du
mme ge, il doit alors transformer sa note brute en une note dchelle
(notes T), puis transformer cette note dchelle en Index dAptitude Non
verbale (notes NAI). Au final cet index NAI sexprime dans une chelle
de moyenne 100 et dcart-type 15, cest--dire dans la mme mtrique
quune chelle de Q.I.
227
Attention !
Cette note NAI, nest pas assimilable un Q.I. et ne doit pas donc tre
interprte comme un Q.I., mme si elle en possde la mme mtrique.
Rappelons que le Q.I, indice dintelligence globale, est lindicateur typique
des chelles de dveloppement de type chelles de Wechsler, qui reposent
sur un ensemble vari de situations et en particulier des items et subtests
reposant sur des aptitudes verbales (exemples : le QIV et lIndice de
Comprhension Verbale ICV), ce qui nest pas le cas ici.
Le NNAT est bien un test non verbal de type facteur g et non un test de
type QI.
Enfin, le manuel propose galement un tableau de conversion entre note
dchelle et ge quivalent , ce qui est assez surprenant car cette notion,
proche de la notion dge mental, nest gure utilise actuellement.
talonnages des sous- scores ?
Nous avons vu que le NNAT permet le calcul de sous scores qui constituent
diffrents indicateurs de la performance. On pouvait alors lgitimement
sattendre disposer dtalonnages par sous-scores. Cependant, en raison
sans doute de la faiblesse de certaines donnes dexprimentation (voir plus
haut), mais aussi, daprs les indications du manuel (manuel, p. 12), en
raison du trop faible nombre ditems qui composent certains clusters, les
auteurs nont pas labor dtalonnages spcifiques pour chaque sous-score
et conseillent de ninterprter que de faon qualitative ces sous-scores.
Le manuel propose comme seule rfrence de comparaison les moyennes,
carts types et erreurs de mesure des diffrents sous-scores pour les diffrentes
formes du test (voir tableau 9 du manuel, p. 38 et 39). Ces lments nous
semblent trop succincts pour tre vritablement utiles au praticien.
Nous regrettons cette absence dtalonnages spcifiques car elle limite
lutilisation de ces indicateurs qui auraient permis de procder une
valuation diagnostique. Cela est dautant plus regrettable que, comme
le prcisent Bernier et Pietrulewicz :
Dans ce type de test, le total ou le score compos est peu significatif ;
ce sont les scores partiels ou les pourcentages de bonnes rponses
des regroupements ditems particuliers qui constituent les mesures
recherches. (Bernier et Pietrulewicz, 1997, p. 224).
228
Cette possibilit danalyse diagnostique des rsultats du NNAT reste donc

actuellement limite.
Les bases de linterprtation du ou des scores
Tenir compte de lerreur de mesure

Avant toute interprtation, il faut se rappeler que la mesure ralise nest
jamais une mesure fiable 100 % compte tenu de la notion derreur de
mesure. Le manuel dailleurs nous le rappelle (voir p. 11). Il faut donc, avant
toute interprtation, tenir compte de cette erreur (on dispose pour cela
des donnes ncessaires dans le manuel) et, par exemple, entourer le score
observ dun intervalle de confiance. Le manuel donne lexemple suivant :
Exemple
Un lve de CM2 qui obtient un score brut de 19 (forme E) est situ dans la
classe 6 de ltalonnage normalis en 11 classes. Mais sachant que lerreur
type de mesure (Sem) est de 2,6, on peut considrer (avec un risque de 10 %)
que le score vrai de cet lve se situe entre 16,4 (cest--dire 19 2,6) et
21,4 (cest--dire 19 + 2,6), cest--dire entre les notes talonnes 5 et 7.
Comme dans le cas des chelles de Wechsler, le manuel nous incite

situer le niveau de llve non pas partir dun score prcis, mais partir
dun intervalle de confiance.
Interprter le score total

Pour pouvoir interprter le score total, il faut dj prciser le type
dtalonnage utilis : talonnage par niveau scolaire ou talonnage par ge.
En effet, comme nous allons le dtailler, linterprtation dun mme rsultat
peut diffrer en fonction de ce choix.
Lorsque llve est lheure , cest--dire scolaris dans la classe qui
correspond thoriquement son ge (situation dun lve nayant jamais
redoubl) les deux normes sont souvent redondantes. Par contre, en cas de
retard ou davance scolaire, il est pertinent de procder aux deux possibilits
de comparaison.
Prenons un exemple concret :
Exemple
Un lve de 6e g de 13 ans 12 , redoublant cette classe et ayant dj redoubl
son CE2, obtient un score brut de 17 points la forme E du NNAT.
229
Si on utilise ltalonnage par niveau scolaire, son score brut de 17 le situe dans
la classe 5 de ltalonnage normalis en 11 classes (manuel NNAT, tableau 5,
p. 71), cest--dire dans la classe centrale. Son score est donc, par rapport aux
lves de 6e , un score moyen.
Mais si cette fois on tient compte de son ge, partir de son score brut
on dtermine sa note dchelle : il obtient une note de 652 (manuel NNAT,
tableau 1, p. 55). On convertit ensuite cette note en indice NAI (Index dAptitude
Non verbale) pour obtenir un indice NAI de 87 (tableau 2, p. 60), cest--dire
presque un cart-type en dessous de la moyenne des lves de son ge.
Ce second type de comparaison, par rapport aux enfants de son ge, montre
alors un lve plus en difficult que lorsquon le compare aux lves de son
niveau de scolarisation. Cest sans doute encore plus visible lorsque lon tient
compte de son rang percentile : par rapport aux lves de 6e , il est situ au
percentile 47, cest--dire lgrement en dessous de la mdiane des lves de
6e (46 % des lves de 6e ont un score infrieur au sien), par contre par rapport
aux enfants de son ge (13 ans 12 ) il est situ cette fois au percentile 19, avec ici
seulement 18 % des enfants (de son ge) qui obtiennent un rsultat infrieur
au sien.
La mme illustration pourrait tre ralise, dans un sens diffrent cette fois,
avec un lve ayant une ou deux annes davance.
Nous voyons bien ici tout lintrt que peut prsenter cette double possibilit
de comparaison pour ces deux types dlves.
Pour interprter le score total il est important, selon nous, car aucun
conseil ne figure dans ce sens dans le manuel, de prendre en galement en
compte la rpartition des types ditems dans chaque forme de test.
Comme nous lavons dj indiqu, chaque forme ne comprend pas
obligatoirement les quatre clusters, et la rpartition entre les clusters est
diffrente selon les formes. La prise en compte de ces combinaisons
diffrentes ditems peut permettre de mieux estimer ce qui est valu plus
particulirement dans chaque version du NNAT. Ainsi, la version G (niveau
Lyce) avec 24 items de type SV, et seulement 7 items SR et 7 items RA,
comporte donc une forte majorit ditems qui reposent sur une logique
spatiale de rsolution (63 % des items de cette forme G sont des items de
type SV), tandis que la version D (niveau CE2/CM1), un peu plus quilibre
dans la rpartition des diffrents types ditems (6 items PC, 10 items RA,
8 items SR et 19 items SV) prsente de manire moins affirme cette
caractristique (cette version D ne comportant que 50 % de ces items SV).
Le praticien aura donc intrt analyser plus prcisment la rpartition
des items de la version quil utilise afin de mieux estimer ce qui est valu
plus spcifiquement dans le test utilis (la rpartition des items est indique
dans le manuel, tableau 2, p. 3).
230
Interprter les sous-scores ?

Nous avons dj signal quelques faiblesses psychomtriques dans laffectation de certains items leur sous-score de rattachement. De plus nous ne
disposons pas ici dtalonnages prcis. Ces diffrents lments ne peuvent
que nous inciter la prudence dans linterprtation de ces sous scores.
Nous avons encore ici un bon exemple de lintrt, pour le praticien, de
lire attentivement les donnes du manuel afin de mieux cerner les intrts
et les limites du test, et donc les limites des scores et sous-scores quil est
amen calculer et interprter.
Interprter le score quivalent ge ?

Nous avons dj indiqu cette possibilit de rfrence. Mais attention ici,
ce score quivalent ge , qui nous semble proche de la notion dge
mental, rfrence qui nest actuellement plus utilise, doit tre interprte
avec grande prudence et toujours en complment des autres indicateurs
talonns. Par exemple, il est bien spcifi dans le manuel que ce type de
score ne doit pas tre utilis dans lobjectif de dcision dorientation (manuel,
p. 17).
Lanalyse des erreurs ?

Dans une perspective dvaluation diagnostique il peut tre intressant de
procder une analyse des erreurs. Par exemple, en cas dchec dans un item
SR, on peut analyser la (mauvaise) rponse du sujet en recherchant quelles
sont la, ou les, rgle(s) de transformation quil na pas prise en compte...
Cette possibilit dvaluation diagnostique des (mauvaises) rponses ne
figure pas dans le manuel mais il nous semble possible danalyser les
erreurs de llve afin, par exemple, de faciliter la liaison entre valuation
et remdiation. Cette approche nous semble tre directement en lien avec
lun des objectifs affichs de lpreuve qui est didentifier les lves ayant des
difficults dapprentissage (manuel, p. 5).
Quelques tudes de ce type existent dj, comme nous lavons indiqu,
pour les Matrices de Raven, et on pourrait envisager de mener de telles
tudes sur le NNAT.
231
Conclusion sur le test NNAT
Le test NNAT prsente des caractristiques intressantes : test collectif,

matriel en couleur, attrayant pour les enfants, diversit de formes
correspondant plusieurs niveaux de difficult, base cognitive danalyse
des items (avec calcul de sous-scores), possibilits de comparaison multiples
(talonnages par niveaux scolaires et talonnages par ge), talonnages
rcents...Mais nous avons prsent certaines de ses limites, en particulier les
limites dinterprtation des sous-scores (ou clusters).
Ce test NNAT est tout fait adapt une utilisation dans un cadre
scolaire, il est par exemple utilis par certains psychologues de lducation
Nationale auprs dlves de 6e en difficult scolaire, afin de reprer ceux
qui pourraient ensuite faire lobjet dun examen individuel approfondi.
Enfin, comme nous lavons dvelopp, une utilisation dans le cadre dune
valuation diagnostique, avec analyse des profils de rponse, et analyse des
erreurs, nous semble intressante mener.
3.
Les tests D48, D70 et D2000
Prsentation des tests
Les tests de type dominos sont assez bien connus des psychologues
franais. Rappelons que dans ces preuves il sagit de trouver les deux faces
dun domino qui vient continuer une srie propose. La figure 4.3 nous
prsente un exemple de ce type ditem.
Figure 4.3
Exemple ditem dun test de type dominos (ECPA).
Le sujet doit indiquer les valeurs du domino qui figure en traits pointills
et qui complte la srie propose.
232
Nous disposons actuellement de trois versions de ce type dpreuve : les

D48, D70 et D2000 (dites par les ECPA).
La premire version franaise de ce test date de 1948, do son nom :
le D48. Cette preuve est directement inspire de lpreuve anglaise de
Anstey de 1943, le test dominoes , expriment la fin de la guerre dans
larme britannique. Anstey cherchait laborer un test concurrent aux
matrices de Raven, diffuses quelques annes plus tt en 1938, et labore
cette preuve qui prsenterait, daprs cet auteur, une saturation en facteur
gnral suprieure celle des Progressive Matrices (Manuel D48, p. 4).
Le D48, adaptation franaise de lpreuve de Anstey, est un test collectif,
de type papier/crayon, qui comporte 44 items, prsents selon un ordre
croissant de difficult. Ce test a t trs utilis, en particulier dans le
recrutement, ce qui explique, en partie1 , la ncessit de procder des
rnovations rgulires. En 1970, une premire rnovation a t ralise avec
llaboration de la version D70.
Ce test D70 a t directement construit partir du test D48, dans lobjectif
dlaborer une forme parallle.
Plus rcemment une nouvelle version D2000 a t diffuse. Le test
comporte maintenant 40 items, avec un temps de passation rduit
20 minutes, mais il constitue une version trs proche des versions antrieures,
avec qui dailleurs il partage un certain nombre ditems.
Le D2000 est prsent comme valuant les mmes dimensions que les
versions prcdentes, cest--dire lintelligence fluide, et plus prcisment le
raisonnement inductif.
Quelle que soit la version, D48, D70 ou D2000, il sagit toujours du
mme type de tche : le sujet doit trouver la rgle de progression, cest--dire
dfinir la (ou les) relation(s) existant(s) entre les faces des diffrents dominos
qui constituent une certaine suite logique, puis appliquer cette (ou ces)
rgle(s) de progression afin de dterminer les caractristiques du domino
manquant.
Il sagit bien ici dune tche dduction de relations et dduction de
corrlats (ou encore dinduction et de dduction), tche typique des tests de
facteur g. Mais par rapport aux autres tests de facteur g existants (comme
par exemple les Matrices de Raven), les tests de dominos prsentent la
particularit suivante : le sujet doit construire sa rponse et non pas la
1. Une autre cause de ces rnovations rgulires est la ncessit dtablir rgulirement des talonnages
rcents (effet Flynn).
233
slectionner parmi plusieurs possibilits (do une probabilit beaucoup

plus faible ici de trouver la bonne rponse par hasard).
En raison du support utilis, des dominos, ces tests sont souvent
considrs comme relevant plus spcifiquement dune logique de rsolution
de type numrique. Pourtant, une analyse approfondie des items tend
montrer, et nous dtaillerons cet aspect plus loin, que cette considration
gnrale ne reflte quimparfaitement ce qui est rellement valu dans ces
tests qui comportent, au moins dans certaines versions, une proportion
parfois importante ditems reposant sur une autre logique de rsolution, et
principalement une logique spatiale (Chartier, 2008a).
Dans la suite de ce chapitre nous nous attacherons prsenter les versions
les plus rcentes : D70 et D2000.
La version D70 a t labore partir de la version D48 (reprise de certains

items et cration de nouveaux items). De la mme manire, la version D2000
a t labore partir de la version D70. Les tudes montrent que les
versions D70 et D2000 sont plus difficiles que la version D48.
Nous pouvons dj remarquer les dimensions rduites des manuels qui
ne comportent quun faible nombre de pages (18 pages pour le manuel du
D70, 30 pages pour celui du D2000).
Pour le D70, nous trouvons des donnes concernent la fidlit interne,
estime par la mthode split-half (corrlation entre les items pairs et les
items impairs), avec une corrlation r de .90, ce qui est trs satisfaisant. Au
niveau de la validit, le manuel indique les rsultats dune comparaison
entre D48 et D70, effectue sur un chantillon de 250 sujets, dans laquelle
on observe une corrlation de .79. Cette valeur tmoigne de la proximit
des deux preuves qui valuent le facteur g.
Pour le D2000, le manuel nous indique que des tudes ont t ralises sur
une premire version exprimentale de 60 items, rduite ensuite 44 items,
pour aboutir la version dfinitive comportant 40 items. Ces items tant
ordonns selon leur degr de difficult.
Concernant la sensibilit de lpreuve, on peut observer que le score brut
moyen est de 18,57 points correspond un niveau de difficult adapt
lchantillon de sujets (taux moyen de russite de 46,4 %). Lcart type de
6,12 points tmoigne dune bonne qualit de la dispersion.
234
Concernant la fidlit de lpreuve, le manuel indique une bonne

homognit interne avec un coefficient alpha de Cronbach de .89. Au
niveau des items, les coefficients phi (corrlation items/tests) sont tous
significatifs et varient de .10 .51 (manuel D2000, tableau 2, p. 23).
Lerreur de mesure est estime 2,02 points.
Pour ce qui est de la validit, trois recherches contribuent lapprcier :
Une comparaison avec le D48, sur un chantillon de 96 sujets, sur lequel
on observe une corrlation de .69 ;
Une tude comparative avec le R2000 (test de raisonnement et de
flexibilit mentale1 ), sur 398 sujets, avec une corrlation de .57. Cette
corrlation, plus faible quattendue, entre deux tests mesurant lintelligence fluide est explique par laspect flexibilit du raisonnement qui ne
serait prsent que dans le R2000 (manuel D2000, p. 24) ;
Une tude avec un test de coping (le CISS), qui conclue labsence de
liaison avec cette dimension.
tonnamment, on ne dispose pas dtude confrontant les mmes sujets
aux versions D70 et D2000.
Les items des tests de dominos
Les items se prsentent souvent en ligne comme lexemple de la figure 4.3

mais dautres formes de prsentation figurent dans les preuves, comme
par exemple des dominos disposs en toile . Quel que soit le type de
prsentation, la tche reste la mme : identifier les valeurs du domino
manquant.
On trouve dans le manuel du D2000 la rfrence un article de Dickes
et Martin (1998) dans lequel les auteurs distinguent quatre types ditems
partir de lanalyse des items impairs du D70 :
Les items spatiaux : ils ncessitent une stratgie de rsolution spatiale.
Dans ce cas, le sujet peut sappuyer sur leur symtrie, rptition, inversion
etc. pour trouver la bonne rponse (Dickes et Martin, 1998, p. 35) ;
Les items numriques : il sagit ici dappliquer des rgles dincrmentation
entre les faces des dominos pour trouver la bonne rponse (par exemple :
ajouter 2 sur une face, retrancher 1 sur lautre face...)
1. Le test R2000 fait lobjet dune prsentation un peu plus loin.
235
Lincrmentation peut se faire sur des faces contigus ou en alternance.

(Dickes et Martin, 1998, p. 35) ;
Les items mixtes : dans ce cas la rsolution dune des faces est effectue
par une rgle spatiale tandis que lautre face ncessite lapplication dune
rgle numrique ;
Les items arithmtiques : la solution est trouve ici par lapplication dune
rgle arithmtique simple (de type a + b = c) entre les faces de trois
dominos.
Les auteurs de cet article nous proposent alors une catgorisation des
22 items impairs de lpreuve D70 et observent, dune part, une forte
proportion ditems spatiaux (ils reprsentent 8 items, soit 36 % des 22 items
analyss) et, dautre part, des diffrences dans le niveau moyen de difficult :
les items spatiaux tant les plus faciles, les arithmtiques les plus difficiles.
Enfin, les mmes auteurs indiquent que cette caractristique du D70,
avec le caractre composite du score total1 , contribue la validit du D70
comme test de facteur g.
Dans le manuel du D70 il est bien spcifi que les items de ce test,
directement inspirs des items du D48, peuvent se diffrencier sur leur
logique de rsolution mais ces logiques ne sont pas mentionnes.
Dans le manuel du D2000 il est indiqu quune catgorisation des items a
t effectue lors de llaboration de lpreuve, avec dans la version provisoire
de 44 items la rpartition suivante : 21 items numriques, 9 items spatiaux,
8 de type mixte et 6 numriques2 (manuel D2000, p. 7). Mais aucun dtail
supplmentaire nest donn pour la version dfinitive comportant 40 items...
(voir plus loin nos propositions de catgorisation des items du D2000).
La standardisation
La passation
Les rgles de standardisation sont comparables pour les deux versions : il
sagit de tests collectifs de type papier/crayon (cahiers de passation et feuilles
de rponse).
1. Qui ne semble pas, pour les auteurs, remettre en cause lunidimensionnalit de la mesure.
2. Il semble quil y ait une erreur dans le manuel qui indique deux reprises des items numriques...
Nous supposons quil sagit ici de 6 items arithmtiques (voir manuel D2000, p. 7).
236
La passation en temps limit : 25 minutes pour le D70 (44 items),

20 minutes pour le D2000 (40 items).
La cotation
La cotation est simple et rapide : on accorde 1 point par bonne rponse.
Il faut signaler que la bonne rponse correspond aux deux faces correctes
et quil ny a pas de points, ou de 12 point, si lune seulement des faces est
correcte.
Les scores bruts possibles peuvent donc varier de 0 44 points pour le
D70, et de 0 40 pour le D2000.
Les talonnages
Les talonnages disponibles dans les manuels nous renseignent sur le niveau
des sujets pour lesquels il est possible dutiliser ces tests.
Quelle que soit la version, on dispose dun nombre trs limit dtalonnages.
Pour le D70, un seul talonnage figure dans le manuel (page 17) : un
talonnage normalis en 11 classes valable pour la population adulte
partir de 18 ans et de niveau culturel BEPC (manuel D70, p. 16). Celui-ci
a t tabli dans les annes 1970, auprs dun chantillon de 623 adultes,
gs de 18 45 ans. Les valeurs caractristiques (moyennes et carts type)
sont indiques pour diffrents niveaux scolaires (du BEPC suprieur au
Bac).
Du fait de lanciennet de cet talonnage, il nous semble peu prudent
dutiliser cet talonnage (en particulier en raison de leffet Flynn : voir
chapitre 1 de ce livre).
Pour la version D2000 lchantillon dtalonnage regroupe 682 sujets,
gs de 18 ans plus de 55 ans. Il doit dater des annes 1999, mais aucune
date nest indique. On peut remarquer quil prsente un dsquilibre au
niveau du sexe (avec seulement 40 % dhommes), au niveau de lge (avec
53 % de sujets gs de 18 24 ans), au niveau du diplme (avec par exemple
29,2 % de niveau dtude Bac +3 Bac + 5) ainsi quau niveau de la
profession exerce.
Ces lments seront prendre en considration dans la phase dinterprtation des rsultats.
237
Au final, le manuel du D2000 comporte deux talonnages en 11 classes

(on suppose quil sagit de 11 classes normalises mais aucune information
ce sujet ne figure dans le manuel) :
Un talonnage gnral, sur les 682 sujets de lchantillon ;
Un talonnage rduit, sur 398 sujets gs de 18 24 ans, postulants
un concours dentre une cole de formation paramdicale (niveau

Baccalaurat). Cet chantillon comporte 75,1 % de sujets de niveau Bac,
et 24,8 % de sujets de niveau suprieur (voir le dtail de cet chantillon
en page 24 du manuel D2000).
Attention !
Les auteurs du manuel conseillent dutiliser cet talonnage uniquement
dans les situations enjeux comparables (situation de concours...).
En effet, pour cet chantillon (N = 398), ils observent un niveau moyen
de russite plus lev que sur le reste de lchantillon dtalonnage (N =
682).
Du fait de labsence de diffrence de russite entre les hommes et les

femmes de lchantillon, il na pas t ncessaire dtablir dtalonnages
spars par sexe.
On peut regretter ici labsence dun talonnage plus reprsentatif de
lensemble de la population franaise et/ou dtalonnages spcifiques par
ge, niveau dtudes et professions.
Linterprtation des scores
Aucune tude de cas ne figure dans les manuels.

Dans les tests de type dominos, lindicateur de la performance du sujet
est un score unique, comme, classiquement, dans tous les autres tests de
facteur g1 .
Aprs avoir, ventuellement, calcul lintervalle de confiance (voir manuel
D2000, p. 22), le praticien va situer les performances du sujet dans
1. Except pour le test NNAT qui propose, comme nous lavons dj indiqu, le calcul de quatre
sous-scores.
238
ltalonnage le plus appropri. Nous disposons ici dun nombre limit

dtalonnages, prsents sous la forme dtalonnages normaliss en 11 classes.
partir de la classe talonne dans laquelle se situe le sujet, il conviendra
alors destimer plus prcisment la position du sujet dans cet talonnage.
On ne peut que regretter labsence, sur les talonnages des D70 et D2000,
des distributions thoriques qui permettraient au praticien deffectuer ces
estimations. Celui-ci peut utiliser les rpartitions thoriques que nous avons
prsentes dans le chapitre 2 (voir tableau 2.3). Par exemple, si le sujet se situe
dans la classe 8, ce score signifie quenviron 72,5 % des sujets obtiennent un
score infrieur au sien, que 11,5 % environ des sujets obtiennent un score
comparable, et que seulement 16 % environ des sujets obtiennent un score
suprieur.
De plus, lhtrognit de la composition des talonnages ne facilite pas
une comparaison prcise des rsultats du sujet.
Propositions pour une analyse du profil de rponse
Si le praticien souhaite effectuer une analyse plus fine des rponses du sujet,
il peut analyser le patron de rponse (pattern) du sujet. Cette approche peut
permettre, au psychologue comme au sujet, daller au-del de la simple interprtation du score global, de rechercher la comprhension de la performance
ralise par la prise en compte des items russis et des items chous. Elle
fournit galement des informations supplmentaires permettant denrichir
la restitution des rsultats, de faciliter la comprhension et lintgration des
rsultats par le sujet.
Pour procder cette analyse, nous pouvons nous rfrer aux premires
recherches de Dickes et Martin (1998) concernant la mise en vidence de
quatre types ditems dans ce type dpreuve (voir plus haut la prsentation
synthtique des principaux rsultats de cet article). Mais rappelons ici que
les donnes ne concernaient que la moiti des items de la version D70. Afin
de complter ces premiers travaux nous avons ralis une analyse plus large
portant cette fois sur lensemble du test D70 (les 44 items) ainsi que sur la
version D2000.
Lapproche que nous proposons ici a fait lobjet de plusieurs communications (voir en particulier Chartier, 2002b) et dun article de
239
synthse (Chartier, 2008a). Cette dmarche danalyse peut tre qualifie de

diagnostique au sens de Bernier et Pietrulewicz (1997, p. 2241 ).
Notre approche vise donc, partir dune analyse cognitive des items,
proposer le calcul de sous-scores, dmarche danalyse analogue celle
prsente pour le test NNAT (voir la prsentation de ce test). Il sagira
ensuite de reprer le type ditems (sous-scores ou cluster) pour lesquels le
sujet montre, par rapport aux autres sujets comparables, un bon niveau de
russite, ou au contraire, un faible niveau. Cette approche permet alors de
reprer les points forts et les points faibles de chaque sujet dans les diffrentes
situations prsentes dans le test.
La premire tape de cette dmarche consiste effectuer une typologie
des items. Pour raliser cette analyse nous avons repris les rgles gnrales
de dfinition de chaque catgorie ditems proposes par Dickes et Martin.
Nous avons ainsi catgoris tous les items de ces deux versions. Ce sont ces
analyses que nous allons maintenant prsenter.
La seconde tape, qui reste en partie raliser, consisterait vrifier la
validit de ces clusters et laborer des talonnages pour chaque sous-score
de manire pouvoir situer le niveau de performance du sujet sur ces
indicateurs.
Lanalyse des items de la version D70

Cette analyse approfondie des 44 items du D70, nous permet de prolonger,
et de confirmer, les analyses de Dickes et Martin : les items du D70 peuvent
se diffrencier sur leur logique de rsolution. Effectivement, partir de la
typologie propose par ces auteurs, nous retrouvons bien quatre catgories
ditems : items spatiaux, numriques, arithmtiques et mixtes.
La catgorisation que nous proposons des 44 items du D70 figure dans
le tableau 4.5.
Nous retrouvons ici globalement les constats de ltude de Dickes
et Martin : le test D70 comporte une majorit ditems spatiaux, qui
reprsentent plus de 45 % des items de lpreuve, une proportion beaucoup
plus faible ditems numriques (27,3 %) et ditems mixtes (20,3 %), et un
trs faible nombre ditems arithmtiques (3 sur 44, soit moins de 7 %).
Lpreuve D70 est donc assez dsquilibre au niveau de la rpartition
des diffrents types ditems et elle prsente davantage ditems relevant dune
logique spatiale que ditems relevant des autres logiques de rsolution, ce
1. Voir dans les pages prcdentes, concernant le NNAT, leur dfinition des tests diagnostiques.
240
Tableau 4.5
Proposition de catgorisation des 44 items du test D70.
Type ditem
Nombre ditems
Pourcentage ditem
Numro des items
Spatial
20
45,5 %
1-2-3-4-6-8-11-12-13-14-15-16-17-1819-23-31-32-41-44.
Numrique
12
27,3 %
5-7-10-21-22-29-34-35-36-39-40-42.
Arithmtique
6,7 %
37-38-43.
Mixte
20,5 %
9-20-24-25-26-27-28-30-33.
Total
44
100 %
qui va sans doute lencontre des reprsentations concernant ce test (pour

nombre de psychologues le test D70 reposerait essentiellement sur une
logique numrique...).
Concernant le niveau de difficult des types ditems nous retrouvons ici
le second constat relev dans larticle de Dickes et Martin : nous observons
en effet, sur un chantillon de 382 adolescents (scolariss en classe de 3e de
collge ou de 2e de Lyce) une difficult plus faible (en moyenne) pour les
items spatiaux et les items mixtes, et une difficult plus leve (toujours en
moyenne) pour les items numriques et pour les items arithmtiques1 .
Analyse des items de la version D2000

Lanalyse que nous venons de prsenter concernait les items du test D70
mais la mme dmarche peut sappliquer toute preuve de domino. Nous
avons donc poursuivi notre analyse mais cette fois partir de la version la
plus rcente de ce test : le D2000. Nous prsenterons ici uniquement les
rsultats de lanalyse des items car nous ne disposons pas encore de donnes
de passation.
Dans cette version D2000 les auteurs du manuel citent larticle de Dickes
et Martin, nous indiquent bien quune catgorisation des items a t effectue
lors de llaboration de lpreuve mais ils ne donnent pas le dtail de cette
catgorisation. En labsence de ces informations nous avons donc ralis
une analyse des items du D2000 partir des mmes rgles de catgorisation
1. Les constats sur les items arithmtiques mritent dtre nuancs car, dune part, ils sont situs en
fin dpreuves et tous les sujets ne les ont pas abords (du fait de la limite de temps), dautre part, le
sous-score arithmtique repose que sur un faible nombre ditems (3).
241
que nous avions utilises dans notre analyse du D70. Les rsultats de cette
analyse figurent dans le tableau 4.6.
Tableau 4.6
Proposition de catgorisation des 40 items du test D2000 (Chartier, 2008a).
Type ditem
Nombre ditems
Pourcentage
Numro des items
Spatial
22,5 %
2-9-10-12-14-30-32-35-40
Numrique
21
52,5 %
1-3-4-5-7-8-13-16-17-19-21-22-23-2425-26-27-28-29-31-34
Arithmtique
12,5 %
8-33-37-38-39
Mixte
12,5 %
6-11-15-20-36
Total
40
100 %
Le constat global est le suivant : la majorit des items de cette version D2000 relvent dune logique numrique (21 soit 52,5 % des items de
lpreuve), une plus faible proportion relve dune logique spatiale (9 items,
soit 22,5 %), et une proportion encore plus faible (12,5 %) pour les deux
autres logiques de rsolution.
Conclusion sur lanalyse des items du D70 et du D2000

Nos rsultats confirment donc les premires analyses de Dickes et Martin
concernant lexistence de diffrentes logiques de rsolution dans les
tests de type domino : nous avons ainsi distingu des items spatiaux,
numriques, arithmtiques et mixtes. Les tests domino ne reposent donc
pas exclusivement, comme le pense sans doute souvent un certain nombre
de praticiens (et de chercheurs), sur un seul type de logique. Lobservation
dune pluralit de logique de rsolution au sein dun test de facteur g nest
dailleurs pas rare, rappelons par exemple les nombreuses analyses sur les
Matrices de Raven depuis celles de Hunt dans les annes 1970 (Hunt, 1974),
jusquaux analyses plus rcentes, comme par exemple celles de Carpenter,
Just et Shell (1990) ou de De Shon et al. (1995). Cest dailleurs sans doute
en raison dune pluralit de logiques de rsolution que ces tests de dominos
semblent tre de bons reprsentants du facteur g, comme lavaient dj
soulign Dickes et Martin (1998).
Lanalyse des items des versions D70 et D2000 que nous avons ralise
nous conduit proposer les commentaires suivants :
242
La composition de la version D2000 est sensiblement diffrente de celle
de la version D70 : si le test D70 repose surtout sur des items ncessitant
des rgles spatiales de rsolution, la version D2000 repose plutt sur des
items qui ncessitent des rgles numriques. Bien que lon considre ces
deux versions comme proches, cette diffrence mrite notre attention ;
Pourquoi ne pas avoir profit de cette rnovation du test des dominos pour
quilibrer les diffrentes catgories ditems ? Ce qui aurait ventuellement
permis le calcul de quatre sous scores reposant chacun sur un nombre
suffisant ditems ;
On peut sinterroger sur la pertinence de placer la majorit des items
Arithmtiques en fin dpreuve du D2000 (les items 37, 38 et 39 soit
3 items sur 5) ce qui a comme consquence de limiter grandement le
nombre de sujets qui auront loccasion daborder ces items, par manque
de temps.
Recommandation
Ces deux sries dobservation, dune part la diversit des logiques de
rsolution des items, dautre part, le dsquilibre dans leur rpartition
selon les versions des tests (D70 et D2000), peuvent tre des informations
utiles au praticien.
En effet, elles lui permettent de mieux connatre ce qui est principalement
valu par chaque version du test et concourent alors amliorer les
donnes concernant la validit de ces tests. Elles permettent galement
didentifier les diffrentes logiques de rsolution qui doivent tre
appliques par le sujet tout au long de lpreuve et contribuent ainsi
lidentification des difficults rencontres par un sujet dans un item
particulier, ou dans une catgorie ditems.
Plus globalement, la dmarche danalyse des rponses que nous proposons
ici permet galement au praticien denrichir la phase de restitution des
rsultats qui reste centre trop souvent, sur ce type de test, autour de
linterprtation du seul score total. En effet, et ceci est valable plus
gnralement dans tout test de facteur g, il est souvent difficile de dpasser
le constat du seul score total car on sait que ce type dindicateur donne peu
dinformation sur les conditions de ralisation de la performance (Huteau et
Lautrey, 1999a ; Huteau, 2001 ; Lautrey, 2001). Cette dmarche danalyse
que nous proposons ici, qui se place plus globalement dans le cadre dune
243
valuation diagnostique, permet de fournir quelques pistes explicatives

concernant la performance du sujet dans lpreuve. Pistes quil est possible
ensuite de dvelopper avec le sujet, par exemple, lors dun entretien de
restitution.
Cette approche diagnostique rejoint galement les proccupations
actuelles de chercheurs qui visent combiner une valuation quantitative
une valuation qualitative dans une approche intgrative de lintelligence
(Rozencwajg, 2005).
Enfin, nous pouvons signaler une autre direction de recherche sappuyant
sur des tests de type dominos. Il sagit ici de procdures exprimentales,
dveloppes par Rmy (2001) et Rmy et Gilles (1999) visant mettre en
vidence des diffrences interindividuelles dans les stratgies de rsolution
ditems de type dominos. Dans leur preuve exprimentale les auteurs ont
labor des items pouvant tre rsolus soit par une stratgie spatiale, soit
par une stratgie numrique. Et selon la stratgie employe (numrique ou
spatiale), la bonne rponse est diffrente1 . Ainsi, en analysant la rponse
donne par le sujet un item, condition bien entendu quil sagisse
dune des deux bonnes rponses prvues, on peut en infrer directement
la stratgie utilise par le sujet. Ce dispositif permet alors de reprer la
stratgie prfrentielle du sujet mais galement son niveau de flexibilit
(utilisation des deux stratgies en fonction des caractristiques des items).
Mais ces recherches ne semblent pas avoir t finalises par llaboration
dune preuve dite et/ou utilisable par un praticien.
Conclusion sur les tests de dominos
Les versions D70 et D2000 que nous venons de prsenter sont considres
comme des tests mesurant le facteur g. Pourtant, sans remettre en question
cette considration, les donnes dtudes disponibles dans les manuels nous
semblent insuffisants. Il manque, par exemple, une tude de validit portant
sur les liaisons entre le D2000 et un autre test de facteur g (la faiblesse de la
seule tude prsente dans le manuel2 est dailleurs souligne par les auteurs :
voir page 24 du manuel D2000).
1. Il y a donc ici 2 bonnes rponses par item.

2. Rappelons que cette tude porte sur le test R2000, avec une corrlation observe entre les deux
preuves de .57.
244
De plus, et nous lavons dj indiqu, les talonnages disponibles sont en

nombre trop limit : il serait ncessaire de disposer dtalonnages par ge
et/ou par niveau scolaire et/ou par profession.
Il reste que ces preuves prsentent les avantages des autres preuves
de type facteur g (rapidit de la passation et de la correction) avec ici un
avantage particulier : il est demand au sujet de crer sa propre rponse,
alors que dans les tests comparables il doit uniquement, le plus souvent,
slectionner lune des possibilits de rponse (preuve de type QCM). Cette
particularit des tests de dominos permet ainsi de rduire grandement le
risque de donner une bonne rponse par hasard .
Nous avons illustr que ce type de test pourrait permettre une analyse plus
fine des rponses des sujets. Pourquoi ne pas avoir profit de cette rnovation
pour proposer au psychologue les outils (catgorisation de chaque item,
procdure de calcul des sous-scores, talonnages spcifiques...) permettant
deffectuer une telle analyse ? Une application trs concrte des rsultats
de recherches tait donc possible ici et, sans remettre en cause lintrt
du D2000, on ne peut que regretter le caractre trop classique de cette
rnovation.
Nous avons prsent nos propositions de catgorisation des items du
D70 et du D2000, avec les premiers lments dun cadre dvaluation
diagnostique des rponses des sujets dans ce type dpreuve.
4.
Le test R85/R2000
Le test R2000 (test de Raisonnement, version 2000), dit en 2000 aux

ECPA, est directement issu du test R85 (de 1985) et du test de raisonnement
de Pierre Rennes de 1952. Cest une preuve prsente comme tant une
mesure de lintelligence fluide, utilisable chez des sujets de niveaux dtudes
suprieures.
La particularit de cette preuve est quelle repose sur un matriel assez
vari (verbal, numrique et mixte) et value alors galement la flexibilit
du raisonnement, dfinie ici comme la capacit de passer dun type de
raisonnement un autre (manuel R2000, page 1).
Les tches proposes sont donc assez diverses, tant au niveau des supports,
quau niveau de la tche relle quil sagit souvent de dcouvrir. Il peut sagir,
245
par exemple, de continuer une suite logique de chiffres, ou de lettres, ou

encore de reprer un intrus...
Les exemples suivants permettent de se faire une ide de la diversit des
items :
36 12 24 4 ?
Il sagit ici de trouver le chiffre qui vient remplacer le point dinterrogation.
chapeau soulier robe miroir gant
Il sagit ici de comprendre quil faut reprer (souligner) lintrus.
Nous nous centrerons ici sur la prsentation de la version la plus rcente de
ces preuves : le R2000. Cette version comporte 40 items rsoudre en temps
limit (20 minutes).
Pour laborer la forme R2000 les auteurs sont partis de la forme R85 (qui
comporte 40 items) et ont labor 80 nouveaux items. Ces 120 items ont
t tests ( partir de 2 versions parallles) et 40 items ont t slectionns
pour la version dfinitive du R2000 : 15 items verbaux, 10 items mixtes et
15 items numriques.
Cette version dfinitive a t exprimente sur un chantillon de 625 sujets
adultes, de niveau minimum Bac, en situation professionnelle dvaluation
(recrutement, bilan, gestion de carrire...).
La sensibilit de lpreuve
Avec un score brut moyen de 15,12 points, soit un taux moyen de russite
de 37,8 %, nous pouvons constater la difficult de lpreuve. Cette difficult
est progressive avec 92,8 % de russite sur litem 1 et 9,8 % sur le dernier
item (voir table 3, p. 23 du manuel). La version R2000 est plus difficile que
la version R85.
Lcart type de 6,56 points tmoigne dun bon niveau de dispersion.
La fidlit
Lhomognit interne est value par le calcul de lalpha de Cronbach : la
valeur observe de .89 est satisfaisante.
246
Les corrlations items tests phi sont toutes significatives au seuil de .01,
et varient de .06 .47.
Lerreur-type de mesure est estime 2,13 points.
La validit
Concernant la validit, le manuel fait tat des rsultats de trois recherches :
Une comparaison avec le R85, sur un chantillon de 62 sujets, sur lequel
on observe une corrlation de .67. Le manuel indique un degr de

liaison important entre ces deux preuves (manuel R2000, p. 26) mais
nous pourrions nous attendre observer une valeur suprieure ;
Une tude comparative avec le D20001 , portant sur 398 sujets, avec une
corrlation de .57 (il sagit visiblement de la mme tude que celle qui a t
prsente dans le manuel du D2000). La valeur de cette corrlation entre
deux tests mesurant lintelligence fluide, visiblement un peu faible selon
les auteurs du manuel, est explique, dune part, par laspect flexibilit du
raisonnement qui ne serait prsent que dans le R2000, dautre part, par la
diffrence de supports (manuel R2000, p. 25) ;
Une tude avec un test de coping (le CISS), qui conclue labsence de
liaison avec cette dimension.
La standardisation
La passation
Le R2000 est un test de type papier/crayon, dans lequel le sujet rpond
directement sur le cahier de passation (1 feuille A4, pli en A5). Aprs les
6 exemples, la passation des 40 items de lpreuve se droule en temps limit
(20 minutes).
La cotation
La correction est rapide et seffectue laide dune grille. On accorde 1 point
par bonne rponse. Le score brut peut donc varier de 0 40 points.
1. Le test D2000 a t prsent plus haut.
247
Les talonnages
Lchantillon dtalonnage comporte 625 sujets adultes, gs de 18 54 ans.
Cet talonnage doit dater des annes 1999 mais aucune date nest indique.
Lchantillon comporte des dsquilibres par rapport au sexe, avec une
majorit de femme (elles reprsentent prs de 72 % de lchantillon), par
rapport lge, avec une majorit de sujets dans la classe 18-24 ans, ainsi
que par rapport au niveau scolaire. Mais seule la diffrence entre les sexes
est significative, avec des rsultats en faveur des hommes. Pour cette raison
les auteurs proposent un talonnage spar par sexe.
Au total quatre talonnages figurent dans le manuel. Il sagit dtalonnages
en 11 classes, quon suppose tre des talonnages normaliss (mais aucune
indication ce sujet ne figure dans le manuel) :
un talonnage global, sur les 625 sujets de lchantillon ;

un talonnage hommes (sur 175 sujets) ;
un talonnage femmes (sur 448 sujets) ;
un talonnage rduit, sur 398 sujets, candidats un concours.
On peut raisonnablement supposer que cet chantillon de 398 sujets est

identique au sous-chantillon de 398 sujets cits dans le manuel du D2000.
Mais alors que dans le D2000 il est question de 398 jeunes inscrits un
concours dentre dans une cole des formations paramdicales (manuel
D2000, p. 24) il est ici question de jeunes filles inscrites un concours
(manuel R2000, p. 25). Comme pour le test D2000, les rsultats moyens
observs sur cet chantillon sont suprieurs ceux de lchantillon total,
ce qui peut sans doute sexpliquer par la nature de la situation (concours).
Les auteurs du manuel proposent galement de rserver lutilisation de cet
talonnage pour des femmes, jeunes, de niveau dtude Bac et dans des
situations enjeux (concours, recrutement...) (manuel R2000, p. 26).
Comme pour le test D2000, on ne peut que regretter labsence dun
talonnage plus reprsentatif de lensemble de la population franaise et/ou
dtalonnages spcifiques par ges, niveau dtudes et professions.
Linterprtation des scores
Aucune tude de cas ne figure dans le manuel (qui ne comporte que 31 pages).
Linterprtation des scores suivra ici la mme dmarche que celle propose
pour le D2000 : il sagira de situer prcisment le niveau de performance du
248
sujet dans ltalonnage le plus appropri (nous ne reprenons pas ici lexpos
de cette dmarche et renvoyons le lecteur vers la partie interprtation du
D2000).
Dans linterprtation de ce score il faudra bien entendu prendre en compte
les spcificits de lchantillon dtalonnage, qui sert de rfrence.
Conclusion sur le test R2000
Ce test R2000 est un test qui semble difficile et quil faut rserver aux
sujets de niveau dtude minimum Bac/Bac +2. Du fait de son niveau de
difficult, et du support vari, il peut susciter un niveau lev de stress lors
de la passation. Stress quil faudra ventuellement prendre en compte, par
exemple en questionnant le sujet dans la phase de restitution des rsultats.
Ce test prsente cependant lavantage de discriminer les sujets de haut
niveau de qualification (par exemple des ingnieurs). Il est rapide et facile
corriger.
Il mriterait cependant dtre accompagn dtalonnages spcifiques par
niveau dtudes et/ou professions.
5.
Quelques autres tests de facteur g

Comme nous lavons dj indiqu, il nest pas possible dans cet ouvrage de
faire figurer une analyse dtaille de chaque test disponible en France. Nous
ne donnerons donc ici que quelques informations sur trois autres tests de
mme type :
le test de Culture Fair de Cattell,

le BLS4,
le B53,
le RCC.
Le test Culture Fair de Cattell
Le Culture Fair Intelligence test de Cattell, labor en 1940, est une des
tentatives de mesure de lintelligence fluide, indpendante de la culture
(culture free) ou encore culturellement quitable (culture fair). Lune des
249
spcificits de cette preuve est de prsenter quatre formats ditems afin,

justement, dviter de dsavantager certains sujets par la prsentation dun
seul type ditem :
des complments de sries,

des classifications,
une preuve de matrice,
une preuve spatiale.
Une version de 1986 est dite par les ECPA mais, selon Grgoire,
certaines qualits psychomtriques semblent un peu faibles (Grgoire, 2004,
p. 236).
Le BLS 4
Il sagit dun test assez ancien de Bonnardel, labor dans les annes 1950
et qui a t rnov en 2000 et diffus par les EAP. Bonnardel prsente
son preuve comme une preuve de facteur g et de potentiel intellectuel
(Thibaut, 2000). Dans cette preuve le sujet doit continuer une srie
propose.
MODLES
RPONSES
3
4
Figure 4.4
Exemple ditem de BLS 4.
Exemple
Dans cet exemple, le sujet doit slectionner la rponse (parmi 6 possibilits)
qui vient continuer le modle . Le BLS4 comporte 30 items de ce type.
On peut signaler ici deux spcificits de cette preuve :

Il en existe deux versions : lune sous la forme de questions fermes
(rponse slectionner, comme lexemple de la figure 4.4), lautre sous

la forme de questions ouvertes (rponses construire). Chaque version
possde ses propres talonnages ;
250
Le manuel propose une analyse des erreurs qui permet au praticien
dapprofondir les rponses du sujet.

Cette preuve est adapte des sujets de niveau Bac et post-bac. Avec un
temps de passation de 10 minutes cette preuve est assez courte. Ce test est
utilisable en procdure dorientation et en recrutement (Thibaut, 2000).
Le test B53
Cette preuve, galement de Bonnardel, a t rnove en 2000 (et diffus

galement par les EAP) Il sagit galement ici dune tche typique de test
de facteur g bas sur la dcouverte de lois de progression entre diffrents
lments.
3
1
Figure 4.5
Exemple ditem du B53.
Exemple
Le sujet doit indiquer ici quelle est la figure de droite, parmi les six possibilits,
qui doit continuer la srie propose.
Le B53 comporte 65 items de ce type (dont les 5 exemples), de diffrents
niveaux de difficult. Le temps de passation est limit (15 minutes).
La feuille de rponse, auto-corrective, permet une correction trs rapide.
Ce test est utilisable auprs dun public vari : du niveau BEP au niveau
Bac + 2 : 10 talonnages sont disponibles Enfin, on peut signaler que le
manuel est commun aux deux tests BLS4 et B53.
Le test RCC1
Il sagit dune preuve de raisonnement sur support de cartes jouer. Une

suite de cartes est prsente au sujet qui doit dterminer les caractristiques
1. Raisonnement sur Cartes de Chartier (Chartier, 2008b).
251
de la carte qui vient continuer (ou complter) cette srie. La version

exprimentale de cette preuve est en phase ddition (chez Eurotests). Elle
permet de recueillir plusieurs indicateurs (Chartier, 2008b) :
un score total ;
deux sous scores : numrique et spatial (en fonction des logiques de
raisonnement identifies) ;
une analyse des erreurs.
CHAPITRE
5
Les batteries factorielles
Sommaire
1. La batterie NV7 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Page 255
2. La batterie NV5-R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Page 271
3. La batterie DAT 5 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Page 283
255
ES preuves que nous allons maintenant prsenter sont directement
issues des propositions de Thurstone concernant lexistence

daptitudes diffrencies (voir chapitre 1). Elles prennent souvent
le nom de batteries factorielles car chaque batterie est constitue dun
ensemble de tests. Lune des principales caractristiques de ce type
dpreuve est quelles offrent la possibilit dtablir un profil des rsultats
du sujet en fonction des aptitudes values. Il sagit l dune diffrence
importante avec les tests de facteur g qui ne fournissent gnralement quun
score unique.
Les batteries factorielles sont le plus souvent des preuves collectives,
de type papier-crayon. Chaque preuve dune batterie vise valuer une
aptitude dfinie et fait lobjet de consignes et dtalonnages spcifiques.
Ainsi, en fonction de ses objectifs, le psychologue peut choisir de faire passer
la batterie de tests en totalit ou de slectionner certaines preuves, ce qui
permet une certaine souplesse dutilisation.
Nous prsenterons dans ce chapitre les principales batteries utilises en
France : les batteries NV5, NV7 ainsi que la DAT5.
Chaque preuve possde ses spcificits, comme par exemple le nombre
daptitudes values ou les talonnages disponibles. Par exemple, la DAT5
et la NV7 se distinguent sur le nombre daptitudes prises en compte (8 pour
la DAT5 et 10 la NV7) mais galement sur le public vis, la NV7 tant
labore pour des jeunes adultes de faible niveau de qualification, alors que
la DAT5 est talonne sur des publics scolaires de niveau fin de collge et
de Lyce ainsi que sur des adultes.
1.
La batterie NV7
La batterie NV7 est une cration franaise (Bernaud, Priou, Simonet) dite
en 1993 aux EAP.
Lobjectif des auteurs tait de crer une batterie multifactorielle dvaluation des aptitudes destine un public faiblement qualifi. Pour laborer
cette preuve, les auteurs ont slectionn un certain nombre de tests, diffuss
antrieurement, pour les runir sous forme dune batterie. La NV7 a t
dite en 1993 mais elle regroupe en ralit des tests beaucoup plus anciens,
256
dont certains, nous le verrons plus loin, prsentent des caractristiques

historiquement marques (utilisation dimages en noir et banc, style de
graphisme des images des items...).
Les consignes et les contenus des items sont adapts un public de
faible niveau scolaire, sans qualification, ou avec un niveau infrieur au Bac
professionnel (voir les talonnages disponibles).
Cest une preuve trs utilise actuellement dans les pratiques de bilan
de comptences auprs de publics peu qualifis, mais galement dans des
valuations de type retour lemploi auprs de sujets qui possdaient
un niveau de qualification suprieur mais qui, suite diverses circonstances
(accidents, arrt prolong de lactivit professionnelle...) sinterrogent sur
leur niveau actuel de performance.
Les auteurs ont par la suite labor une version plus difficile, la NV5-R,
adapte des sujets de niveau suprieur (niveau Bac et plus) que nous
prsentons plus loin.
La batterie NV7 comprend dix preuves (ou subtests) :
1. Raisonnement dductif (R1),
2. Raisonnement inductif (R2),
3. Raisonnement analogique (R3),
4. Raisonnement pratique-technique (R4),
5. Spatial,
6. Problmes,
7. Oprations,
8. Attention,
9. Orthographe,
10. Comprhension verbale.
Certaines de ces preuves sont proches des aptitudes mentales primaires
de Thurstone (exemple : les preuves de raisonnement et daptitude spatiale)
tandis que dautres renvoient des apprentissages scolaires (exemple :
Orthographe).
La passation complte de la batterie ncessite environ 1 heure 45 minutes.
Dtaillons maintenant chacun de ces tests.
preuve de Raisonnement dductif (R1)

Elle value la capacit raisonner du gnral au particulier et comporte
24 items (dont 2 items dexemple) rsoudre en 8 minutes. Les items
prennent la forme de quatre images ordonnes. Le sujet doit indiquer si
257
la suite chronologique est respecte (rponse exacte ) ou non (rponse

inexacte ).
1
1
A = exact
B = inexact
Figure 5.1
Exemple ditem du subtest Raisonnement dductif (R1).
Deux remarques sur cette preuve :

Les items qui la composent ont une apparence aujourdhui vieillotte
(type de graphisme, images en noir et blanc) ce qui peut avoir un effet sur
la motivation du sujet, dautant plus quil sagit de la premire preuve
de la batterie ;
Le mode de rponse propos, choix entre la rponse A et la rponse B,
a comme inconvnient majeur de laisser une probabilit importante de
trouver la bonne rponse par le fait du hasard (50 %). Cela aurait pu
tre vit en demandant au sujet de produire lui-mme le classement des
images.
preuve de Raisonnement inductif (R2)

linverse de lpreuve prcdente, il sagit ici de raisonner du particulier au
gnral. Lpreuve comporte 29 items (dont 2 items dexemple) rsoudre
en 8 minutes. Il sagit de suites numriques dans lesquelles le sujet doit
indiquer les deux nombres1 qui viennent complter une srie propose.
Exemple ditem :
2-4-6-8-10-12- ?- ?-
preuve de Raisonnement analogique (R3)

Cette preuve prsente des situations assez proches des items des matrices de
Raven et des tests de facteur g. Il sagit de trouver les lois de transformation
1. Plus prcisment il sagit de slectionner la bonne rponse parmi 4 rponses possibles.
258
entre des lments afin de slectionner (parmi 5 possibilits) la configuration

qui doit complter la srie propose.
A
1
Figure 5.2
Exemple ditem de Raisonnement analogique.
Lpreuve comporte 36 items de ce type (dont 1 item exemple) rsoudre

en 10 minutes.
preuve de Raisonnement pratique-technique (R4)

Les items reprennent ici des situations pratiques ou techniques : estimation
de phnomnes physiques ou mcaniques (suite dengrenages, par exemple).
Exemple ditem : indiquer limage qui reprsente le clou qui senfoncera
le plus facilement.
A
Figure 5.3
Exemple ditem de Raisonnement pratique-technique.
Le sujet doit rsoudre 26 items (dont 1 item dexemple) en 10 minutes.

Ces situations sont intressantes mais le style de graphisme qui date des
annes 1970 nest cependant gure attrayant.
preuve daptitude Spatiale

Elle vise valuer les capacits de visualisation spatiale et plus prcisment
les capacits du sujet se reprsenter une configuration en trois dimensions
partir dun plan en deux dimensions.
259
Figure 5.4
Exemple ditem de lchelle Spatiale.
Lpreuve comporte 42 items (dont 2 items dexemple) rsoudre en

10 minutes.
preuve de Problmes
Dans laquelle le sujet doit rsoudre de courts problmes arithmtiques,
prsents par un nonc de quelques phrases. Alors que les quatre oprations
mathmatiques lmentaires sont values plus prcisment dans une autre
preuve (Oprations) on cherche ici rendre compte de la capacit du
sujet appliquer des notions mathmatiques dans des situations-problmes.
Comme dans lexemple suivant, le sujet doit slectionner sa rponse parmi
5 possibilits. Exemple (fictif) ditem :
Exemple
Une corde de 39 m est coupe en trois parties gales. Quelle est la longueur
de chaque partie ?
1) A : 14 m
2) B : 12 m
3) C : 13 m
4) D : 23 m
5) E : 10 m
Ce subtest comporte 16 items rsoudre en 6 minutes.

On remarquera ici que lorsque le problme comporte un prix, celui-ci est
encore exprim en francs, et non pas en euros, dtail qui renforce limage
obsolte de certaines preuves.
260
preuve dOprations
Vise explicitement sassurer de la matrise des quatre oprations de base :
addition, soustraction, division et multiplication. Pour chaque opration
prsente (49 items au total) le sujet doit slectionner ce quil considre
comme tant la bonne rponse (5 choix possibles). Temps limit de
10 minutes.
preuve dAttention
Consiste reprer si un mot, ou groupe de mots, a t correctement recopi.
On vise ici estimer les capacits dattention et de concentration. Le sujet
doit dcider si les deux sries sont identiques ou non.
Banque Mondiale
Banque Mondial
Lpreuve comporte 55 items (dont 2 items dexemple) rsoudre en
4 minutes. On peut noter ici la proportion leve de slectionner la bonne
rponse en se fiant uniquement au hasard (comme dans le subtest R1 : 50 %
de chance).
preuve dOrthographe
Comporte 55 items (dont 2 items dexemple). Le sujet doit indiquer si
chaque mot propos (de langage courant) est correctement orthographi.
Temps limit 4 minutes. On peut remarquer quon ne demande pas au
sujet dcrire lorthographe correcte du mot mais uniquement de slectionner
la rponse parmi 2 possibles, oui/correcte ou non/incorrecte.
preuve de Comprhension verbale

Il sagit dindiquer si deux verbes (comme par exemple : ouvrir fermer)
sont semblables ou contraires. Ici encore la probabilit de trouver la bonne
rponse par hasard est leve.
Lpreuve comporte 55 couples de verbes (dont 2 items dexemple)
rsoudre en 4 minutes.
La batterie NV7 comporte donc des preuves varies, certaines portent
sur des aptitudes cognitives de raisonnement (preuves R1 R4) et sur
des aptitudes spatiales, tandis que dautres relvent plutt des acquisitions
scolaires. Chaque preuve fait lobjet dun score, la batterie comportant
10 preuves, le sujet sera donc caractris par autant de scores. ces dix scores
261
vont se rajouter deux indicateurs composites, EIG (Efficience Intellectuelle

Gnrale) et ES (Efficience Scolaire), ainsi que des indices de rapidit et de
prcision. Nous prsenterons plus loin chacun de ces indicateurs.
Les qualits psychomtriques de la batterie NV7
Les tudes de validation prsentes dans le manuel ont t ralises sur un

chantillon de 867 adolescents et jeunes adultes, de niveaux V VI. Nous
en prsenterons les lments principaux.
Analyse de la sensibilit
Les auteurs sintressent ici au pouvoir discriminant des preuves. Les
donnes de 1993 nous indiquent un bon niveau de sensibilit (formes
gaussiennes des distributions globalement respectes et indicateurs de
dispersion satisfaisants) mais il faut tre attentif aux points suivants :
Le subtest Problmes est un peu trop difficile, avec seulement environ 30 %
de russite en moyenne. Ce problme sest probablement actuellement

estomp du fait de leffet Flynn (cf. chapitre 1) ;
Le subtest Comprhension verbale est lui un peu trop facile (58,5 % de
russite), ne permet pas de diffrencier finement les scores levs, ce
qui est en fait en accord avec les objectifs de cette preuve qui vise
principalement dtecter lillettrisme (manuel p. 29). Cependant ce
problme sest probablement accentu du fait de leffet Flynn ;
Le subtest Attention ne prsente pas une distribution conforme une
distribution gaussienne, ce qui rduit la sensibilit de ce subtest.
Analyse de la fidlit
Deux mthodes ont t utilises pour rendre compte de lhomognit de
chaque preuve : la mthode pair-impair et lindice de Kuder-Richardson
(KR 20). Le tableau II du manuel (p. 30) nous en donne les valeurs1 .
1. Nous attirons lattention du lecteur sur le point suivant : ce tableau comporte des erreurs au niveau
de lintitul des colonnes : la colonne moyenne correspond en fait aux indicateurs des corrlations
pair-impair et la colonne cart type correspond aux valeurs des KR20 !
262
Pour la corrlation pair-impair, les valeurs sont toutes proches de .80, ce

qui est acceptable, except pour Raisonnement pratique-technique avec une
valeur plus faible (.571 ).
Pour les indices KR20, les valeurs schelonnent entre .74 et .97, valeurs
galement acceptables, au moins pour les plus leves
Recommandation
Les deux preuves prsentant les valeurs de fidlit les plus faibles sont
celles de Raisonnement pratique technique ( corrlation de .74) et de
Problmes ( corrlation de .75). Les notes obtenues par les sujets dans ces
preuves doivent tre considres comme des valuations moins prcises
des aptitudes concernes (manuel, p. 30). Nous avons ici encore un
bon exemple de ce que peut apporter un praticien la lecture attentive
du manuel du test : lui fournir les lments utiles linterprtation des
rsultats et au reprage des points forts et des ventuelles limites de fiabilit
de lpreuve quil utilise.
Analyse de la validit
Validit structurale
Pour la validit structurale, on sattend observer des corrlations non

ngligeables entre tous les subtests en raison de lexistence du facteur g. Le
manuel (tableau IV, p. 31) indique des valeurs de corrlations qui varient
de .28 .70 selon les subtests. Elles vont dans le sens attendu : plus leves
entre les subtests censs valuer des dimensions voisines et plus faibles
lorsquil sagit daptitudes plus loignes. On observe bien, par exemple,
une corrlation plus leve entre deux preuves de raisonnement (.60 entre
R1 et R2) quentre une preuve de raisonnement et une autre preuve de la
batterie (.28 entre Raisonnement R1 et Attention).
En complment de lanalyse simple des corrlations, lanalyse des donnes
est approfondie par les mthodes danalyse factorielle. En premire tape,
une analyse est ralise sans rotation : on retrouve alors un premier facteur
gnral, interprtable comme un facteur g, qui explique plus de 56,4 % de la
variance. Ensuite, une mthode de rotation Varimax est utilise, permettant
la mise en vidence de trois facteurs, chaque facteur saturant principalement
1. Cette valeur, trop faible selon nous, nest pas commente dans le manuel.
263
une partie des preuves de la NV7. Le tableau VI du manuel (p. 32) fournit
les diffrentes valeurs de saturation1 .
Lune des applications possibles de ces analyses est de donner des
indications concernant ici la construction dindices composites, cest--dire
dindices combinant diffrentes preuves. Les auteurs proposent deux
indicateurs composites, EIG et ES, directement relis ces facteurs
statistiques.
Le facteur 1, qui explique plus dun tiers de la variance totale, sature
particulirement les preuves de raisonnement [R. dductif R1 (.69), R.

analogique R3 (.72) et R. pratique-technique R4 (.73)] ainsi que lpreuve
Spatiale (.80)]. Les auteurs interprtent ce premier facteur comme un
facteur de comprhension gnrale, qui serait relativement indpendant
des acquisitions scolaires et du milieu culturel (manuel, p. 32). Ce
facteur 1, que lon pourrait qualifier dintelligence fluide, fonde la validit
du calcul du score composite EIG (Efficience Intellectuelle Gnrale) ;.
Le facteur 2, avec lui aussi plus dun tiers de variance, sature plus
particulirement les subtests lis aux acquisitions scolaires : Oprations
(.84), Comprhension verbale (.74), Orthographe (.73), et Problmes (.68).
Il sature cependant galement lpreuve de raisonnement Raisonnement
inductif R2 (602 ). Les auteurs rapprochent ce facteur de lintelligence
cristallise (manuel, p. 32). Il servira de support au calcul du second score
composite : le score ES (Efficience Scolaire) ;
Le facteur 3 est moins important (il nexplique que 13,8 % de la variance).
Il sature principalement le subtest Attention, et tmoigne de la spcificit
de ce qui est valu dans ce test.
Validit thorique et prdictive
Le manuel ne comporte aucun rsultat de recherche concernant la validit

prdictive et la validit thorique de la NV7. Nous pouvons supposer que, la
NV7 reprenant des tests dj existants, les auteurs nont pas jug ncessaire
de sassurer de nouveau de leur validit thorique. Nanmoins de telles
donnes mriteraient notre avis de figurer dans le manuel. Des analyses
vis--vis de la russite scolaire seraient galement pertinentes mener.
1. Ici encore une erreur regrettable complique la lecture de ce tableau : la troisime colonne intitule
facteur 1 devrait tre rattache la colonne aprs rotation et non pas la colonne avant
rotation .
2. Lpreuve R2 prsente une saturation presque aussi leve (.58) dans le facteur 1 que dans
le facteur 2 (.60). La dcision des auteurs de le rattacher exclusivement au score ES mriterait
probablement des explications supplmentaires.
264
Effets du sexe
Enfin, les auteurs fournissent quelques donnes concernant lanalyse des

effets du sexe sur les performances. Sur les dix subtests, on observe cinq
diffrences significatives dans le sens attendu : les garons obtiennent des
scores moyens suprieurs dans les subtests reposant sur du raisonnement
concret et/ou sur des aptitudes spatiales (les subtests Raisonnement technique,
Spatial et Problme), les filles obtenant des rsultats moyens suprieurs dans
lun des subtests reposant sur des capacits verbales (Orthographe) ainsi
que dans le subtest Attention (daprs les donnes du tableau III, p. 30 du
manuel).
Recommandation
La consquence de ces diffrences entre filles et garons est quil conviendra
dutiliser pour ces subtests des talonnages spcifiques selon le sexe.
La standardisation
La passation
La NV7 est une preuve de type papier-crayon. Le sujet dispose dun livret
de passation de 64 pages (format A4) dans lequel se trouvent les dix subtests
de lpreuve. Le psychologue dispose dun manuel qui runit lensemble des
consignes.
Rappelons que le psychologue peut dcider de ne faire passer quune
partie seulement des subtests. Chaque subtest se droule en temps limit
(certains subtests sont trs courts : 4 minutes, dautres plus longs : 10 minutes
maximum). Pour une passation complte de la batterie il faut compter une
dure minimum d1 heure 45 minutes, exemples compris.
Le sujet dispose dune feuille de rponse de type auto-scorable sur laquelle
il inscrira ses rponses en noircissant les cases correspondantes. Chaque
colonne correspond un subtest.
Recommandation
On peut noter ici que cette feuille nest pas trs attrayante pour le sujet
et quune erreur de retranscription est possible. Nous ne pouvons que
conseiller au praticien dtre trs attentif aux ventuelles erreurs ce
265
niveau en cherchant, par exemple, vrifier rgulirement lexactitude de

lemplacement des rponses donnes par le sujet aux diffrents items.
La cotation
La feuille de rponse de type auto-scorable permet une cotation rapide
du protocole du sujet (une correction automatise par lecture optique est
galement propose dans le manuel).
Aprs avoir dpli la feuille de rponse afin de faire apparatre les grilles
de cotation, on procde la correction : on attribue 1 point par rponse
correcte, puis on en effectue la somme par colonne afin dobtenir un score
brut pour chaque preuve.
On reporte ensuite ces dix scores bruts dans la colonne notes brutes
du tableau danalyse du profil.
En plus de ces dix scores, le praticien peut calculer les deux indicateurs EIG
(Efficience Intellectuelle Gnrale) et ES (Efficience Scolaire) partir des
formules suivantes (manuel, p. 12) :
Score brut EIG (Efficience Intellectuelle Gnrale) = R1 + R3 + R4 + Spatial
Score brut ES (Efficience Scolaire) = (2 x R2) + (6x Problmes) + (2x Oprations)

+ Comprhension verbale + Orthographe
La justification de ces coefficients dans le calcul du score ES nest pas

donne dans le manuel. Nous pouvons penser quils servent rquilibrer
le poids de chaque subtest dans le calcul de lindice ES (car les subtests ne
comportent pas le mme nombre ditems).
Notre exprience de formation lvaluation nous amne penser que
nombre de praticiens effectuent ces calculs avec ces coefficients mais sans
rellement en connatre la justification. Pourtant, comme le prcisent
tant le Code de dontologie que les textes relatifs lutilisation de tests1 ,
le psychologue doit toujours conserver la matrise des rsultats quil est
amen interprter. Il nous semble alors indispensable que des explications
suffisantes soient fournies aux utilisateurs de la NV7 pour quils puissent
comprendre le sens et les limites de validit, des calculs quils proposent, et
tout particulirement pour ces deux indicateurs composites ES et EIG.
1. Voir par exemple les recommandations internationales dans lutilisation des tests, qui seront prsentes
et commentes dans le chapitre 8 de ce livre.
266
Enfin, le praticien peut galement calculer des indicateurs supplmentaires : un indicateur R de rapidit et un indicateur P de prcision, partir
des formules suivantes (manuel, p. 13) :
R = (nombre de rponses produites / nombre de rponses possibles) x 100
P = (nombre de bonnes rponses / nombre de rponses produites) x 100
Ces deux indicateurs R et P fournissent des informations sur les stratgies

de rponse du sujet chaque subtest :
lindicateur R, indicateur de rapidit, correspond au pourcentage de
rponses donnes (que ces rponses soient correctes ou non), cest--dire
au pourcentage de problmes abords par le sujet ;
lindicateur P, indicateur de prcision, correspond au pourcentage ditems
correctement rsolus parmi ceux ayant t abords.
Le praticien dispose ici dindicateurs la fois quantitatifs et qualitatifs sur
les performances du sujet.
Recommandation
Ces scores prsentent un rel intrt pour une approche clinique de
lvaluation ralise et une restitution la personne value dinformations
sur son propre fonctionnement.
Les talonnages
Au total, le praticien dispose de douze scores bruts : les dix scores aux subtests
et les deux scores composites ES et EIG.
Il dispose galement, pour chaque subtest, des scores bruts aux indices R
et P.
Chaque note brute doit tre transforme en note talonne afin de pouvoir
tre interprte.
Trois tudes dtalonnage sont prsentes dans le manuel :
Une tude de 1990-1991 ralise dans le cadre de bilans dorientation sur
300 jeunes faiblement qualifis (ge moyen 20 ans) fournit 3 talonnages :

pour la population totale et par sexe (manuel, p. 35 38) ;
Une tude de 1991-1992 sur 524 adultes faiblement qualifis, de niveau
maximum BEP (ge moyen 35 ans), dans le cadre dvaluation en
267
entreprise (recrutement, promotion) ou de bilans dorientation, fournit

3 talonnages : pour la population totale et par sexe (manuel, p. 43-
49) ;
Une tude de 1993 sur 104 jeunes apprentis, en cours de prparation
dun diplme du secteur industriel (CAP, BEP ou bac professionnel). Cet
chantillon est fortement masculinis ce qui explique ici un talonnage
uniquement masculin (manuel, p. 59 62) avec distinction possible selon
le niveau de diplme prpar (population totale, prparation CAP/BEP,
prparation Bac Professionnel).
Les talonnages sont cohrents avec les objectifs de la batterie qui,
rappelons-le, est destine lvaluation de jeunes adultes et adultes de
faible niveau de qualification
Tous les talonnages sont de type normalis en neuf classes.
Aprs avoir dtermin ltalonnage le plus appropri au sujet valu, le
psychologue va transformer la note brute de chaque subtest en une note
talonne. Il va ainsi situer le niveau de performance du sujet parmi les
neuf catgories proposes. Une valuation plus globale en cinq niveaux de
performance (de -- ++) est galement possible comme indiqu dans le
tableau 5.1.
Tableau 5.1
Principes des talonnages de la NV7.
Notes talonnes
Codage
Classe
Rpartition
thorique
4%
0
3
+
6
++
8
6,6 % 12,1 % 17,5 % 19,6 % 17,5 % 12,1 % 6,6 %
9
4%
Linterprtation des scores de la NV7
Les auteurs proposent un guide danalyse des rsultats la NV7 trs utile
au praticien pour linterprtation et la restitution du test.
Ce guide comprend douze tapes allant de la connaissance pralable
du sujet la restitution des rsultats (manuel, p. 20 24). Les auteurs y
prcisent galement, pour chaque subtest, ce qui est plus spcifiquement
valu. Enfin, ils proposent huit tudes de cas (p. 24 28).
268
Le praticien dispose ainsi dans le manuel de diffrentes informations

pouvant lui tre utiles.
Nous proposons ici une synthse en quatre points des lments principaux
concernant linterprtation des diffrents scores de la NV7.
Analyse de chaque score aux dix subtests

Il sagit ici de situer le niveau de performance du sujet dans les dix
scores talonns, par rapport une population1 de rfrence (chantillon
dtalonnage). Le praticien va se rfrer ici la feuille de profil afin de reprer
les points faibles (score et --) et les points forts (scores + et ++) du sujet.
Dans le cas de codage on peut parler de niveau trs faible, linverse, dans
le cas de rsultats ++ on peut parler de rsultats trs levs.
Attention !
Attention ici un risque derreur : les scores cods 0 ne correspondent
pas des scores bas mais des scores moyens (par rapport la population
dtalonnage).
laide des pourcentages de rpartition thorique (qui figurent galement
sur la feuille de profil) le praticien peut situer plus prcisment la position
du sujet sur les dix scores.
Exemple
Si le sujet est situ en classe 7, ce score, catgoris +, peut tre considr
comme lun des points forts du sujet. Plus prcisment, ce score talonn de 7
nous indique que seulement 10,62 % de la population de rfrence3 dpasse
ce niveau de performance, et que 77,3 % des sujets4 de cette population se
situent en dessous de ce niveau.
En complment de cette comparaison interindividuelle (qui prcise

comment se situent les scores du sujet par rapport aux sujets de ltalonnage)
il est galement possible dadopter une approche intra-individuelle (reprer,
1. Il peut galement tre judicieux de comparer les rsultats dun mme sujet plusieurs talonnages
afin destimer son niveau de performance par rapport diffrentes populations de rfrence.
2. 6,6 + 4 = 10,6 %
3. Il faut bien entendu toujours caractriser cette population de rfrence (niveau de formation,
sexe...).
4. 4 + 6,6 + 12,1 + 17,5 + 19,6 + 17,5 = 77,3 %
269
par exemple, les propres points forts dun sujet, cest--dire ses meilleurs
rsultats parmi les dix subtests).
Analyse des deux scores composites EIG (Efficience intellectuelle gnrale)

et ES (Efficience scolaire)
Il sagit de situer les rsultats du sujet sur les deux grandes dimensions synthtiques que sont lintelligence fluide (reprsente par EIG) et lintelligence
cristallise (reprsente par ES). On sintresse ici plus prcisment :
au niveau de performance dans chaque indice (en sinspirant des rgles
gnrales que nous venons de prsenter) ;
au dcalage ventuel entre EIG et ES. On regardera par exemple dans
quelle mesure les capacits du sujet sont dpendantes du contenu, plus
ou moins scolaire, des preuves, ou encore si le niveau des acquis scolaires
(ES) reflte bien les potentialits intellectuelles (EIG) ;
Le praticien sera galement attentif lhomognit des rsultats pris en

compte dans le calcul de chacun de ces deux scores : on observera sil existe
un dcalage de niveau de russite dans les subtests constituant chaque indice,
ou au contraire, si les rsultats sont homognes (analyse de la dispersion des
scores lintrieur de chaque indice).
Ces deux indicateurs peuvent galement constituer des lments prdictifs
par rapport un projet de formation : en cas de notes leves lindice ES
par exemple, les auteurs conseillent une entre directe en formation de
niveau V, tandis quune note faible cet indice doit inciter le praticien
conseiller plutt une orientation vers des stages de remise niveau avant
lentre ventuelle en formation (manuel, p. 17).
Analyse des indices de rapidit R et de prcision P

Cest ici lune des spcificits de cette batterie. Ces deux indices doivent
tre analyss conjointement afin de fournir des informations sur certaines
caractristiques du sujet. Par exemple un sujet qui prsente, sur la majorit
des subtests, des scores R faibles, mais des scores P levs, est probablement
un sujet mticuleux, vrifiant ses rponses, ce qui explique la fois le faible
nombre ditems traits (R faibles) mais un pourcentage lev de bonnes
rponses (P levs). On peut ici faire un lien avec les notions de style cognitif,
de rflexion/impulsivit (Huteau, 2002). On sera galement attentif ici aux
ventuelles variations de ces deux indices en fonction des subtests. Ces
270
aspects de stratgie de rponse pourront tre abords avec le sujet dans la

phase de restitution des rsultats.
Analyse de ladquation entre les rsultats la NV7 et les projets

de formation ou les projets professionnels
Il ne sagit pas ici bien entendu de rechercher une stricte adquation entre
profil du sujet et profil du poste et/ou du contenu de la formation, car
les rsultats de la batterie NV7 (comme plus gnralement tout rsultat de
test) ne sont quun des lments prendre en compte dans une dmarche
de conseil (Aubret & Blanchard, 2005). En effet, dautres facteurs vont
intervenir comme lexprience, la motivation, les intrts professionnels, la
situation familiale... Mais lanalyse de cette adquation peut tre discute
avec le sujet dans la phase de restitution des rsultats.
Nous trouvons dailleurs dans le manuel des propositions de lecture des
rsultats en fonction de diffrents types dactivits professionnelles : par
exemple, en analysant conjointement trois subtests [Raisonnement inductif,
Oprations et Problmes] le psychologue pourra estimer le degr daisance
du sujet dans des situations professionnelles ncessitant lusage de chiffres.
Autre exemple, lanalyse conjointe de trois autres subtests [Raisonnement
analogique, Raisonnement pratique-technique et Spatial] apportera des
lments concernant cette fois les activits professionnelles de type atelier
(voir les autres indications du manuel, p. 21 et 23).
Conclusion sur la batterie NV7
Comme les auteurs lont souhait, la batterie NV7 est adapte une
population de faible niveau de qualification. Ses qualits mtriques sont
globalement satisfaisantes
Les indicateurs de la performance du sujet sont nombreux, dix scores
daptitudes et deux scores composites, et permettent une analyse assez
complte des aptitudes du sujet.
Le praticien dispose en outre de deux indicateurs, R et P, qui peuvent
apporter des informations utiles pour apprcier le fonctionnement de la
personne, informations gnralement ngliges dans les autres tests.
Le praticien trouvera dans le manuel un bon soutien mthodologique
linterprtation des rsultats, ainsi que des tudes de cas.
271
Cela en fait une batterie intressante pour les niveaux les plus faibles qui
mriterait dtre mise jour pour corriger les quelques erreurs et manques
du manuel ainsi que les aspects dsuets de certains subtests.
2.
La batterie NV5-R
Prsentation de la NV5-R
La batterie NV5-R est en partie inspire de la batterie NV7 mais elle est
destine des publics de niveau de qualification plus lev (au minimum
quivalent au niveau Baccalaurat). Elle est donc complmentaire, au regard
de la population cible, de la batterie NV7. Elle est adapte un public
dadolescents et dadultes
Cette batterie, diffuse en 2003 est une version rnove de la batterie NV5
de 1987. Comme la NV7, la NV5-R est compose dune combinaison de
tests anciens mais les auteurs indiquent que les sous-chelles (ou subtests)
ont t slectionnes en fonction dune thorie de rfrence : le modle
du Radex . Cette rfrence thorique est assez originale et mrite dtre
souligne. Rappelons que, daprs ce modle, les tests dintelligence peuvent
tre positionns dans un espace bidimensionnel avec en position centrale les
tests de facteur g. Une prsentation synthtique de ce modle est propose
dans Dickes et Martin (1998) qui nous empruntons la figure qui illustre
ce modle (voir figure 5.5).
Linterprtation de ce que mesure un test va alors dpendre de sa position
sur ce Radex, partir des principes suivants :
Plus le test est proche du centre de la figure, mieux il mesure (plus il
sature dans) le facteur g ; linverse, plus il est situ dans la priphrie

et est distant du facteur g, et plus il exprimera la mesure daptitudes
spcifiques ;
Cette position peut galement tre interprte en terme de niveau de
complexit : plus un test (une tche) est intellectuellement complexe,
plus il sera situ au centre de la figure ;
Trois zones peuvent tre distingues dans le Radex, qui correspondent
globalement trois domaines : verbal, spatial et numrique.
partir des ces principes dinterprtation, ce modle en Radex fournit une
information sur la liaison du test avec le facteur g (niveau de proximit),
272
spcifique figuratif
spcifique verbal
FIGURATIF
COMPLEXIT
VERBAL
NUMRIQUE
spcifique numrique
Figure 5.5
Exemple de reprsentation dun espace bidimensionnel de type Radex
(daprs Dickes et Martin, 1998, p. 31).
ainsi quune estimation du domaine valu plus spcifiquement par

lpreuve (verbal, spatial ou numrique).
Prcisons que le manuel comporte une large introduction ce modle
thorique qui nest sans doute pas trs familier nombre de psychologues.
Nous verrons plus loin, dans linterprtation des rsultats, quun
certain niveau de connaissance thorique du modle de rfrence est
ici particulirement ncessaire afin de pouvoir rellement matriser les
indicateurs que lon peut retirer de cette preuve. On retrouve, ici encore,
la ncessit pour le psychologue de possder une formation solide, tant au
niveau mthodologique quau niveau thorique. Cest sans doute ce qui
justifie la partie importante consacre dans le manuel de la NV5-R la
prsentation thorique du modle en Radex.
La batterie NV5-R regroupe neuf preuves :
1. Raisonnement gnral,
2. Raisonnement inductif,
3. Raisonnement spatial,
4. Raisonnement pratique/technique,
5. Comprhension verbale,
6. Vocabulaire,
7. Orthographe,
273
8. Calcul,
9. Attention.
Comme pour la NV7, on peut remarquer ici que certaines preuves
valuent un raisonnement et/ou des aptitudes, alors que dautres preuves
relvent plutt de connaissances scolaires (comme par exemple Orthographe
ou Calcul).
Pour chaque preuve, ou subtest, on dispose de consignes et dtalonnages
spars, ce qui offre une souplesse dutilisation (le praticien, par exemple,
peut ne faire passer quune partie des preuves).
Enfin, comme nous allons le voir, certaines de ces preuves sont
directement issues de la NV7 avec parfois des modifications concernant les
temps de passation (afin sans doute de rendre les preuves plus difficiles1 .)
Dtaillons maintenant chacune de ces 9 preuves :
preuve de Raisonnement gnral
Comporte 49 items (dont 7 exemples) diversifis tant au niveau de la tche

(on y trouve plusieurs types de raisonnement), quau niveau du support
(numrique, verbal...), ceci afin de proposer dans une mme preuve un large
ventail de situation. Lobjectif ici tant bien dvaluer un raisonnement
gnral, proche de la notion de facteur g, mais galement dvaluer la capacit
du sujet faire preuve de flexibilit cognitive (ou dynamisme intellectuel),
dfinie comme la capacit du sujet sadapter des changements dans le
type de tche propos.
Les exemples suivants donnent un aperu de la diversit des items de ce
subtest :
1. Des items de type chercher lintrus , exemple :
Dsignez parmi les 5 mots suivants celui qui ne fait pas partie de la srie :
Bois Bouchon Pierre Bateau Lige
2. Des items de type loi de srie sur support numrique, dans lesquels le sujet
doit poursuivre une suite propose ; exemple fictif :
2-4-6-8-10-??-??
3. Des items de logique verbale ; exemple fictif :
Julie est plus petite que Fabienne, Sylvie est plus petite que Julie,
par consquent Fabienne est la plus grande des 3 ?
4. Des items dans lesquels le sujet doit montrer sa comprhension de dictons.
1. Le manuel de la NV5 R ne donne pas de prcisions ce sujet. Il nous semble pourtant important
que lorigine des items et/ou des subtests soient prcise.
274
Ce subtest est assez proche du test BV9 de Bonnardel1 .

Le sujet dispose de 20 minutes pour raliser lpreuve. Cest dailleurs
lpreuve la plus longue de la batterie. Le nombre assez consquent ditems,
et la dure de passation, font de ce subtest une relle preuve indpendante.
Concernant les modalits de rponse, la mme limite apparat que celle
voque propos de certains subtests de la NV7 : pour certains items les
possibilits de rponse (de type QCM) ne sont pas assez nombreuses et la
probabilit de trouver la bonne rponse au hasard est trop leve.
preuve de Raisonnement spatial

Le sujet doit se reprsenter une configuration en trois dimensions partir
dun plan en deux dimensions. Il sagit en fait de la mme preuve que celle
qui est prsente dans la NV72 avec 40 items rsoudre en 8 minutes (au
lieu de 10 pour la NV7).
preuve de Comprhension verbale

Elle comporte 12 items rsoudre en 8 minutes. Le sujet doit indiquer
quelles sont les deux phrases (parmi quatre possibilits) qui sont le plus
proches dune pense (exprime sous forme de dicton). Exemple ditems :
On a besoin dun plus petit que soi.
1. Il faut regretter que ce soient toujours les plus forts qui lemportent sur les
faibles.
2. Ne ngligeons pas laide que peuvent nous apporter les faibles.
3. Lappui des humbles est parfois utile aux grands.
4. Petit enfant deviendra grand.
preuve de Calcul
Cette preuve est directement issue de lpreuve Opration de la NV7 avec
ici 48 items rsoudre en 10 minutes.
1. Certains items semblent dailleurs largement inspirs du BV9 de Bonnardel, sans que les auteurs
le prcisent explicitement.
2. Comme pour tous les subtests issus de la NV7 nous renvoyons le lecteur aux exemples ditems
donns dans la partie prcdente (NV7).
275
preuve de Raisonnement pratique/technique

Elle ne comporte pas les mmes items que le subtest de la NV7 mais en est
assez proche, aussi bien au niveau du type de support que, malheureusement,
au niveau du type de graphisme. Le sujet doit rsoudre ici 33 items en
9 minutes.
preuve de Raisonnement inductif

Destine valuer la capacit du sujet raisonner du particulier au gnral,
elle comporte 27 items, dont 3 exemples, rsoudre en 8 minutes. Il sagit
ici encore dune preuve (R2) de la NV7 dans laquelle le sujet doit dcouvrir
les lois de progression de sries numriques.
preuve dAttention
Elle aussi est issue de la NV7 et comporte 52 items, avec un temps de
passation de 3 minutes.
preuve de Vocabulaire
Comporte 56 items, rsoudre en 4 minutes. La tche consiste slectionner

parmi 3 mots proposs les deux mots qui sont soit de mme sens, soit de
sens oppos. On cherche valuer la connaissance du vocabulaire. Exemple
ditems :
1. Grand / 2. Sec / 3. Vaste
Rponses possibles : 1 et 2 ; 1 et 3 ; 2 et 3.
preuve dOrthographe
Le sujet doit indiquer si le mot prsent est correctement orthographi.
Cette preuve comporte 54 items, rsoudre en 3 minutes. Il nest pas
demand au sujet dorthographier correctement le mot mais dindiquer si
le mot prsente, ou non, une erreur. Ici encore la probabilit de trouver la
bonne rponse au hasard nest pas ngligeable. Exemple ditems :
Le tiroire
276
Le manuel dtaille les procdures de rvision des preuves de la NV5 qui

ont conduit la NV5-R (rvise) : rvision de la notation, analyse des biais
ditems...
La phase dexprimentation de la NV5-R a t effectue auprs dun
chantillon de 460 sujets, gs de 17 57 (moyenne de 26 ans), de niveau
dtude du CAP Bac + 2.
Les taux moyens de russite des subtests varient entre 33 % (pour le
raisonnement pratique-technique) 77 % (pour le raisonnement inductif).
On observe donc une variabilit assez importante des subtests de la
batterie NV5-R : ils ne sont pas tous de mme niveau de difficult. Lanalyse
des dispersions montre que les scores bruts ne se rpartissent pas tous
selon une courbe gaussienne. Cest sans doute ce qui explique lutilisation
dtalonnages par dciles (voir plus loin).
Comme attendu, les taux de russite varient en fonction du niveau
dtudes.
La fidlit est value partir de lindice dhomognit interne alpha de
Cronbach et de lindice KR 20. Les valeurs prises pour ces indices pour
chaque preuve figurent dans le tableau 5.2.
Tableau 5.2
Indices de fidlit interne de la NV5-R (daprs le manuel, p. 41-43).
Subtests
Alphas de
Cronbach
R.
gnral
R.
spatial
Comp.
verbale
Calcul
R.
pratique
R.
inductif
Attention
Voc.
Orth.
0,86
0,88
0,83
0,85
0,75
0,89
0,94
0,94
0,88
Les alphas variant de .75 .94, nous pouvons considrer lhomognit

interne de la NV5-R comme satisfaisante. La valeur relativement modre
observe pour lpreuve de raisonnement pratique-technique (.75) doit nous
inciter nanmoins la prudence dans linterprtation des rsultats ce
subtest (manuel, p. 40).
277
Lerreur standard de mesure est variable selon les subtests, mais il faut
signaler ici que le manuel fournit une estimation de cette erreur pour chaque
score possible dans certains subtests (voir tableau 12, p. 45 du manuel).
Une analyse statistique de la validit structurelle de la NV5-R, permet de
situer les subtests sur une structure en Radex. Rappelons que ce modle
de rfrence (le radex) est assez peu utilis dans les tests, et sans doute peu
familier nombre de psychologues, mais que le manuel est bien document
ce sujet.
Les auteurs cherchent alors savoir si leurs donnes sont bien conformes
ce modle thorique. Par un traitement statistique particulier (analyse par
chelonnement multidimensionnel) on peut observer que la configuration
des subtests de la NV5-R est bien compatible avec le modle thorique
suppos. On observe, par exemple, un positionnement central de lpreuve
de Raisonnement gnral, et un positionnement dans la zone attendue pour
les preuves reposant plutt sur un contenu verbal.
Les subtests se rpartissent galement en fonction de leur niveau de
gnralit. Comme attendu, les tches les plus complexes apparaissent vers
le centre et les tches les plus spcifiques en priphrie. Les dtails de la
structure observe figurent dans le manuel (voir en particulier la figure 10,
p. 39). Ces donnes apportent des lments de validit interne de lpreuve.
Par contre, aucun lment dinformation ne nous est donn sur le niveau
des liaisons entre les diffrents subtests de la NV5- R.
Comme pour la NV7, aucun rsultat dexprimentations concernant la
validit prdictive de lpreuve ou encore la validit de chaque subtest avec
une autre preuve (validit concourante) nest malheureusement prsent
dans le manuel. Il serait par exemple pourtant utile de disposer de donnes
dtudes comparant les rsultats du subtest Raisonnement gnral avec ceux
dune preuve de type facteur g.
Recommandation
Nous signalons cependant un article postrieur au manuel (Thibaut et al.,
2005) qui apporte des lments dinformation sur les qualits prdictrices
de cette batterie NV5-R. Larticle prsente les rsultats dune recherche,
mene la demande dune entreprise, visant analyser lefficacit de
278
ses mthodes de recrutement. Utilise dans un dispositif de slection

de vendeurs amens ensuite suivre une formation, la NV5-R, et plus
particulirement les subtests Raisonnement gnral, Comprhension verbale
et Orthographe, savrent tre de bons prdicteurs du niveau de russite
dans cette formation. Nous renvoyons le lecteur intress par ces aspects
la lecture de cet article.
La standardisation
La passation
La NV5-R est une preuve de type papier-crayon, utilisable en individuel
ou en collectif.
Le matriel se compose dun manuel pour le psychologue (de 108 pages),
de cahiers de passation et de feuilles de rponse auto-scorables. Chaque
subtest se droule en temps limit (de 3 20 minutes selon les subtests) avec
au total un temps denviron 2 heures si le sujet passe toutes les preuves.
La feuille de rponse est organise comme celle de la NV7 : le sujet doit
inscrire ses rponses en noircissant les cases correspondantes sur une feuille
de rponse de type auto-scorable. Chaque colonne correspond un subtest.
Recommandation
Nous signalons, comme pour la NV7, que cette feuille nest pas trs
attrayante pour le sujet et quune erreur de retranscription est possible.
Nous ne pouvons que conseiller au praticien dtre trs attentif
lexactitude de lemplacement des rponses du sujet.
La cotation
Aprs avoir dpli la feuille de rponse afin de faire apparatre les grilles de
correction, on procde la cotation. On accorde 1 point par bonne rponse
(sauf cas particuliers1 signals dans le manuel). Le psychologue additionne
les points obtenus dans chaque subtest (chaque colonne) afin dtablir les
1. Il sagit ditems dans lesquels le sujet doit donner 2 rponses : on accordera alors 1 point si et
seulement si les 2 rponses sont correctes.
279
neuf scores bruts. Il reportera ensuite ces neuf scores bruts dans le tableau
Profil dtaill qui figure en haut de la feuille de profil.
Les talonnages
Ils permettent de transformer les scores bruts en notes talonnes. Le manuel
propose ici plusieurs talonnages :
un talonnage htrogne, sur lchantillon total de 632 sujets, avec trois
possibilits : total, garons, filles ;
des talonnages par niveau dtudes : niveau dtudes infrieur au
baccalaurat (139 sujets), gal au bac (258 sujets) et suprieur au Bac
(212 sujets). Par contre on ne dispose pas ici de donnes spares selon
le sexe.
Tous ces talonnages sont de type dcilage1 . Ce choix est expliqu par le
fait que les distributions des scores ne respectent pas suffisamment la courbe
de Gauss pour tablir des talonnages standardiss.
Recommandation
Lutilisateur prendra soins de ne pas confondre linterprtation dun

talonnage par dcilage avec linterprtation dun talonnage normalise,
comme celui, par exemple, de la NV7.
Une fois ltalonnage slectionn (talonnage htrogne ou par niveau
dtudes) le psychologue doit donc transformer les neufs scores bruts et
dfinir les neuf notes talonnes quil reportera sur la feuille de profil (scores
variant de 1 10). Comme pour la NV7, cette feuille lui permettra de
reprer rapidement les forces et faiblesses du sujet.
partir des notes talonnes, il peut galement calculer des scores
composites.
1. Rappelons que dans un talonnage de ce type chaque classe reprsente 10 % de leffectif.
280
Recommandation
Attention pour le calcul des scores composites : il sagit bien ici dutiliser
les notes talonnes et non pas, comme dans le cas de la NV7, les scores
bruts.
Deux types de scores composites sont ici envisags :
les notes du profil daptitude,
les notes du profil cognitif.
Pour dterminer le profil daptitudes, on regroupe les preuves relevant
des mmes dimensions afin dobtenir un score en aptitude verbale, en

aptitude spatiale et en aptitude numrique, selon les indications du
manuel. ces trois indices va se rajouter laptitude gnrale (preuve de
Raisonnement gnral) ;
Pour dterminer le profil cognitif, on se rfre au modle thorique de
rfrence, le modle en Radex, afin de dterminer trois scores :
lun relevant des capacits du sujet face des tches gnrales (et
complexes),
le second reposant sur des tches de niveau intermdiaire,
le dernier relevant de tches spcifiques.
Nous reprenons ci-dessous le dtail de chaque profil en indiquant les
subtests de rattachement :
1. Profil daptitude
Aptitude gnrale : Raisonnement gnral.
Aptitude verbale : Comprhension verbale + vocabulaire + attention +
orthographe (et diviser cette somme par 4).
Aptitude spatiale : Raisonnement spatial + Raisonnement pratique
technique (et diviser cette somme par 2).
Aptitude numrique : Raisonnement inductif + calcul (et diviser cette
somme par 2).
281
2. Profil cognitif
Gnral : Raisonnement gnral.
Intermdiaire : Comprhension verbale + vocabulaire + Raisonnement
spatial + Raisonnement inductif (et diviser cette somme par 4).
Spcifique : attention + orthographe + Raisonnement pratique technique + calcul (et diviser cette somme par 4).
Rappelons que chaque note de profil est tablie partir des notes
talonnes des subtests. Par la division du total de ces notes on obtient alors
directement une note de profil talonne, comme les subtests, de 1 10.
Au final, le praticien peut disposer des indicateurs talonns suivants :
9 notes de subtests ;
4 notes du profil daptitudes : aptitude gnrale, aptitude verbale, aptitude
spatiale et aptitude numrique ;
3 notes du profil cognitif : gnral, intermdiaire et spcifique.
Les bases dinterprtation des scores
Comme pour la NV7, le manuel de la NV5-R propose un support trs

apprciable linterprtation des rsultats et des profils observs. Il comprend
huit pages ddies linterprtation des diffrents scores (p. 71 78), ainsi
quune dizaine de pages consacrs la prsentation de quatre tudes de cas
(p. 79 90).
Linterprtation propose se fait dans un premier temps au niveau des
subtests, puis dans un second temps au niveau des scores composites. La
particularit de lpreuve est quelle peut fournir deux types de scores
composites (diffrentes combinaisons ditems) en lien direct avec les deux
cadres de rfrence thorique proposs (analyse classique en aptitudes ou
rfrence au modle du Radex).
Quel que soit le niveau danalyse (subtest ou scores composites), rappelons
ici que nous disposons dtalonnages de type dcilages, qui comportent 10 %
de sujets dans chaque groupe. On considrera un score gal ou infrieur
3 comme un score faible, et un score gal ou suprieur 8 comme un
score lev. Les scores compris entre 4 et 7 inclus tant considrs comme
des scores moyens (obtenus par 40 % de la population de rfrence). Le
282
praticien trouvera dans le manuel des informations sur ce qui est valu plus
prcisment dans chaque subtest (p. 71 75).
Lanalyse des neuf subtests permet de dresser le profil du sujet, de
cerner ses points forts et ses points faibles. On procdera, comme pour la
NV7, une analyse interindividuelle (comment se situent les neufs scores
dun sujet par rapport ltalonnage ?) mais galement intra-individuelle
(reprer, par exemple, ses points forts, cest--dire ses meilleurs rsultats
parmi les neuf subtests).
Lanalyse du profil daptitudes prend la forme, assez classique, dune
interprtation des rsultats du sujet en fonction de trois domaines :
aptitude verbale, aptitude spatiale et aptitude numrique. La note
daptitude gnrale, compose, rappelons-le, uniquement du subtest
Raisonnement gnral, peut tre considre comme lexpression du niveau
de facteur g.
Le psychologue pourra cette tape faire des liens entre le profil daptitudes
du sujet et ses projets de formation et/ou ses projets professionnels, dans
la mme logique dinterprtation des rsultats que celle expose dans la
prsentation de la batterie NV7.
Pour lanalyse du profil cognitif, linterprtation des scores doit se faire
en relation avec la thorie de rfrence : le modle en Radex.
La note gnrale, qui correspond en fait la note daptitude gnrale du
profil daptitudes, est ici interprte comme lindicateur des capacits du
sujet rsoudre des tches gnrales (que lon peut retrouver dans un
grand nombre de situations) et complexes.
La note intermdiaire va rendre compte des capacits du sujet face
des tches un peu moins complexes. Enfin, la note spcifique est relative
aux tches spcifiques, relativement simples, le plus souvent rduites
lapplication de rgles.
Les quatre tudes de cas prsentes dans le manuel permettent dillustrer
les grandes lignes dinterprtation des rsultats selon les diffrents niveaux
danalyse (subtests ; profil aptitudes ; profil cognitif).
Le psychologue pourra ventuellement analyser les rsultats du sujet en
rfrence aux profils de rponse caractristiques de quatre groupes de sujets
identifis dans le manuel (voir p. 48 56). En ce qui nous concerne, nous
ne trouvons quun intrt relatif cette possibilit de comparaison.
283
Conclusion sur la NV5 R
La batterie NV5-R est une batterie assez difficile, adapte des sujets de
niveau minimum Baccalaurat.
Elle regroupe des subtests assez varis et comprend une mesure fiable de
lintelligence gnrale (ou facteur g) par le subtest Raisonnement gnral. Le
psychologue peut dailleurs, sil le souhaite, nutiliser dans un premier temps,
que ce subtest, afin dtablir une estimation du niveau gnral du sujet. Puis,
par la suite et en fonction des besoins, utiliser les autres subtests de lpreuve.
Cette batterie permet dobtenir neuf scores, reprsentatifs de neuf
aptitudes distinctes, ainsi que des indices composites, certains assez classiques
(les quatre scores du profil daptitudes), dautres plus originaux (les trois
scores du profil cognitif).
Lune des spcificits de la NV5-R est quelle repose sur un modle
thorique assez peu utilis en psychomtrie : le modle en Radex. Ce modle,
largement dvelopp dans le manuel, permet de caractriser le sujet par son
profil cognitif. Cette possibilit dinterprtation des scores vient sajouter
linterprtation classique en terme daptitudes.
Le manuel gagnerait tre complt dtudes concernant la validit
prdictive de la batterie (mais comme nous lavons indiqu le lecteur pourra
consulter larticle de Thibaut et al., 2005). Il fournit, par contre, des
indications pertinentes ainsi que des tudes de cas apportant une aide utile
dans linterprtation des rsultats.
3.
La batterie DAT 5
Prsentation
La batterie DAT 5 (Differential Aptitude Tests : Tests Diffrentiels dAptitudes) est issue de lpreuve DAT qui a t publie la premire fois en 1947
aux tats-Unis. Cette 5e dition DAT5 est la version franaise de la dernire
rvision de lpreuve, dite aux tats-Unis en 1990, et adapte en France
par les ECPA dans les annes 1998-2000, avec une diffusion en 2002. Cest
une preuve trs utilise aux tats-Unis.
Avant la publication de cette dernire version nous ne disposions en
France que de la premire version de 1974.
284
La batterie DAT 5 se diffrencie des batteries NV7 et NV5-R que nous

venons de prsenter, par la varit des publics auxquels elle convient :
elle est utilisable aussi bien pour des publics scolaires (quatre talonnages
scolaires sont disponibles : niveau 3e , enseignement professionnel, 2e , 1re
et Terminale) que pour des publics adultes (deux talonnages : niveau
CAP/BEP et niveau Bac).
Comme pour la premire version, la DAT 5 se compose de huit preuves :
Trois sont prsentes comme mesurant les aspects principaux de lintelligence (Raisonnement Verbal, Raisonnement Numrique, Raisonnement
Abstrait) ;
Deux subtests valuent des aptitudes plus spcifiques (Raisonnement
Mcanique et Relations Spatiales) ;
Deux subtests valuent plutt des connaissances (Orthographe et Grammaire) ;
Une preuve de rapidit et de prcision (Vitesse de Perception et Prcision).
On remarquera quil sagit ici, comme dans les batteries NV5-R et
NV7, dvaluer des capacits cognitives (Raisonnement) mais galement des
connaissances scolaires (exemple : Orthographe...).
Comme pour les autres batteries factorielles, le psychologue dispose de
consignes et dtalonnages spars pour chaque subtest, ce qui autorise une
grande souplesse dutilisation.
La passation complte de la batterie ncessite un temps denviron 2 heures
10 minutes 2 heures 30 minutes.
Reprenons chacune des huit preuves.
Lpreuve de Raisonnement Verbal (R.V.)

Elle comporte 25 items dans lesquels le sujet doit complter des analogies. Le
sujet doit choisir les deux termes qui conviennent le mieux pour complter
lanalogie1 prsente (parmi cinq possibilits). Le temps de passation est
limit 18 minutes.
Lexemple suivant permet de bien comprendre la tche demande :
... est aboyer ce que chat est ...
Rponse A : miauler...chaton
1. Sternberg a propos une analyse (composantielle) de ce type de tche (Huteau & Lautrey, 1999,
p. 214).
285
Rponse B : chien...miauler
Rponse C : chien...griffer
Rponse D : chien...chaton
Rponse E : se rfugier...griffer
Lpreuve de Raisonnement Numrique (R.N.)

Cette preuve comprend 25 items rsoudre en 20 minutes. Ces items
refltent divers types de problmes (suites numriques, estimation de calculs,
quations...). Il sagit ici dvaluer la capacit raisonner partir de donnes
numriques et non pas seulement la capacit effectuer des calculs. Le sujet
dispose de 20 minutes. Exemple ditem :
Quel chiffre peut remplacer le ? dans cette addition ?
5?
+2
= 58
Rponse A : 3
Rponse B : 4
Rponse C : 7
Rponse D : 9
Rponse E : Aucun
Lpreuve de Raisonnement Abstrait (R.A.)

Elle porte sur les capacits de raisonnement non verbal. Les 25 items
reprennent des taches typiques de tests de type facteur g : chercher les rgles
de transformation et les appliquer afin de trouver une figure qui vient
complter une srie propose. Le temps est limit ici 15 minutes.
Problme
Rponses
Figure 5.6
Exemple ditem de Raisonnement Abstrait.
Ces trois preuves de raisonnement (Verbal, Numrique et Abstrait), sont

prsentes comme valuant les principaux aspects de lintelligence gnrale
286
(manuel DAT 5, p. 5). Tout en tant des preuves indpendantes, elles sont
regroupes dans un mme cahier de passation. Elles constituent le noyau
central de la DAT 5 et permettent dvaluer les capacits de raisonnement
partir de trois types de support : verbal, numrique et non verbal.
Les autres preuves de la DAT 5 valuent des aspects de lintelligence
considrs comme plus spcifiques (le raisonnement mcanique, laptitude
spatiale et la vitesse de perception) ou des aspects plus lis aux connaissances
en Franais (Orthographe et Grammaire).
Les huit preuves de la DAT 5 ne se situent donc pas sur le mme plan
par rapport limportance des aptitudes values.
Les autres preuves de la DAT 5
Lpreuve de Raisonnement Mcanique (R.M.)

Le sujet doit rsoudre des situations assez concrtes comparables aux
items prsents dans le subtest Raisonnement Pratique-technique de la NV7
(problmes de phnomnes physiques, dengrenages, de poulies...). Lpreuve
comporte 30 items rsoudre en 15 minutes. Les items de type QCM ne
comportent que trois possibilits de rponse ce qui semble insuffisant
(probabilit non ngligeable de slectionner la bonne rponse au hasard).
Lpreuve de Relations Spatiales (R.S.)

Elle comporte 30 items dans lesquels le sujet doit slectionner la figure
qui serait obtenue si une figure modle tait plie. Cette preuve porte
principalement sur les capacits de reprsentations mentales de figures
gomtriques. Le temps est ici limit 15 minutes.
Figure 5.7
Exemple ditem du subtest Relations Spatiales.
287
Lpreuve de Vitesse de Perception et Prcision (V.P.P.)

Ici, le sujet doit rsoudre une tche perceptive simple, le plus vite possible.
Il sagit de retrouver sur la feuille de rponse la combinaison de deux lettres
(ou chiffres) qui est souligne sur le cahier.
Cette preuve comporte deux sries de 100 (temps de 3 minutes pour
chaque srie), mais seule la deuxime srie interviendra dans la notation.
Exemple ditem :
AB AC AD AE AF
propositions de rponses : AC AE AF AB AD
Lpreuve dOrthographe
Cette preuve consiste reprer le mot qui est crit de faon incorrecte parmi
quatre mots prsents. Il sagit dvaluer les connaissances orthographiques
partir de mots franais assez courants. Cette preuve comporte 30 items
rsoudre en 8 minutes. Exemple ditem :
A : papier
B : soleille
C : chaise
D : agrable
Lpreuve de Grammaire
Ici le sujet doit indiquer dans quelle partie dune phrase se trouvent
ventuellement des fautes de grammaire, de conjugaison ou de majuscule. Il
ne sagit pas de corriger ces fautes mais uniquement dindiquer lendroit o
elle est situe (ou indiquer labsence derreur). Lpreuve comporte 30 items
rsoudre en 12 minutes. Exemple ditem :
Nous serat-il / possible daller / travailler la / semaine prochaine.
A
B
C
D
La DAT 5 est donc compose de huit preuves, et permet de caractriser

le sujet selon les huit dimensions correspondant ces preuves. Le calcul
dun indicateur defficience scolaire (score composite) est galement possible
en combinant les rsultats obtenus lpreuve de Raisonnement Verbal et
Raisonnement Numrique (voir plus loin).
288
Les qualits psychomtriques de la DAT 5
Rappelons que la version franaise DAT5 est une version adapte de la

DAT 5 amricaine dite en 1990 aux tats-Unis. Le manuel contient une
description des conditions dlaboration de cette version amricaine qui
comprend deux niveaux :
niveau 1 (correspondant des lves de 5e la 3e ) ;
niveau 2 (correspondant des lves de la 2e au Bac).
Pour laborer la version franaise, la procdure classique dadaptation
dune preuve a t suivie : traduction ou cration de nouveaux items,
exprimentation et dveloppement des formes dfinitives.
Il nest pas inutile de donner les grandes lignes de cette adaptation.
Sur cette version amricaine le manuel ne fournit que trs peu de donnes.
On apprend juste que les coefficients de fidlit KR-20 varient de .82 .95,
ce qui dmontre un bon niveau de consistance interne, que des corrlations
trs leves (entre .86 et .90) ont t observes avec des tests daptitude
(sans nous prciser de quels tests il sagit) et que les subtests de la DAT5
peuvent tre considrs comme de bons prdicteurs de la russite scolaire
(manuel DAT5, p. 26), sans nous donner davantage de prcision.
La version franaise est directement adapte de cette version amricaine,
mais avec deux particularits :
dune part, seul le niveau 2 a t adapt ;
dautre part, elle en constitue une forme abrge (rduction du nombre
ditems afin de diminuer le temps de passation).
Les auteurs indiquent que lobjectif central de cette adaptation a t de
rester au plus prs de la version originale. Dans la plupart des cas, les items
originaux ont donc t traduits. Lorsquune simple traduction ntait pas
pertinente (par exemple pour lpreuve dorthographe), de nouveaux items
ont t crs. Au final la forme franaise exprimentale comportait de 45
67 items selon les subtests.
Cette preuve a t teste auprs dun public scolaire (2 651 lves
de niveau 3e terminale, avec une partie de lchantillon scolaris
dans lenseignement professionnel) ainsi que sur un chantillon dadultes
(212 adultes, de niveau CAP Baccalaurat).
Pour aboutir une version rduite, la slection des items de lpreuve
dfinitive a t ralise partir de quatre critres principaux : le pouvoir
289
discriminant des items, la pertinence des distracteurs, la typologie des items

et le niveau global de difficult.
Le tableau 5.3 rsume les tapes de cette adaptation.
Tableau 5.3
Nombre ditems des diffrentes formes de la DAT 5.
Subtests de la DAT 5
Forme dfinitive
amricaine
Forme
exprimentale
franaise
Forme dfinitive
franaise
Raisonnement Verbal
40
50
25
Raisonnement Numrique
40
60
25
Raisonnement Abstrait
40
45
25
Relations Spatiales
50
55
30
Raisonnement Mcanique
60
67
30
Orthographe
40
60
30
Grammaire
40
60
30
Comme nous lindique le tableau, si la version finale franaise est bien

une version abrge elle comporte un nombre suffisant ditems (de 25 30)
dans chaque subtest pour garantir un certain niveau de fiabilit.
Sur lchantillon scolaire
Les valeurs moyennes de russite, ainsi que les valeurs de dispersion,

indiquent que globalement lpreuve est bien adapte ce type de public.
Dans lensemble, on observe bien une volution des scores moyens en
fonction des niveaux scolaires. Cette augmentation na cependant pas t
observe pour les lves de Terminales, ce qui explique que les niveaux 1re
et Terminales ont t regroups au sein du mme talonnage.
Sur lchantillon adulte
Les caractristiques moyennes de russite sont galement satisfaisantes

avec, comme attendues, des diffrences significatives selon les niveaux de
qualification (CAP ou Baccalaurat).
290
Les indicateurs alpha de Cronbach varient de .74 .96 selon les subtests, ce
qui tmoigne dun niveau global satisfaisant dhomognit interne.
La fidlit test-retest a t estime partir dun chantillon dlves
de 3e . Les coefficients de corrlation varient entre .56 et .86 selon les
subtests. Certaines valeurs sont donc un peu faibles (Vitesse de prcision .56
et Raisonnement Abstrait .58).
Signalons que les valeurs caractristiques (moyennes, cart-type), les
coefficients alpha de Cronbach, ainsi que les erreurs de mesure figurent,
pour chaque niveau scolaire, en annexe du manuel.
Les coefficients alpha varient ici de manire similaire lchantillon scolaire

(de .77 .98 selon les subtests) mais la fidlit test-retest na pas t value.
Les erreurs de mesure sont galement indiques pour chaque niveau de
qualification.
Une premire analyse de validit porte sur la structure de lpreuve. Les

coefficients de corrlation entre les huit subtests varient de .06 (entre
Orthographe et Raisonnement Mcanique) .65 (entre Grammaire et
Orthographe). On retrouve globalement le pattern attendu : corrlations les
plus leves entre des tests valuant des dimensions les plus proches (des
valeurs autour de .65 par exemple entre les trois principales preuves de
raisonnement : Raisonnement verbal, numrique et abstrait) et corrlations
plus faibles entre des tests valuant des aptitudes plus loignes. Le
psychologue trouvera dans le manuel toutes les valeurs des intercorrlations
(tableau 7.6, p. 58).
Une deuxime tude de validit porte sur la liaison entre la forme DAT de
1974 et la forme DAT 5. Lchantillon est malheureusement assez restreint
(une cinquantaine dlves de 3e ) ce qui peut contribuer expliquer la
faiblesse de certaines des valeurs observes. En effet, les corrlations varient
entre .77 et .43 comme nous lindique le tableau 5.4.
Lobtention de valeurs infrieures .70 peut paratre surprenante car il
sagit bien ici de comparer deux versions diffrentes (1974 et 2002) du
mme test. Cet aspect est signal dans le manuel :
291
Tableau 5.4
Corrlations entre les subtests de la DAT et les subtests de la DAT 5.
Raisonnement Verbal
.77
Raisonnement Numrique
.43
Raisonnement Abstrait
.45
Relations Spatiales
.55
Raisonnement Mcanique
.71
Orthographe
.65
Grammaire
.50
Certaines corrlations obtenues ne sont pas aussi leves que ce que lon
pouvait attendre. (manuel DAT 5, p. 59).
Les auteurs du manuel proposent une explication qui repose sur les
volutions temporelles entre les deux versions au niveau du contenu des
items et des chantillons. Sans vouloir ngliger ces explications, la faiblesse
de certaines corrlations (par exemple,.45 pour le Raisonnement Abstrait)
devrait amener les auteurs envisager une autre exprimentation sur un
chantillon plus vaste de sujets.
Enfin une dernire tude de validit, validit critrie, porte sur les
liaisons entre DAT5 et rsultats scolaires. partir des moyennes annuelles
en mathmatiques et en franais dlves de 3e , on observe des valeurs
satisfaisantes : .54 entre le Franais et le Raisonnement Verbal (R.V) et .63
entre les mathmatiques et le Raisonnement Abstrait (R.A). Une valeur plus
leve (.68) est obtenue, comme ctait dj le cas dans la version amricaine,
entre deux scores composites : un indicateur RV + RN et un indicateur
composite scolaire (Franais + Mathmatiques). Toutes ces valeurs indiquent
un bon niveau de validit prdictive de la batterie DAT5.
Une seule tude porte sur cet chantillon. Elle concerne lanalyse interne
des intercorrlations. On observe ici des variations un peu moins leves
que celles observes sur lchantillon scolaire avec des valeurs de .15 (entre
Relations Spatiales et Orthographe) .62 (entre Orthographe et Grammaire),
mais on retrouve globalement le mme patron de rsultats (par exemple des
valeurs autour de .55 entre les trois principales preuves de raisonnement).
292
La standardisation
La passation
Le matriel DAT 5 se compose dun manuel (81 pages), de livrets de
passation et de grilles de cotation. Il ny a pas de feuille de passation (except
pour lpreuve de Vitesse de Perception) : le sujet rpond directement sur le
cahier de passation.
Le matriel est de type papier-crayon, destin une utilisation collective
mais bien entendu, comme tout test collectif, une utilisation en individuelle
est possible.
Les huit preuves sont organises en cinq cahiers : le cahier 1 regroupe les
trois aptitudes principales (Raisonnement Verbal, Numrique et Abstrait),
les subtests Orthographe et Grammaire sont regroupes dans le cahier 2, les
autres aptitudes tant sur des cahiers spars. Les consignes et les exemples
de chaque preuve figurent au dbut des cahiers de passation.
Sont indiqus galement au sujet le nombre dexercices (ditems) et le
temps de passation. Les temps varient de 6 minutes (VPP) 20 minutes
selon les preuves.
La cotation
La cotation est trs rapide : elle seffectue partir de grilles de correction
transparentes que lon superpose aux rponses des sujets. On attribue 1 point
pour chaque bonne rponse afin dobtenir un score brut pour chaque subtest
valu.
Le psychologue peut galement additionner le score brut Raisonnement
Verbal et le score brut Raisonnement Numrique pour obtenir un score
composite (RV + RN). Au total, le sujet peut donc tre caractris par neuf
scores.
Les talonnages
Les talonnages comportent onze classes (de 0 10). Aucune indication
nest cependant fournie concernant le type dtalonnage qui a t utilis. Par
dduction on suppose quil sagit dun talonnage normalis en 11 classes,
mais cest au psychologue de le dcouvrir !
Rappelons quil existe deux types dtalonnages (les talonnages normaliss
et les talonnages par quantilage), et quil est ncessaire de connatre le
293
type dtalonnage qui est propos dans le manuel afin dviter des erreurs
dinterprtation (voir chapitre 2 de ce livre si ncessaire).
Les auteurs nindiquent pas non plus les proportions thoriques de sujets
de chaque classe, ce qui ne facilite pas la tche du praticien. Rappelons que
dans ce type dtalonnage la classe centrale (ici la classe 5) regroupe toujours
leffectif les plus important (ici 15,9 %), avec une diminution progressive
de la proportion de sujets au fur et mesure que lon se dplace vers les
classes extrmes, avec par exemple ici1 14,6 % dans la classe 4 (ou 3) mais
3,6 % dans la classe 10 (ou 0).
Les talonnages portent sur deux types de population, adolescents
scolariss et adultes, avec distinction entre plusieurs niveaux de formation :
Concernant les talonnages adolescents , quatre niveaux scolaires sont
disponibles : 3e , 2e , 1re /Terminale, et enseignement professionnel ;

Concernant les talonnages adultes : trois niveaux : CAP/BEP, Baccalaurat et talonnage total.
Pour certains talonnages adolescents , (lorsque les diffrences sont
significatives), figurent des talonnages spars par sexe. Cest le cas
principalement du Raisonnement Spatial ou encore de Vitesse et Prcision.
Une fois ltalonnage slectionn (il doit tre le plus proche possible des
caractristiques du sujet) il ne reste plus qu transformer chaque score brut
en score talonn.
Comme dans les autres preuves, il peut tre intressant de confronter les
rsultats dun sujet plusieurs populations de rfrence.
Linterprtation des scores de la DAT5
Mise part la recommandation de tenir compte de lerreur de mesure2 ,

les auteurs du manuel de la DAT5 ne fournissent aucune information
concernant lanalyse des rsultats : ni mthode dinterprtation des rsultats,
ni tude de cas.
Nous proposons donc ici une procdure dinterprtation des scores
en quatre tapes, globalement semblable celle propose dans les autres
batteries : de la prise en compte des rsultats de chaque subtest
1. Le lecteur pourra se rfrer au tableau 2.3 du chapitre 2 de ce livre pour connatre prcisment les
effectifs thoriques de chacune des classes.
2. Les auteurs proposent un exemple de calcul et de prise en compte de lerreur de mesure (manuel,
p. 19)
294
linterprtation du profil des rsultats en rapport avec les objectifs de

lvaluation.
Propositions de procdure dinterprtation des scores de la DAT
tape 1 : Analyse de chaque score talonn
Le psychologue commencera par reporter les notes brutes et les scores
talonns dans le tableau de profil situ sur la premire page du cahier 1.
tonnamment ne figure pas, dans ce tableau, un emplacement pour
le score composite RV + RN alors mme que le psychologue dispose
dtalonnages pour ce score. Est-ce un oubli ? Le psychologue devra
rajouter manuellement une ligne ce tableau pour y faire figurer cet
indicateur.
Pour chaque aptitude value, la performance du sujet peut varier de 0
10. Comment interprter ces valeurs ? Nous proposons de regrouper des
scores comparables1 .
Rappelons quavec un talonnage en 11 classes normalises, un score
situ dans la classe centrale (classe 5) correspond un score moyen. On
interprtera de la mme manire un score talonn de 6 (lgrement
au-dessus de la moyenne) ainsi quun score de 4 (lgrement en dessous
de la moyenne). Il faut se rappeler que ces trois classes centrales (4, 5 et
6) regroupent prs de 50 % des sujets2 . Un score situ dans lune de ces
trois classes indique donc que la performance du sujet se situe dans la
moyenne de lchantillon de rfrence.
Les scores infrieurs pourront tre qualifis de faibles (scores 2 et 3),
voire trs faibles (scores 0 et 1) et, symtriquement, les scores suprieurs
pourront tre qualifis dlevs (scores 7 et 8), ou trs levs (scores 9 et
10).
Si le psychologue souhaite tre plus prcis, il peut estimer la proportion
de sujets qui obtient une note plus leve, ou moins leve, que celle du
sujet valu.
Comment interprter par exemple un score talonn de 3 ?
On peut dj indiquer que cest un rsultat faible, trs infrieur la
moyenne. Ensuite on peut estimer la proportion de sujets qui se situe
1. Ce qui est galement une manire de tenir compte de lerreur de mesure.
2. 45,1 % trs exactement (14,6 + 15,9 + 14,6 = 45,1 %)
295
en dessous, et au dessus, de ce score1 : seulement 15,8 %2 des sujets

obtiennent un score plus faible, 11,6 % (proportion de la classe 3)
obtiennent un score comparable, et 72,6 % des sujets obtiennent donc
un score suprieur. Ces lments confirment bien la faiblesse dun score
talonn de 3.
Bien entendu, la mme dmarche sapplique pour les scores levs.
tape 2 : Analyse du profil
Il faut distinguer ici deux types de comparaison : interindividuelles et

intra-individuelle.
Dans une comparaison interindividuelle le psychologue sera sensible aux
scores qui atteignent ou dpassent un certain seuil, par exemple la note
de 7, et qui reprsentent les points forts du sujet, comparativement aux
autres sujets de ltalonnage.
linverse, les scores gaux ou infrieurs 3 peuvent tre considrs
comme des points faibles.
Dans une comparaison intra-individuelle, le psychologue sera sensible
au trac du profil plus quaux valeurs des scores. Il sagit ici de reprer
les valeurs leves, et les valeurs faibles, mais en rfrence cette fois
non pas aux scores de ltalonnage mais aux autres scores du sujet (sa
moyenne personnelle). Ainsi, par exemple, pour un sujet qui nobtient
pas globalement de bons rsultats dans la comparaison interindividuelle
(avec des scores situs par exemple entre 2 et 5 selon les subtests) le
psychologue sera attentif au profil et aux scores extrmes (ici les scores 5
et 2) qui dtermineront les points forts, et faibles, du profil du sujet en
rfrence cette fois lensemble de son profil.
tape 3 : Analyse du score composite RV + RN
Rappelons que ce score composite prsente une bonne qualit prdictive
par rapport aux acquisitions scolaires. Le psychologue interprtera ce
score dans ce sens et dans une comparaison interindividuelle.
tape 4 : Analyse des relations entre aptitudes values et activits
professionnelles
Le psychologue trouvera dans le manuel (p. 5 12) des prcisions
sur ce qui est valu dans chaque subtests ainsi que des informations
1. Voir tableau 2.3 du chapitre 2.
2. Si on additionne les pourcentages des classes 0, 1 et 2 on obtient 3,6 + 4,5 + 7,7 = 15,8 %
296
succinctes concernant les liaisons entre ces aptitudes et certaines activits

professionnelles. Par exemple, pour le Raisonnement Verbal il est signal :
Ce test peut tre utilis pour aider prdire le succs scolaire mais aussi le russite dans certaines
disciplines telles que le commerce, le droit, le journalisme, lenseignement, les sciences. (manuel,
p. 6).
Dans le cadre dune pratique de conseil, mais dans une moindre mesure,
dans le cadre dune pratique de slection, il ne sagit pas, comme nous
lavons dj signal propos des autres batteries, de rechercher une parfaite
adquation entre le profil du sujet et les activits professionnelles exerces
et/ou envisages, mais plutt daider le sujet prendre conscience des
ventuels dcalages qui peuvent exister entre son projet professionnel et
lestimation de ses aptitudes. Ces dcalages pouvant dailleurs faire lobjet
dchanges avec le sujet lors de la procdure de restitution des rsultats.
Conclusion sur la DAT5
Directement adapte dune preuve amricaine, la batterie DAT5 est une

batterie assez complte, particulirement bien adapte des publics scolaires
(de niveau 3e Baccalaurat). Utilise dans sa totalit elle permet de
caractriser chaque sujet selon huit scores daptitudes et selon un score
composite supplmentaire. Les diffrents subtests peuvent tre utiliss
sparment, ce qui offre une grande souplesse dutilisation. Ses qualits
psychomtriques sont globalement satisfaisantes, mais on peut regretter
le manque dinformations concernant linterprtation des scores, et tout
particulirement labsence dtudes de cas.
TROISIME PARTIE
Utilisation des tests

dintelligence
CHAPITRE
6
De la mesure
des performances
lanalyse des stratgies
Sommaire
1. La notion de stratgie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Page 302
2. Vicariance et affordance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Page 305
3. Comment identifier les stratgies ? . . . . . . . . . . . . . . . . . . . . . . . . . .
Page 307
4. De lanalyse des stratgies dans lpreuve des cubes de Kohs au

logiciel SAMUEL . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Page 311
Utilisation des tests dintelligence
301
OBJECTIF principal des tests, et plus prcisment des tests

daptitude, est de diffrencier les sujets sur une dimension
dfinie, relativement stable, comme, par exemple, laptitude
cognitive gnrale (ou facteur g), ou une aptitude spcifique. Cette
diffrenciation, que permet la sensibilit des preuves, porte sur le
niveau de performance observ (le ou les scores) dans une tche prcise (les
items du test).
Cette approche quantitative de la variabilit interindividuelle reprsente
le principe gnral de la mesure dans les tests que nous avons prsent dans
les chapitres prcdents.
Nous aborderons maintenant dans ce chapitre les principaux lments
dune autre approche des diffrences individuelles, une approche plus
qualitative qui peut reflter lvolution de la psychologie diffrentielle de ces
dernires annes. En effet, nous sommes passs dune analyse de la variabilit
interindividuelle en terme defficience et de niveau de performance (lie au
courant psychomtrique et la mthode des tests) lanalyse des diffrences
interindividuelles en terme de fonctionnement cognitif. Ce dernier type de
diffrences permettant ventuellement dexpliquer les variations observes
en terme defficience :
Les diffrences de performances peuvent sexpliquer dabord, dans une

chane causale quil convient dexploiter maillon aprs maillon, par la mise
en uvre de modalits de fonctionnement diffrentes chez des individus
diffrents confronts la mme situation. (Reuchlin, 1990a, p. 15).
Cette approche peut tre qualifie de cognitivo-diffrentielle . Elle prsente de nombreux points communs avec, dune part, lapproche intgrative1
propose par dautres chercheurs (Rozencwajg, 2005 et 2003), et, dautre
part, avec lapproche du diagnostic cognitif2 (Richard, 1996). Lobjectif de
cette approche nest donc plus de diffrencier les sujets (uniquement) sur leur
niveau de performance mais de les caractriser galement sur les modalits de
ralisation de cette performance, sur la singularit de leur fonctionnement
cognitif, et plus prcisment, comme nous allons le prsenter ensuite, sur
leur(s) stratgie(s) de rsolution.
1. Lapproche intgrative consiste identifier les diffrents aspects du fonctionnement au sein de tches
complexes par lidentification des stratgies de rsolution. Ces stratgies, qualitativement diffrentes, sont
rvlatrices de fonctionnements individuels diffrents. (Rozencwajg, 2005, p. 105).
2. Le diagnostic se rattache une approche diffrentielle de ltude des processus cognitifs.
(Richard, 1996, p. 4).
302
De la mesure des performances lanalyse des stratgies
Les recherches dans ce domaine sont nombreuses (voir par exemple

louvrage Perspectives diffrentielles en psychologie, Loarer et al. 2008) mais
lcart est important entre rsultats de recherches et applications concrtes.
Bien que lon dispose maintenant dune assez grande varit de situations
dvaluation permettant dillustrer ce type de diffrences individuelles, ces
situations relvent le plus souvent dpreuves exprimentales et on ne
dispose pas encore de versions rellement utilisables, cest--dire de tests
dits, valids et talonns. En effet, le passage est souvent difficile entre les
recherches et les pratiques.
Dans le domaine de lintelligence, les mthodes de diagnostic cognitif
restent, pour linstant, du domaine de la recherche , observaient dj
Huteau et Lautrey en 1999a (p. 247).
Pourtant llaboration de ce type de test prsenterait un grand intrt :

Il semble (...) quil y ait beaucoup attendre dpreuves construire
celles-l qui caractriseraient les individus selon les stratgies quils
utilisent. (Huteau, 1985b, p. 83).
Le logiciel SAMUEL (Rozencwacg, Corroyer et Altman, 1999, 2001), que

nous prsenterons en fin de chapitre, constitue sans aucun doute lexception
qui confirme la rgle car il permet dvaluer les stratgies de rsolution
des sujets dans une preuve informatise de type cubes de Kohs. Avant de
prsenter ce test, et les tudes exprimentales sur lesquelles il repose, il nous
faut prciser davantage cette notion de stratgie de rsolution.
1.
La notion de stratgie
Lorsquon observe plusieurs individus accomplissant la mme tche, on

constate souvent en effet quils ne procdent pas tous de la mme faon.
On dira quils nutilisent pas tous la mme stratgie. (Reuchlin, 1997,
p. 117).
Les situations de tests dintelligence peuvent tre considres comme des

situations typiques de rsolution de problme dans lesquelles il est possible
dobserver de telles diffrences entre individus (Richard et Zamani, 1996).
Le test des cubes de Kohs en est un bon exemple, mais on pourrait galement
citer le test du Passalong (voir par exemple les travaux de Beuscart-Zphir,
303
Anceaux, Duhamel et Quentin, 1996 et ceux de Richard et Zamani, 1996)

ou encore le test D70 (voir par exemple les travaux de Rmy, 2001a).
Dans ces situations, o lattention va se dplacer de lanalyse de la
performance vers lanalyse de la rsolution, lvaluation portera sur lactivit
du sujet pendant toute la passation, et non plus seulement sur ses rsultats :
Lidentification des processus de traitement sappuie ici sur lobservation
en temps rel du droulement de la conduite du sujet en train de rsoudre
les items du test. (Huteau et Lautrey, 1999a, p. 239).
Le niveau de prcision de cette analyse peut varier et aura comme

consquence dapporter quelques nuances cette dfinition :
Si lanalyse est peu pousse la stratgie pourra tre assimile un type
dopration, une opration ralise plus ou moins efficacement, ou
encore, si on met laccent sur la prparation de lactivit, une attitude. La
stratgie ne caractrise plus vraiment la structure de lactivit mais plutt
son allure gnrale. (Huteau, 1985b, p. 71)
Ainsi, selon le niveau danalyse, la stratgie peut tre un type dopration

mentale, une squence doprations (suite doprations mentales) ou encore
une attitude.
Pour Reuchlin, stratgie et procdure de rsolution semblent tre
synonymes :
Des individus diffrents emploient souvent des procdures (on dit aussi
des stratgies ) diffrentes pour excuter la mme tche. (Reuchlin,
1997, p. 107)
Cette diversit de stratgie, cette redondance de fonctionnement, est

directement lie, pour ce mme auteur, la diversit des processus mentaux :
Cette diversit des stratgies peut tre attribue la diversit des processus
mentaux qui sous-tendent lexcution de la tche. (Reuchlin, 1997,
p. 117)
Cette diversit, aussi bien au niveau des processus mentaux que des
stratgies, permet alors des individus diffrents dutiliser des moyens
diffrents dans la rsolution dune mme tche :
Des composantes ou processus diffrents peuvent tre mis en uvre par
des stratgies diffrentes permettant toutes de rsoudre le problme pos.
(Reuchlin et Bacher, 1989, p. 136)
Lautrey rapproche galement ces deux notions, stratgies et processus,

dans la situation de rsolution de problme :
304
lchelle du temps de la rsolution de problmes, on parle gnralement

de diffrences de stratgies pour dsigner ces diffrences dans le choix des
processus. (Lautrey, 1995, p. 8)
Enfin, distinguer les sujets sur des diffrences de stratgies, sur des
diffrences de processus, cest les diffrencier sur des variables qualitatives :
Nous rservons lexpression diffrences de stratgie des diffrences
qualitatives dans la nature des processus mobiliss pour rsoudre un mme
problme. (Huteau et Lautrey, 1999a, p. 232)
Ces dfinitions de la notion de stratgie permettent de prciser ce qui

va constituer ici lobjet mme de lvaluation. Cette approche, applique
la rsolution ditems de tests, peut se prsenter ainsi : il est possible que
des sujets diffrents, face un mme item, mettent en place des stratgies
diffrentes pour aboutir finalement au mme rsultat (la bonne rponse).
Ce type danalyse nest jamais (ou quasiment jamais) effectu dans les
tests disponibles actuellement. Pourtant, bien avant les propositions que
nous venons rapidement de prsenter (et qui datent des annes 1980-1990),
des auteurs se sont intresss la dmarche du sujet, aux procdures de
rsolution ditems de tests. Par exemple dans les annes 1930, Kreutz
(1934) va consacrer un article la problmatique de linconstance des
tests. Son objectif est diffrent de celui expos dans ce chapitre, il ne sagit
pas pour lui dtudier finement les dmarches de rsolution pour en faire
un objet dtude, mais il souhaite les analyser afin de rduire les sources
de variations individuelles et ainsi, rduire lerreur de mesure (suivant
lapproche psychomtrique classique dominante cette poque). Certaines
de ses rflexions nous apparaissent encore trs pertinentes aujourdhui et
semblent annoncer les principes dune analyse cognitivo-diffrentielle que
dautres auteurs proposeront plus tardivement. Il note ainsi que :
Les tches mme les plus simples en apparence, peuvent tre rsolues
trs diffremment (...) Le moyen de rsoudre la tche est important
connatre, vu que les comportements diffrents mobilisent des aptitudes
diffrentes ; par consquent, si lon ignore le moyen de rsoudre la tche,
il est impossible dinterprter correctement le rsultat. (Kreutz, 1934,
p. 229)
Mais au lieu de sintresser plus prcisment cette variabilit il cherche

alors la rduire et propose par exemple de fixer la faon dagir, la technique
du sujet (p. 234) de faon rendre comparable les rsultats. Et si certains
tests ne permettent pas cette uniformisation de la dmarche de rsolution il
faut les retirer de la circulation (p. 235) !
305
Pour pouvoir fixer cette modalit de rsolution il faut commencer par

recenser les diffrentes stratgies possibles :
Daprs une analyse approfondie du test, connatre tous les moyens
possibles de le rsoudre. (p. 235)
Plus de 70 ans plus tard, en relisant ces propositions nous pourrions nous
demander si les principes de lanalyse cognitivo-diffrentielle ntaient pas
dj noncs par Kreutz en 1934, mme si nous ne reprenons pas notre
compte toutes ses conclusions.
2.
Vicariance et affordance
Dans un article de 1978, Maurice Reuchlin prsente avec le modle de la
vicariance, un cadre conceptuel visant expliquer les diffrences individuelles.
Il propose de considrer quun mme individu dispose de plusieurs processus
vicariants (processus pouvant se substituer les uns aux autres) pour laborer
sa rponse et sadapter une situation. Chaque sujet disposerait ainsi dun
rpertoire1 intra-individuel de processus vicariants. Le recours tel ou tel
processus pourrait varier selon les individus certains de ces processus tant
plus vocables chez un individu donn ce qui permettrait dexpliquer les
diffrences interindividuelles observes au niveau de la performance, tous les
processus ntant pas quivalents en terme defficacit. Ainsi les individus
pourraient tre diffrencis sur leur hirarchie dvocabilit des processus, en
raison de la diversit gntique interindividuelle et la diversit des histoires
individuelles (Reuchlin, 1978, p. 135).
Cette pluralit de processus permet alors au sujet de sadapter diffrentes
situations : les processus mis en uvre par un mme sujet pouvant tre
diffrents dans des situations diffrentes. Pour Reuchlin il sagit dun modle
probabiliste, qui pourrait tre formalis ainsi : pour un individu I plac
dans une situation S, le processus P a une certaine probabilit dtre voqu ,
et qui distingue deux types de paramtres : individuels et situationnels.
Pour les paramtres individuels, Reuchlin envisage lexistence dune
certaine stabilit dans le fonctionnement :
Il se trouve, pour des raisons encore mal dfinies, que chaque individu,
mme sil dispose potentiellement de tout le rpertoire procdural
1. On trouve aussi dans la littrature le terme catalogue .
306
caractristique de son espce, accorde de faon relativement stable une

priorit dvocation plus ou moins forte certains de ces processus
vicariants. (Reuchlin, 1990a, p. 20.)
Cette stabilit peut permettre alors didentifier la stratgie prfrentielle

du sujet, pour une classe donne de situations.
Concernant les paramtres situationnels, ils vont agir sur le niveau
defficacit des processus, et au final, sur le niveau de performance des
sujets :
Dans une situation dtermine, tous ces processus ne seraient pas
galement efficaces : ils seraient plus ou moins coteux pour le mme
niveau dadaptation ou auraient des probabilits ingales de conduire la
russite. (Reuchlin, 1978, p. 135.)
Ces propositions de Reuchlin vont avoir des retombes importantes dans

les recherches en psychologie diffrentielle : nombre de chercheurs vont
ainsi utiliser ce modle, ou des aspects de ce modle, pour expliquer des
diffrences inter (et intra) individuelles observes dans diffrents types de
situation. Par exemple, pour Lautrey :
Cette notion de vicariance offre un cadre conceptuel intressant pour
rendre compte des diffrences individuelles qui ont t appeles qualitatives
(...) cest--dire des diffrences tenant ce que les individus peuvent
rsoudre un mme problme par des processus diffrents, des stratgies
diffrentes. (Lautrey, 1999, p. 54)
Ohlmann va sintresser tout particulirement au second type de

paramtre avec la notion daffordance (Ohlman, 1991, 1995). Ses recherches
concernent plus prcisment les effets des caractristiques de la situation sur
les stratgies utilises par les sujets.
Pour cet auteur, lobservation de diffrences interindividuelles en terme
de stratgies ne peut se raliser que dans certaines conditions, situations dites
contrainte faible, qui laissent une marge de libert au fonctionnement
individuel des sujets. Dans ces situations lexpression de diffrences
interindividuelles stratgitaires est alors possible. Par contre, dautres
situations, niveau de contrainte plus lev, ne seraient pas propices
lexpression de ces diffrences. Chaque situation peut donc tre caractrise
par son niveau de contrainte, et cest ce niveau qui va dterminer les
possibilits dexpression de stratgies diffrentes.
Pour caractriser les situations, Ohlmann propose dutiliser la notion
daffordance, concept propos par Gibson en 1979 dans le domaine de la
perception. Ohlmann nous en propose une premire dfinition en 1990 :
307
Cest une possibilit daction tablie partir des relations entre un

organisme et son environnement. (Ohlmann, 1990b, p. 425.)
Dfinition quil complte un peu plus tard :

Le concept daffordance pourrait se dfinir comme la perception dune
utilit. Autrement dit, pour un organisme insr dans un environnement,
cest la possibilit deffectuer une action finalise. (Ohlmann, 1991,
p. 212.)
Ainsi les affordances perues/cres par le sujet vont dpendre des

caractristiques de la situation. Mais, situation identique, elles peuvent
diffrer en fonction des sujets. Ohlmann propose donc une approche
diffrentielle de la notion daffordance :
On peut suggrer aussi que des individus diffrents quoique dune
espce identique tireront dun environnement identique des affordances
diffrentes. Autrement dit, selon litem qui est plac en tte de catalogue
individuel de processus, les proprits utiles du milieu seront perues
diffremment. (Ohlmann, 1991, p. 214-215.)
Les recherches dOhlmann vont alors porter principalement sur ces interactions individu-situation dans la cognition spatiale, et plus prcisment sur
lanalyse des conduites posturales et des situations de conflit vision/posture
(Ohlmann, 1990a, 1990b, 1991, 1995, 2000).
3.
Comment identifier les stratgies ?

Identifier la stratgie de rsolution dun sujet dans une tche donne ncessite
de disposer pralablement de donnes fiables concernant les lments
suivants :
Connatre toutes les possibilits de rsolution (lister lensemble des
stratgies possibles), ;
Slectionner les indicateurs pertinents pour chacune de ces stratgies ;
laborer un dispositif adapt de recueil de donnes.
Nous avons vu prcdemment que, ds 1934, Kreutz proposait dobserver
les diffrents modes de rsolution des items de test. Il envisageait alors trois
possibilits mthodologiques :
1 Recourir lintrospection ;
308
2 Observer les conduites en cours de rsolution ;

3 Procder une analyse raisonne du test (on pourrait dire
aujourdhui une analyse cognitive du test) afin de reprer les diffrentes
possibilits de rsolution (Kreutz, 1934, p. 238).
Nous pouvons retrouver des liens entre ces trois pistes de Kreutz et
diffrentes mthodologies utilises actuellement dans les recherches. Nous
ne prsenterons ici que trois exemples, lun, lanalyse des temps de rponse,
car cest sans doute historiquement lune des premires mthodes employes,
les deux autres, lanalyse dynamique de la rsolution et la cration dun
matriel spcifique, car ils sont directement lis lexemple de lpreuve
SAMUEL que nous prsenterons ensuite.
Lanalyse de la structure des temps de rsolution
Cette mthode chronomtrique a t largement utilise ds les premires

recherches de psychologie cognitive diffrentielle partir du postulat suivant :
des traitements (stratgies) diffrents vont se diffrencier par des patrons
diffrents de temps de traitement. La validation des modles thoriques
des stratgies (modles stratgitaires) reposera sur lanalyse des temps de
prparation et/ou de rsolution. Ainsi on a montr, par exemple dans
des tches de rotation mentale, que lutilisation dune stratgie analogique
(image) pouvait se reprer par une liaison linaire entre le temps de
rsolution et la valeur de langle de rotation de la figure tandis que dans le
cas de lutilisation de la stratgie propositionnelle, le temps de rsolution
nest pas en relation directe avec langle de rotation (voir par exemple Gilles,
1991 et 1993).
Mais le caractre univoque de la signification des temps de rponse a t
remis en cause en raison de deux critiques principales (Marquer et Pereira,
1987, 1990) :
un mme patron temporel peuvent correspondre des traitements
diffrents ;
Des patrons identiques peuvent traduire des traitements diffrents.
partir danalyses de rsultats de recherches, ces auteurs nous indiquent
bien que ce type dindicateur nest pas toujours valide.
309
Lanalyse dynamique de la rsolution
Cette mthode, qui consiste suivre pas pas la dmarche du sujet dans
la rsolution du problme, a t trs utilise pour ltude de la rsolution
ditems de tests. Plusieurs mthodes de recueil des donnes sont utilisables :
ltude des mouvements oculaires ;
lenregistrement vido ;
lautomatisation du recueil des variables.
Nous prsentons quelques recherches qui illustrent ces diffrentes
mthodologies.
Ltude des mouvements oculaires

Dans une tude portant sur la rsolution des Progressives Matrices de
Raven (Carpenter, Just et Shell, 1990), les auteurs vont analyser les
procdures de rsolution des sujets partir des donnes suivantes : temps de
rsolution, erreurs, verbalisation des rgles trouves en cours de rsolution
et mouvements oculaires pendant la rsolution.
Cette dernire variable leur permet danalyser trs finement les regards des
sujets, et la dynamique de ces regards, afin, par exemple, de savoir quelles
sont les matrices les plus regardes, quelles sont celles qui subissent le plus
dallers-retours visuels... et de comprendre alors la dynamique de rsolution
du sujet dans la dcouverte des rgles de transformation des lments de
la matrice. Les auteurs montrent ainsi que les sujets dcomposent souvent
le problme global en plusieurs problmes plus lmentaires (comme la
recherche de la rgle de progression entre deux lments). Les auteurs
laborent alors un programme informatique (Fairaven) cens simuler la
procdure de rsolution des sujets les moins performants, puis un second
programme (Bettaraven) adapt la procdure de rsolution des sujets
les plus performants. On peut considrer ces deux programmes comme
reprsentatifs des deux types de stratgies de rsolution, la seconde tant la
plus efficace.
Lenregistrement vido des passations

Une observation directe de la conduite du sujet en temps rel est assez
difficile raliser, mme laide de grille dobservation, car les informations
prendre en compte sont trs nombreuses. Un enregistrement vido permet
310
le recueil de toutes les observations dordre comportemental qui pourront

ensuite tre analyses et codes afin de fournir des indicateurs caractristiques
des stratgies utilises par les sujets. Une telle mthodologie a t utilise,
par exemple, dans la rsolution des cubes de Kohs (Beuscart-Zphir et
Beuscart, 1988 ; Rozencwajg, 1991). Ces recherches confirment lexistence
de plusieurs stratgies dans cette preuve (nous dvelopperons plus loin ces
tudes).
Lautomatisation du recueil des observables

Lenregistrement vido des passations, sil prsente de nombreux avantages,
comporte galement des inconvnients, en particulier une lourdeur mthodologique (camras, codage des bandes vidos...) qui limitent son utilisation.
Des chercheurs ont alors envisag dautomatiser le recueil des donnes,
soit en conservant la situation mais en utilisant un dispositif lectronique
qui enregistre les donnes (voir par exemple Beuscart-Zphir et Beuscart,
1989, et Beuscart-Zphir et al., 1996, sur lpreuve du passalong), soit en
informatisant la tche (voir par exemple Rozencwajg, Corroyer et Altman,
1999, et Houssemand, 1999a et 1999b, sur lpreuve des cubes de Kohs ;
Richard et Zamani, 1996, sur lpreuve du passalong).
Dans le premier cas, la situation est strictement la mme pour le sujet
(en comparaison des modalits de passation classique de lpreuve), par
contre, dans le second cas, lpreuve est profondment modifie de part
linformatisation (transformation de la relation sujet/tche du test par la
mdiation de lordinateur, passage en deux dimensions...).
Ces procdures dautomatisation du recueil des donnes ne consistent
pas uniquement automatiser la passation et la correction (comme cest
simplement le cas dans la grande majorit des tests informatiss) mais
permettent de recueillir de manire automatique plusieurs types dindicateurs
stratgitaires pertinents pour caractriser les diffrentes stratgies (temps
de rsolution, cart temporel entre deux actions, ordre des actions...).
partir de ces indicateurs il est possible dlaborer des modles thoriques des
stratgies, voire de raliser un diagnostic automatique de la stratgie utilise
par le sujet (voir plus loin lexemple du logiciel SAMUEL).
311
La cration dun matriel spcifique
Une approche originale pour reprer la stratgie des sujets a t propose et

mise en uvre par Rmy (2001a et 2001b). la suite des premiers travaux
de Dickes et Martin sur le test D70 (Dickes et Martin, 1998), dans lesquels
ces auteurs proposent une catgorisation des items des tests de type dominos
(voir chapitre 4), Rmy va laborer une preuve originale reposant sur des
items pouvant tre rsolus selon deux logiques diffrentes : soit par une
stratgie spatiale, soit par une stratgie numrique. Et ce qui fait loriginalit
de cette approche cest que la rponse du sujet ces items (nomms items
quipotents1 ) sera diffrente selon la stratgie quil a utilise.
Autrement dit, il y a pour chaque item deux bonnes rponses, chacune
tmoignant de lutilisation dune stratgie dfinie. Linfrence de la stratgie
utilise par le sujet prsente donc ici toutes les garanties dobjectivit car la
rponse est univoque et dpend entirement (en cas de bonne rponse) de la
procdure utilise. notre connaissance il nexiste pas de version utilisable
de cette preuve.
Un second exemple de cration de matriel spcifique porte sur lpreuve
des cubes avec la cration dun logiciel, SAMUEL, dont lobjectif principal
consiste valuer la stratgie utilise par le sujet. Ce sera lobjet de la partie
suivante.
4.
De lanalyse des stratgies dans lpreuve

des cubes de Kohs au logiciel SAMUEL
Lanalyse des stratgies dans lpreuve des cubes
Lpreuve des cubes de Kohs est une preuve trs connue des psychologues.
Rappelons quelle a donn lieu de multiples versions et de nombreuses
recherches (Chartier, 2002a). Nous nous intresserons tout particulirement
dans cette partie aux donnes concernant lanalyse des stratgies de
rsolution.
Wechsler, qui avait introduit un subtest cubes ds les premires versions
de ses chelles dintelligence, notait ds 1944 (Wechsler, 1956 pour la
1. Items permettant lutilisation des deux stratgies (soit lune, soit lautre) pour arriver la bonne
rponse.
312
traduction franaise) quil existait une liaison entre la faon dont les sujets
se reprsentaient le modle et le niveau de russite lpreuve :
Assez curieusement, les individus russissant le mieux ce test ne sont pas
ceux qui voient, ou tout au moins suivent, le modle comme un tout, mais
ceux qui sont capables de le fractionner en petites portions. (Wechsler,
1956, p. 113)
Et cette diffrence interindividuelle dans la reprsentation mentale du

modle peut avoir une incidence sur la mthode utilise par le sujet :
Nous avons dj mentionn la question des diffrences dans la mthode
pouvant tre employe pour faire les dessins, savoir, suivre la figure ou
au contraire la dcomposer en ses lments (Wechsler, 1956, p. 114).
Wechsler distinguait ainsi deux grands types de rsolution, que lon

retrouvera ensuite dans les recherches ultrieures :
soit suivre limage , stratgie qualifie ensuite de globale ;
soit sparer le dessin en ses parties constituantes (p. 113), stratgie appele
par la suite analytique.
Cette variabilit possible dans la rsolution de la tche explique que, pour
Wechsler :
Le test de cubes colors est non seulement un excellent test dintelligence
gnrale, mais un de ceux qui se prtent admirablement lanalyse
qualitative. (Wechsler, 1956, p. 114)
Ces premires observations de Wechsler rejoignent celles de Goldstein et

Scheerer qui distinguaient galement, dans la mme priode, deux approches
possibles dans la rsolution de cette tche : une approche concrte et une
approche abstraite (Goldstein et Scheerer, 1941).
Ces deux mthodes de rsolution, ces deux stratgies, sont rapprocher des
deux principaux types de traitement de linformation qui ont t proposs
plus tardivement par les recherches en psychologie cognitive : un traitement
global et un traitement analytique.
On retrouve dailleurs cette distinction global/analytique dans le manuel
du Kohs, diffus par les ditions EAP1 :
Lobservation du comportement permet dapprcier la qualit de la
russite ou de lchec, de caractriser le procd de construction, qui reflte
1. Lpreuve de Kohs a t diffuse la fois par les ditions EAP et par les ditions ECPA, ce qui
explique lexistence de deux manuels pour ce test.
313
le niveau de comprhension ; le sujet : qui structure systmatiquement

le modle : processus analytique, qui fractionne le modle en suivant
le primtre, les angles, les motifs, etc : processus semi-analytique, qui
procde par ttonnements, soit systmatiques, soit empiriques. (EAP,
1978, p. 36).
Ces premires propositions des annes 1950-1970 confirment bien

lexistence, au moins dans cette preuve, dune possibilit de variabilit
interindividuelle dans la procdure de rsolution utilise par les sujets. Pour
le praticien qui sintresse ce type de diffrences, lun des problmes sera
alors de pouvoir reprer la stratgie utilise par le sujet. Une rponse va
tre fournie par Bonnardel en 1953, pour le test B101 (lune des versions
de lpreuve de cubes), avec la prsentation dune grille dobservation de la
conduite du sujet en cours dpreuve. Cette grille distingue cinq niveaux de
structuration : dune analyse par range ou colonnes (catgoris en A+),
des essais empiriques, dsordonns (catgoris C-).
Si nous reprenons les deux types de constructions proposs par Wechsler
(voir plus haut), nous pouvons rapprocher la structuration de type A+ de la
stratgie analytique ( sparer le dessin en ses parties lmentaires ), et la
structuration de type B de la stratgie globale ( suivre limage ). Malgr
son intrt, cette grille de Bonnardel ne semble pas avoir t souvent utilise1
ni dans les pratiques valuatives, ni dans les recherches.
Toutes ces approches vont tre reprises dans les annes 1980 par diffrentes
recherches relevant de psychologie cognitive et/ou diffrentielle qui vrifient
lexistence de ces deux stratgies :
Une stratgie analytique (la plus performante) dans laquelle le sujet
procde une segmentation mentale du modle en ses composantes

lmentaires (les diffrents cubes), puis identifie la face du premier cube
et son orientation avant de le disposer sur laire de construction, et
continue ainsi sa construction, cube aprs cube ;
Une stratgie globale 2 dans laquelle le sujet est plus sensible laspect
gestalt du modle, et ne parvient pas, ou trs difficilement, oprer cette
segmentation mentale du modle, et procde alors, dans sa construction,
1. Nous trouvons peu de rfrences cette grille dans la littrature, mise part une prsentation
dans larticle de Rozencwajg et Huteau (1996).
2. La plupart des auteurs de langue anglaise utilisent le terme synthtique pour dsigner cette stratgie,
mais nous utiliserons ce terme de stratgie globale pour deux raisons : dune part cette stratgie
correspond la stratgie globale dcrite par ailleurs, dautre part, Rozencwajg a propos une stratgie
spcifique quelle a qualifie de synthtique et qui ne correspond pas cette stratgie globale (voir
plus loin).
314
plutt par ttonnements, par essais et erreurs afin de reconstituer la forme

globale perue.
Nous ne reprendrons ici que les principaux rsultats des recherches.
Jones et Torgesen (1981) se sont intresss lvolution des stratgies avec
lge partir de lhypothse suivante : les enfants plus gs devraient utiliser
prfrentiellement la stratgie la plus performante, la stratgie analytique.
partir de passations vidoscopes, ils analysent finement les squences de
placement des cubes (indicateurs de la stratgie utilise) mais ne constatent
pas de diffrences entre les enfants de diffrents groupes dge.
Schorr, Bower et Kiernan (1982) observent cette variabilit sur une
population dadultes : une stratgie analytique, dans laquelle le sujet procde
une dcomposition mentale du modle, et une stratgie globale, dans
laquelle le sujet cherche reproduire le forme globale. Les auteurs montrent
lexistence dune liaison entre le nombre dartes visibles et la stratgie
analytique : plus ce nombre est important, plus la dcomposition mentale est
facilite par le modle, ce qui favorise lutilisation de la stratgie analytique1 .
Pour les auteurs, la stratgie analytique est, dune part, la plus employe
dans leur chantillon, dautre part, la plus performante, car la plus rapide.
Spelberg (1987) mne une exprience sur un large chantillon denfants
(770 enfants de 6 16 ans) et trouve galement un lien entre le nombre
dartes visibles, la rapidit dexcution et la stratgie analytique. Il suggre
galement, la suite de Jones et Torgesen, que le choix de lune ou lautre des
deux stratgies dpendrait plus de la nature du stimulus que des prfrences
personnelles du sujet.
Beuscart-Zphir et Beuscart (1988), dans le cadre gnral danalyse
cognitive des situations de rsolution de problmes, proposent une
formalisation de la tche des cubes en termes de buts et de sous-buts :
Lune des formalisations possibles est la suivante :
but final : reconstitution du modle avec des cubes diffrents (ou avec des
cubes identiques orients diffremment). Pour raliser ce but final, il faut
savoir de combien de cubes est constitu le modle.
1r sous-but : identifier le nombre de cubes. Il faut galement savoir quel
type de cubes mettre en chaque position.
2e sous-but : identifier les n cubes, rouge (r) ou blanc (b) ou mixte (m). Il
faut enfin, quand cest ncessaire (faces mixtes), reprer lorientation du
cube.
1. Nous pouvons relier cette observation aux propositions de Ohlmann, exposes plus haut, avec la
notion daffordance.
315
3e sous-but : identifier lorientation des cubes mixtes (m).

Une fois que les trois sous-buts sont atteints, le but final est directement
ralisable. Si le sujet a procd lanalyse in extenso, il est capable de
mettre correctement en position chaque cube. (Beuscart-Zphir et al.,
1988, p. 37.)
Les deux stratgies classiques dans cette tche se diffrencient alors de la

manire suivante : la stratgie analytique, la plus performante, est caractrise
par lidentification des buts et sous-buts alors que pour la stratgie globale
seul le but final est identifi. Le sujet sengage directement dans le processus
de reconstruction. Il assemble les cubes vraisemblablement en utilisant des
indices perceptifs . Lorsque les items deviennent complexes on retrouve
alors la description dune stratgie par essais et erreurs . (Beuscart-Zphir
et al., 1988, p. 37).
On retrouve bien ici les oprations fondamentales de dcomposition
mentale du modle en cubes lmentaires qui caractrisent la stratgie
analytique. partir de passations vidoscopes les auteurs vont analyser les
procdures de construction utilises par les sujets. Ils distinguent ainsi trois
types de construction :
Une procdure dans laquelle les sujets positionnent directement les faces
correctes des cubes au bon endroit (donc peu de manipulation et rapidit

dexcution) qui peut correspondre soit une stratgie globale russie,
soit une stratgie analytique ;
Une procdure comportant plus de manipulations, plus longue, avec des
corrections, qui semble correspondre une stratgie analytique ralise
avec difficult ;
Une procdure comprenant de nombreux essais dassemblages de cubes,
dans laquelle le sujet ne cherche pas (ou narrive pas) laborer une
reprsentation mentale du modle, procdure qui correspond une
stratgie globale.
Enfin, Rozencwajg (1991) et Rozencwajg et Huteau (1996) vont
confirmer, sil en tait besoin, lexistence de ces deux stratgies mais
surtout vont identifier lexistence dune troisime stratgie, stratgie quils
nomment synthtique , qui serait une combinaison des stratgies globale
et analytique. Cette stratgie consiste analyser le modle en motifs
gomtriques ou gestalts (comme par exemple un triangle rouge compos
de deux cubes bicolores), motifs que le sujet peut ventuellement retrouver
sur plusieurs modles. Dans sa construction le sujet sappuie alors sur cette
316
reprsentation mentale et reproduit le modle prfrentiellement partir de

ces motifs gomtriques. La figure 6.1 prsente ces motifs gomtriques.
Gestalt
lmentaire :
le triangle
Gestalt
lmentaire :
la bande
Gestalt
complexe :
le losange
Gestalt
complexe :
le bande
Modle a
Modle b
Modle c
Modle d
Figure 6.1
Les formes gomtriques lmentaires (gestalts) identifies par Rozencwajg (daprs
Rozencwajg, 2005, figure 10, p. 145) reproduit avec laimable autorisation de lauteur.
Ces formes gomtriques peuvent comporter de deux quatre faces de

cubes : par exemple le triangle est compos de deux cubes, la bande est
compose de trois cubes.
On peut remarquer que cette procdure de construction par motif
avait dj t propose en 1978 dans le manuel des EAP et qualifie alors
de semi-analytique (EAP, 1978, p. 36).
Dans cette stratgie synthtique, le sujet procde une autre forme de
segmentation mentale, il ne dcomposerait plus (ou plus seulement) le
modle en cubes lmentaires (comme dans la stratgie analytique) mais en
groupements de cubes formant une forme gomtrique particulire (triangle
de 2 cubes, losange de 4 cubes, bande de 3 cubes...).
Pour les auteurs, cette stratgie est plus performante que la stratgie
analytique car elle permettrait au sujet de ne pas traiter tous les cubes
isolment et davoir de ce fait moins dinformations prendre en compte
(Rozencwajg et Huteau, 1996, p. 59).
la suite de passations vidoscopes quatre principaux indices ont t
retenus pour caractriser ces trois stratgies :
placement des cubes,

frquence du contrle visuel,
qualit des squences
qualit de lanticipation.
317
Les trois stratgies identifies (globale, analytique et synthtique) se

diffrencient sur ces indices ainsi que sur leur niveau defficacit : les
stratgies analytique et synthtique tant les plus performantes (avec une
lgre supriorit de la stratgie synthtique). Les deux principales diffrences
entre les deux stratgies les plus performantes concernent dune part, la
frquence des regards (frquence plus faible pour la stratgie synthtique) et,
dautre part, lordre de placement des cubes : dans la stratgie analytique le
sujet procde prfrentiellement par un placement en ligne ou en colonne,
cube par cube, dans la stratgie synthtique le sujet privilgie un ordre de
placement des cubes selon les gestalts (les motifs gomtriques). Les auteurs
observent galement une forte stabilit intra-individuelle de la stratgie
utilise par le sujet et ils catgorisent alors les sujets sur leur stratgie
dominante (ou prfrentielle).
Les rsultats de Rozencwajg montrent galement une liaison entre stratgie
et style cognitif D.I.C1 : les sujets synthtiques et analytiques, sont plus
proches du ple dindpendance lgard du champ, alors que les sujets
utilisant la stratgie globale sont plus proches du ple dpendance.
Les propositions de Rozencwajg sur lexistence de la stratgie synthtique
vont tre confirmes par dautres chercheurs (voir par exemple : Houssemand,
1999 ; Chartier, 1999 ; Vrignaud et Chartier, 2003). Certains sinterrogent
nanmoins sur le niveau de stabilit intra-individuelle des stratgies observes
et sur la possibilit de diffrences interindividuelles en terme de flexibilit
(voir sur cet aspect Chartier, 1999).
Enfin, il faut signaler lhypothse dune quatrime stratgie : la stratgie
de rptition. Dans un important travail consacr lanalyse des procdures
de rsolution dans une preuve informatise de cubes, Houssemand va
montrer quil existe une mthode gnrale de rsolution des modles
9 cubes, quels que soient les sujets et quels que soient les modles :
Un placement des faces selon les lignes ou selon les colonnes
(Houssemand, 1999a, p. 228).
Cette mthode correspond la stratgie analytique souvent dcrite dans les

recherches. Mais cette stratgie gnrale va lui servir de rfrence pour reprer
dautres stratgies, plus spcifiques (Houssemand, 1999b). Houssemand
distingue ainsi la stratgie de rptition , qui consisterait reprer des
1. Dpendance/Indpendance lgard du champ perceptif (pour une prsentation voir Huteau,

2002).
318
faces identiques de cubes (et orientes de la mme faon) prsentes dans un

mme modle, et les placer prioritairement la suite :
Il existe un mode de rsolution particulier, nomm stratgie de
rptition, consistant en un placement prioritaire des faces rptes dans
les configurations. (Houssemand, 1999a, p.272).
Cette rptition de faces, critre de redondance intra-figurale (caractristique descriptive des modles de cubes dj tudie dans le cadre de lanalyse
de la difficult de la tche) serait alors support dun mode de rsolution
spcifique, ventuellement automatis. Les rsultats indiquent aussi que
cette stratgie de rptition nest pas observe chez tous les sujets et que son
utilisation nest pas lie aux aptitudes cognitives. Nanmoins, lexistence de
cette quatrime stratgie mriterait dtre confirme par dautres recherches.
Le logiciel SAMUEL de Rozencwajg
Le logiciel SAMUEL est prsent comme une preuve permettant dtablir

un diagnostic cognitif1 partir dune version informatise de la tche des
cubes de Kohs :
SAMUEL est une version cognitive du test des cubes de KOHS. Il
oprationnalise ce que les psychologues font depuis fort longtemps dans
leur pratique des cubes de Kohs, cest--dire un diagnostic cognitif qui
sappuie sur des indices cliniques qui vont bien au-del du temps de
rsolution et de la performance (Rozencwajg et al., 1999, p. 11)
Un psychologue mme le plus comptent, ne peut prendre en compte

quun nombre limit dindices cliniques lors de la passation dune preuve.
Cest tout lintrt davoir labor ce dispositif informatis qui permet le
recueil et lanalyse dun grand nombre de variables (voir plus loin). Ainsi,
Samuel fournit donc un exemple, assez rare, dutilisation de linformatique pour faire dun test ancien un test vraiment nouveau apportant des
informations que le test ancien ne fournissait pas. (Huteau, introduction
du manuel de SAMUEL, p. II )
Cest un exemple, peut-tre le seul, dpreuve utilisable par un praticien

(cest--dire dite et talonne, avec des conditions de standardisation
1. Voir le sous titre du manuel et du test Samuel. Diagnostic du fonctionnement cognitif

(Rozencwajg et al., 1999).
319
dfinies...), et qui a t labore spcifiquement pour mettre en vidence

des diffrences interindividuelles qualitatives (les stratgies de rsolution).
Signalons que sur le site de lditeur de SAMUEL (www.delta-expert.com)
il est possible de tlcharger une version de dmonstration de ce logiciel.
Principe gnral de SAMUEL1
Ce test est directement li aux rsultats des recherches de Rozencwajg (voir

plus haut) et a t labor dans lobjectif de dterminer automatiquement les stratgies de rsolution dune tche de performance cognitive
(Rozencwajg et al., 1999, p. 1). La procdure dvaluation est totalement
informatise : de la prsentation des modles aux calculs des diffrents
indicateurs de la performance du sujet.
La figure 6.2 prsente la situation du test SAMUEL.
Figure 6.2
Prsentation de la situation du test SAMUEL (daprs Rozencwajg, 2005, figure 11,
p. 148) reproduit avec laimable autorisation de lauteur.
La figure 6.2 reprsente un modle en cours de construction. Lcran de

SAMUEL est compos de trois parties :
en haut gauche, apparat (sur demande du sujet2 ) le modle reproduire ;
1. Le nom de ce test est un hommage Samuel Kohs.
2. Le sujet doit cliquer sur licne voir le modle pour que le modle apparaisse. Le modle
reste affich jusquau moment o le sujet clique sur un cube. On mesure ainsi lun des indicateurs
stratgitaires : la frquence des regards vers le modle.
320
droite (sur fond noir) figure laire de construction ;

en bas, sont disposes les faces des cubes.
laide de la souris, le sujet doit slectionner lune des faces puis la dplacer
jusqu laire de construction. Aprs quelques items de familiarisation, le
sujet doit reproduire quatre modles ( 9 carrs) qui comportent des formes
gomtriques identifies comme gestalts par les auteurs.
Bien que les caractristiques de la tche soient profondment modifies par
la procdure dinformatisation (passage dun univers rel trois dimensions
un univers deux dimensions, passage des cubes rels en carrs virtuels,
contrainte de non rotation des carrs, obligation de manipuler un seul carr
la fois, affichage du modle sur demande du sujet...), les auteurs reprennent
les caractristiques des trois stratgies de rsolution prcdemment observes
dans leurs recherches1 . Ainsi, partir de modlisations thoriques, les
trois stratgies (globale, analytique et synthtique) sont alors identifies
partir de plusieurs indices de comportement (segmentation, anticipation,
frquence des regards, ordre de placement des cubes par gestalts, ordre de
placement des cubes par lignes/colonnes) (Rozencwajg et al., 1999, p. 13).
Le tableau 6.1 prsente les valeurs thoriques des indicateurs pour les
trois stratgies.
Tableau 6.1
Profils thoriques des trois stratgies (daprs Rozencwajg et al., 1999, p. 41).
Indices stratgiques de SAMUEL
Segmentation
Anticipation
Frquence des
regards
Ordre de construction
par gestalts
Ordre de
construction
linaire
Stratgie
Synthtique
0.20
Stratgie
Analytique
0.40
0.50
0.50
0.50
0.50
Stratgie
Globale
Lindice de segmentation porte sur la qualit des squences (correction des

erreurs), lindice danticipation affine lindice de segmentation et concerne
plus particulirement la proportion de cubes placs correctement du premier
1. Bien quil nexiste pas, notre connaissance, dtudes comparatives sur lutilisation des mmes
stratgies, par les mmes sujets, dans les deux situations.
321
coup. Par construction, ces indicateurs varient de 0 1 : plus la valeur est

proche de 1, plus la construction est de bonne qualit.
La frquence des regards sobtient en rapportant le nombre de regards du
modle au nombre dactions (saisie/repose dun cube).
Enfin, les deux autres indices sont relatifs au type de placement effectu
par le sujet : lordre linaire correspond un placement effectu en suivant
les lignes ou les colonnes, lordre par gestalt correspond un placement
effectu en suivant les formes gomtriques. Plus la valeur est proche de 1,
plus le placement observ correspond au placement attendu.
Le logiciel va prendre en compte les valeurs de chaque indicateur pour
calculer le profil personnel de chaque sujet. Ce profil sera compar aux
profils thoriques afin de catgoriser le sujet par la stratgie dont il est
le plus proche (Rozencwajg et al., 1999, p. 42). Il est possible dobtenir
la stratgie utilise par un sujet sur chacun des items ainsi que sa stratgie
prfrentielle1 .
Sur leur chantillon, les auteurs retrouvent bien les trois stratgies
postules. Ils observent que la stratgie globale est la plus utilise (dans
42 % des items), puis la stratgie synthtique (33 %) et enfin, la stratgie
analytique (25 %). Cette rpartition volue avec lge des sujets dans le sens
dune diminution progressive de lutilisation de la stratgie globale au profit
de la stratgie synthtique.
Ils observent galement, au niveau du groupe, des diffrences de stratgies
en fonction des items : les items avec losange sont par exemple plus souvent
rsolus avec la stratgie synthtique2 .
Indicateurs psychomtriques de SAMUEL

Le manuel de SAMUEL (Rozencwajg et al., 1999) comporte 116 pages
(annexes comprises) et comporte un certain nombre dinformations
concernant linstallation du logiciel, le cadre thorique de rfrence, les
qualits psychomtriques... Le lecteur y trouvera galement des tudes de
cas.
Concernant tout particulirement les qualits psychomtriques, sont
prsentes des donnes concernant la fidlit de lpreuve, ainsi que sa
validit.
1. Stratgie sur laquelle le profil du sujet prsente la distance la plus faible.

2. On retrouve ici la notion daffordance propose par Ohlmann.
322
Par une mthode test/retest la fidlit des indicateurs de SAMUEL a t

estime : les corrlations varient de .56 .79 selon les indicateurs (daprs le
tableau 62, p. 63 du manuel). Certaines valeurs semblent un peu faibles, en
particulier celles concernant lordre de placement des cubes (.56 .64).
Sur une partie de lchantillon dtalonnage (50 lves de niveau de 5e de
collge), qui tait confronte un ensemble de tests, les auteurs observent
les rsultats suivants concernant la validit de SAMUEL :
Sur un test spatial (subtest des PMA de Thurstone), comme sur un test
de facteur g (matrices de Raven) les sujets synthtiques1 obtiennent, en

moyenne, un meilleur score, devant les sujets analytiques puis les sujets
globaux ;
Sur une preuve de DIC2 (GEFT) ce sont les sujets analytiques qui
obtiennent les meilleurs rsultats, puis les sujets synthtiques et enfin les
sujets globaux.
Ce dernier rsultat est plutt inattendu car les auteurs pensaient retrouver
un lien plus important entre dpendance/champ et stratgie synthtique
(en rfrence aux premiers rsultats de Rozencwajg et Huteau, 1996). Des
tudes supplmentaires seraient mener pour claircir ce point.
Rappelons que ces rsultats ont t observs sur un chantillon spcifique
(50 lves de collge) et quil serait souhaitable de pouvoir disposer de
rsultats portant sur dautres populations pour pouvoir gnraliser avec
confiance ces indications.
Pour la passation il faut utiliser le logiciel SAMUEL Test.
La passation
La passation comporte deux phases :

une phase de familiarisation avec le dispositif informatique, dans laquelle
le sujet doit reproduire des bonhommes et des fleurs ;
une phase de test, qui comporte six modles 4 carrs, et quatre modles
9 carrs. Rappelons que le diagnostic concernant les stratgies nest
effectu que sur les modles 9 carrs.
Le temps nest pas limit3 (bien que le temps de rsolution soit lune des
variables prises en compte) et les auteurs estiment 15 20 minutes environ
le temps de passation.
1. Les lves ont t catgoriss dans leur stratgie dominante.
2. Dpendance/Indpendance lgard du champ.
3. Il ny a pas de critres darrt.
323
La cotation
La cotation est effectue par le logiciel. Plusieurs variables sont mesures pour
chaque item : russite, temps de rsolution, frquence des regards, temps de
regard total, temps de regard moyen, indices stratgitaires (segmentation,
anticipation, ordre de placement). partir des modles thoriques des trois
stratgies (voir plus haut) le sujet est catgoris pour chaque item dans la
stratgie la plus proche de son profil. Le logiciel dtermine galement, sur
lensemble des 4 items, la stratgie dominante (ou prfrentielle) de chaque
sujet.
Les talonnages
Le manuel comporte des indications sur six classes dge : 9, 11, 13, 15, 17
et 25 ans. Pour chacune de ces classes on dispose de donnes descriptives
concernant les variables prcites (moyenne, cart-type, mini, maxi).
Pour les rsultats talonns, ils sont organiss selon deux possibilits : par
groupe dge (les six classes) et par stratgies. Il sagit dtalonnages deffectifs
gaux (cinq classes comportant chacune 20 % de lchantillon).
Interprtation des rsultats

Le manuel comporte plusieurs types dinformations utiles au praticien : un
guide dinterprtation des rsultats (p. 105) et des tudes de cas (p. 77 87).
Linterprtation portera principalement sur la rsolution des quatre modles
9 carrs.
Le principe gnral dinterprtation se divise en deux phases :
Lanalyse de la variabilit interindividuelle, dans laquelle le sujet sera situ
sur sa stratgie dominante et sur ses rsultats obtenus sur les diffrentes
variables mesures, comparativement aux sujets du mme groupe dge ;
Lanalyse de la variabilit intra-individuelle, dans laquelle lattention sera
porte ici sur les volutions ventuelles de la stratgie utilise par le sujet
travers les quatre items (stabilit ou flexibilit ; apprentissage en cours
dpreuve...).
Les tudes de cas du manuel reposent sur lanalyse des protocoles de
12 sujets, avec confrontation des indices de SAMUEL avec des rsultats
lchelle de Wechsler dintelligence (version WAIS) et des informations
recueillies lors dentretiens.
Le praticien dispose aussi du second logiciel, SAMUEL-Diagnostic, sur
lequel sont enregistres toutes les actions effectues par le sujet.
324
Dautres informations sur lutilisation de SAMUEL

Plusieurs publications, postrieures la publication du manuel, mritent
dtre signales car elles fournissent des indications concernant les utilisations
possibles de ce logiciel SAMUEL. Un exemple dutilisation de cette
preuve dans un cadre scolaire a t dvelopp par lauteur (Rozencwajg
et Francequin, 1999). Cette publication correspond en grande partie au
contenu des tudes de cas du manuel. SAMUEL a galement t utilis
aprs dadultes salaris (Rozencwajg et al., 2005). Enfin, deux publications
de Rozencwajg prsentent, dans le cadre dune approche intgrative de
lintelligence, les principaux lments dune valuation reposant sur ce
logiciel (Rozencwajg, 2005 et 2003).
Conclusion sur SAMUEL
La dmarche utilise par les concepteurs de ce logiciel SAMUEL nous semble

trs intressante et elle constitue un bon exemple dune application concrte
de rsultats de recherches llaboration de tests daptitudes qui dpassent
le simple constat dun niveau de performance. Sans revenir sur les intrts
de SAMUEL, certains aspects de la dmarche des auteurs mriteraient dtre
prciss afin de mieux assurer la fiabilit de la catgorisation (des stratgies
et des sujets) qui est effectue :
1 La modlisation thorique des trois stratgies nous indique quil est
relativement ais de reprer la stratgie globale, mais que les stratgies
analytique et synthtique, toutes les deux performantes dans cette situation,
sont plus difficiles distinguer sur les critres retenus. Lune des deux
variables considres comme pertinentes pour cette distinction (voir le
tableau 6.1) est la frquence des regards : un sujet analytique regarderait
plus souvent le modle (1 regard par cube en moyenne, donc une valeur
thorique de 1 sur cet indice) tandis que le sujet synthtique regarderait
moins souvent le modle (1 regard par forme gomtrique, soit un indice
thorique de 0.20). On peut rappeler que, dans SAMUEL, le modle
napparat qu la suite dune demande du sujet (un clic de souris) et il
disparat ds que le sujet effectue une action (prendre un cube, par exemple).
Rappelons quen situation classique de passation, le modle est consultable
tout instant par le sujet. Les caractristiques de ce dispositif informatis
peuvent alors avoir des effets sur cette frquence des regards, comme par
325
exemple, inciter le sujet mmoriser davantage le modle1 quil ne le ferait

dans une passation classique. Une faible frquence des regards ne pourrait
donc plus tre associe de manire systmatique une stratgie synthtique.
Dailleurs nous pouvons trouver dans le manuel des lments dobservation
qui viennent confirmer nos remarques :
Il faut souligner quun nombre non ngligeable de personnes utilisant

un ordre linaire de placement des carrs conserve nanmoins lensemble
du modle en mmoire. (Rozencwajg et al., 1999, p. 25).
De plus, on peut galement envisager que la signification dun regard

diffre en fonction des sujets : vrifier une action2 , prparer une action...
2 Dans le calcul du profil individuel, tous les indices ont le mme
poids (voir Rozencwajg et al., 1999, p. 42), ce qui signifie que les auteurs
considrent que ces indices sont du mme niveau de pertinence dans
lidentification des stratgies. Pourtant nous pourrions envisager que certains
indicateurs, et nous pensons ici plus particulirement lordre de placement
des cubes, sont plus rvlateurs que dautres de la stratgie utilise par le
sujet. Il pourrait tre pertinent denvisager alors une pondration des indices
dans le calcul du profil individuel.
3 Le sujet est catgoris pour chaque item dans la stratgie la plus proche
de son profil (en terme de distance). Mais que se passe-t-il quand ce profil
est trs loign des trois stratgies ? Autrement dit, le sujet est-il catgoris
quelles que soient les valeurs de ses indices ? A priori, daprs les informations
du manuel, la rponse est positive. Une autre approche, qui nous semble
plus satisfaisante, consisterait dfinir une valeur minimale (un seuil) pour
pouvoir catgoriser, avec plus de confiance, le sujet dans lune des stratgies.
De mme, en cas de diffrences minimes entre deux profils stratgiques, il
conviendrait de dfinir une valeur minimale de diffrence pour pouvoir, l
encore, catgoriser le sujet. Une rflexion pourrait tre mene ce sujet.
4 Le diagnostic de SAMUEL ne repose que sur un nombre limit ditems,
les quatre items 9 carrs. Un nombre plus important ditems complexes
permettrait, l encore, de mieux assurer la mesure.
1. De manire lui viter davoir raliser une nouvelle demande de consultation visuelle du modle.
2. Un lien est possible ici avec des variables conatives : par exemple, on peut envisager quun sujet
plus anxieux va vrifier plus souvent le modle quun autre sujet utilisant pourtant la mme stratgie...
326
Conclusion sur lanalyse des stratgies dans les tests
Comme nous venons de lillustrer, lidentification des stratgies utilises par

un sujet est une problmatique dlicate, ce qui explique sans doute le faible
nombre dpreuves de ce type : mis part SAMUEL, qui vient faire lobjet
de cette prsentation, il ny a, notre connaissance, aucun test disponible.
On peut ventuellement signaler le test C.A.S1 de Naglieri et Das, prsent
par Kaufman (2001), qui vise galement identifier des stratgies mais,
linverse de SAMUEL, cet aspect ne semble pas essentiel dans les mesures
effectues par ce test. De plus le C.A.S nest pas diffus en France.
Pouvoir distinguer les sujets sur leur dmarche de rsolution, sur le
type de stratgie quils ont utilis dans une preuve, et donc au final
sur leurs processus cognitifs, apporterait sans aucun doute aux praticiens
des informations pertinentes, qualitatives, complmentaires aux constats
classiques des tests qui ne reposent, le plus souvent, que sur des informations quantitatives relatives au niveau de performance. Ces informations
peuvent tre particulirement utiles dans une perspective ducative ou de
remdiation.
Cette approche cognitivo-diffrentielle, que lon peut galement qualifier
dvaluation diagnostique, centre sur les processus cognitifs, et applique
aux tests, mrite dtre dveloppe car elle renseigne sur les processus
mentaux en jeu dans ces preuves. Elle constitue sans aucun doute lune des
perspectives les plus prometteuses de renouvellement des tests dintelligence
(voir galement sur ce point Huteau et Lautrey, 1999a, chapitre VIII).
1. Cognitive Assessment System.
CHAPITRE
7
Lvaluation dynamique
Sommaire
Page 329
2. Les procdures dvaluation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Page 330
3. Les conceptions du potentiel dapprentissage . . . . . . . . . . . . . . . . . .
Page 331
4. Les objectifs de lvaluation dynamique . . . . . . . . . . . . . . . . . . . . . . .
Page 336
5. Les difficults pratiques et mthodologiques de lvaluation

dynamique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Page 341
6. Les problmes thoriques de lvaluation dynamique :

que mesure t-on exactement ? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Page 346
7. Quels usages des preuves de potentiel dapprentissage ? . . . . . . . .
Page 352
8. Prsentation dpreuves . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Page 354
9. Conclusions sur le potentiel dapprentissage . . . . . . . . . . . . . . . . . .
Page 363
1. Les principes de lvaluation dynamique . . . . . . . . . . . . . . . . . . . . . .
A
1.
329
il y a une vingtaine dannes dans le paysage de la psychomtrie, lvaluation dynamique a t prsente (cf. Brown &
French, 1979 ; Sternberg, 1985 ; Lidz, 1987) comme innovante
et susceptible de renouveler les pratiques de diagnostic cognitif.
De quoi sagit-il et quelles mthodes existe-t-il ?
PPARUE
Les principes de lvaluation dynamique
Dfinition
Lvaluation dynamique se distingue de lvaluation conventionnelle, dite

statique , principalement sur deux aspects : la nature de ce qui est valu
et le rle de lexaminateur.
Alors que lvaluation classique mesure les capacits quun individu a
dveloppes, un moment donn, et porte sur ses performances obtenues
dans le test, lvaluation dynamique vise valuer les capacits latentes, celles
qui ne sexpriment pas spontanment, et cherche apprcier la sensibilit
du sujet une situation dapprentissage dans laquelle il est plac.
Il dcoule de cette diffrence dobjectif une diffrence de procdure de
passation. Dans le cadre de lvaluation classique, lexaminateur reste neutre,
il ne doit pas influencer le sujet dans sa manire de rpondre, ne pas donner
de feed-back et tablir de la faon la plus objective possible une mesure
de ce que le sujet peut produire lorsquil est laiss ses seules ressources.
Au contraire, la caractristique principale de lvaluation dynamique
est quelle combine valuation et formation du sujet. Plusieurs procdures
dvaluation existent. Tous font intervenir lexaminateur pour fournir au
sujet du feed-back et des aides lui permettant de progresser dans sa manire
de rsoudre les tests. Les progrs raliss sont alors considrs comme des
indicateurs de ce qui est appel le potentiel dapprentissage du sujet.
Lvaluation dynamique : les prcurseurs
Deux auteurs ont particulirement contribu tablir les bases thoriques

de lvaluation dynamique. Le premier est Vygotski dont les conceptions
publies en 1934 dans Pense et Langage ont fortement influenc les
330
recherches dans le domaine durant ces vingt dernires annes. Vygotski

(1934/1985) introduit le concept de zone proximale de dveloppement
(ZPD) pour rendre compte de la marge dducabilit que possde lenfant
un moment donn de son dveloppement. Il sagit de lespace de
dveloppement possible, au-del du niveau de dveloppement actuellement
atteint, que lenfant pourra sapproprier avec laide dun tiers. Le modle de
Vygotski met laccent sur la mdiation sociale du dveloppement. La ZPD
correspond donc lcart entre le niveau actuel de lenfant, cest--dire celui
de sa performance autonome, et celui quil pourra atteindre sil est aid de
faon adquate.
Le second auteur dont la contribution la dfinition de la notion
dvaluation dynamique a t particulirement marquante est Andr Rey. La
mme anne que Vygotski publiait Pense et Langage, il publiait de son ct
et de faon indpendante, un article intitul Dun procd pour valuer
lducabilit dans lequel il nonait des principes trs voisins du concept
de ZPD en insistant sur la ncessit de faire porter lexamen sur la forme
et la vitesse des processus daccommodation (Rey, 1934, p. 299). Cette
proposition saccompagne dune critique svre des tests conventionnels
qui valuent des performances bases sur des apprentissages antrieurs dont
on ne connat rien. Cela conduit alors comparer selon les mmes critres
des individus qui nont pas ncessairement bnfici des mmes occasions
et conditions dapprentissage, cest--dire comparer ce qui nest pas
comparable. Afin de rendre la comparaison possible, lauteur proposait alors
de placer les sujets dans des conditions standardises dapprentissage et de
faire porter lvaluation sur lapprentissage lui-mme, celui-ci rendant mieux
compte de lducabilit de lindividu que ne le font les performances.
2.
Les procdures dvaluation

Le dispositif dvaluation de lducabilit que proposait Rey tait une
tche dapprentissage dun dispositif spatial dcouvert par ttonnements (le
test des plateaux) dans lequel la vitesse dapprentissage tait mesure par le
nombre dessais ncessaires pour parvenir la russite. Par la suite, deux
procdures dvaluation se sont imposes (Bchel et Paour, 1990 ; Loarer
et Chartier, 1996a) : la procdure Test-Apprentissage-Retest (T-A-R) et la
procdure dAide au Cours du Test (ACT).
331
Dans la procdure T-A-R, les performances des sujets sont initialement
values lors dune premire passation tout fait classique. Vient ensuite
une session dapprentissage au cours de laquelle des explications sur la
manire de rsoudre les problmes poss et sur la faon dviter les erreurs
quils ont commises lors du test sont fournies aux sujets. Une seconde
passation de la mme preuve ou dune version parallle de la premire
preuve est ensuite propose. Le progrs du sujet entre le test et le retest
donnera la mesure de son potentiel dapprentissage.
Dans la procdure Aide au Cours du Test (ACT), la passation est unique
et individuelle. Les aides sont fournies au sujet en cours de passation,
chaque item chou. Le plus souvent ces aides sont standardises et
hirarchises, permettant loprateur de donner dabord des indices
minimaux puis de les enrichir progressivement si ncessaire. La mesure
du potentiel dapprentissage tient alors compte de la quantit et de la
nature des aides fournies et des russites qui en dcoulent.
Prsentation schmatique des 2 procdures
Procdure
Test
Indicateurs Score
Apprentissage
Retest
test
Score retest
Aide au cours du test
Procdure
Item 1
si chec
aide 1
si russite
si russite
Item 2
Item 2
si chec
aide 2
etc
Indicateurs
Nombre et nature des aides ncessaires
Figure 7.1
Prsentation des deux procdures.
3.
Les conceptions du potentiel dapprentissage

Lide de prendre en compte dans lvaluation non seulement le niveau de
performance de lindividu mais galement la dynamique de son apprentissage
332
a sduit de nombreux auteurs qui y ont vu une manire damliorer la

validit de la mesure de lintelligence. Plusieurs revues de questions ont t
consacres ce thme (Bchel et Paour, 1990 ; Bchel, 1995 ; Haywood
& Tzuriel, 1992 ; Grigorenko et Sternberg, 1998 ; Laughton, 1990 ; Lidz,
1987). Lanalyse de ces nombreux travaux fait merger des conceptions du
potentiel dapprentissage qui divergent selon les auteurs, notamment pour
ce qui est de ses rapports avec lintelligence. Nous en avons principalement
identifi trois :
La premire : le potentiel dapprentissage serait un reflet plus pur de
lintelligence que celui fourni par les tests conventionnels mais nen serait
pas de nature trs diffrente ;
La seconde : le potentiel dapprentissage recouvrirait strictement la notion
de Zone Proximale de Dveloppement de Vygotski et se dmarquerait
donc de lintelligence value par les tests statiques ;
La troisime : dfendue par Feuerstein qui dcrit sous le terme de
modifiabilit cognitive , une entit la fois distincte de la ZPD de
Vygotski et de lintelligence classiquement value.
30 A
erreurs
20
10
D
E
0
10
20
30
40
50
60 essais
Courbe d'apprentissage garon de 4;9 ans. De A B, phase de triage ;

de B C, phase des persvrations unilatrales ; de C D, formation
d'associations autonomes ; de D E, phase de russites sous l'effet
de stimulations verbales. -- Les perpendiculaires traces en pointill
sur l'abscisse marquent les sances successives.
Figure 7.2
Les tests de plateaux dAndr Rey.
Le test des plateaux dAndr Rey (1934) : Le test est constitu de

4 plateaux : petites planches carres de 14 cm de cts. Chaque plateau
est perc de 9 trous dans lesquels viennent sencastrer des petits disques. Ces
disques sont amovibles sauf lune dentre eux. Lapprentissage consiste
333
apprendre localiser ce dernier sans se tromper, alors que son emplacement

est diffrent pour chaque plateau. Le temps ncessaire pour y parvenir
et la courbe dcroissante des erreurs sont des indicateurs de la capacit
dapprentissage.
Le potentiel dapprentissage comme meilleure mesure
de lintelligence
Cette premire conception est partage par les auteurs qui, comme Andr
Rey, estiment que les tests classiques ne disent rien sur les conditions dans
lesquelles ont t raliss les apprentissages antrieurs permettant de les
russir, et qui pensent que lon peut obtenir une meilleure mesure du
potentiel de lindividu en lvaluant dans une situation dapprentissage dont
on contrle les paramtres.
Cest la position dfendue par Milton Budoff et ses collaborateurs (Budoff,
1987 ; Budoff et Corman, 1974 ; Budoff et Hamilton, 1976) dont la
figure 7.3 illustre le modle.
Test defficience
Gagnants
Scores levs
Test dapprentissage
Non gagnants
Figure 7.3
Modle de Budoff (daprs Loarer, 2001).
Lobjectif des recherches de Budoff tait damliorer le diagnostic du retard

mental en valuant le potentiel dapprentissage de sujets de faible niveau
intellectuel (QI<90). Dans ses premiers travaux, il cherche ainsi distinguer
les sujets qui sont capables de tirer profit des aides quon leur apporte (les
gagnants), de ceux qui ny parviennent pas (les non-gagnants). Les capacits
334
des gagnants auraient t sous-values par les tests conventionnels qui

ne permettent pas de faire cette distinction entre handicap ducatif et
handicap rel . Suite aux critiques faites notamment par Lidz (1991)
concernant la dlimitation des catgories proposes, il a, dans ses travaux
les plus rcents, substitu aux catgories des chelles dvaluation continues,
sans que cela naffecte les principes de son modle. Il utilise, pour lvaluation
dynamique, des adaptations de tests de facteur G et considre le potentiel
dapprentissage comme une mesure particulire du facteur G (Budoff, 1968).
Lvaluation dynamique tant moins sujette aux biais socioculturels, il
propose de la substituer la mesure classique pour lvaluation des enfants
concerns par lducation spciale.
Le potentiel dapprentissage comme mesure de la zone
proximale de dveloppement
Vygotski (1934/1985, p. 269) introduit lide que :

Le psychologue doit ncessairement, pour dterminer ltat du dveloppement, prendre en considration non seulement les fonctions venues
maturit mais aussi celles qui sont au stade de la maturation, non seulement
le niveau prsent mais aussi la zone proximale de dveloppement.
Il prcise ensuite que le niveau prsent de dveloppement est valu

laide de problmes que lenfant doit rsoudre seul, et que la zone proximale
de dveloppement est dtermine par lcart entre ce niveau et celui que
peut atteindre lenfant lorsquil est aid par un adulte ou quelquun de plus
comptent que lui. Les deux procdures dvaluation (statique et dynamique)
sont clairement prsentes comme complmentaires. Elles donnent accs
deux facettes du dveloppement cognitif : ltat du dveloppement dj
ralis grce aux apprentissages antrieurs, mais aussi ltendue de la zone
dans laquelle les futurs apprentissages pourront donner lieu de nouveaux
dveloppements. Or, affirme encore Vygotski :
La zone de proche dveloppement a une signification plus directe pour la
dynamique du dveloppement intellectuel et la russite de lapprentissage
que le niveau prsent de leur dveloppement. (p. 270)
Ni Vygotski ni ses collgues nont vritablement apport de validation

exprimentale cette affirmation (Grigorenko et Sternberg, 1998), mais
le modle propos a inspir de nombreux psychologues, non seulement
dans les pays de lEst, en Russie et en R.D.A. (Guthke, 1990, 2000 ;
335
Rubtsov, 1981) mais aussi aux tats-Unis (Brown, & French, 1979 ;
Campione & Brown, 1987 ; Rogoff & Wertsch, 1984 ; Wertsch et Tulviste,
1992). Pour ces auteurs, le potentiel dapprentissage est diffrent de
lintelligence classiquement value. Ainsi, par exemple, la conception de la
complmentarit des mesures statiques et dynamiques apparat clairement
dans une recherche mene par Campione & Brown (1987). Les auteurs ont
ralis auprs denfants dge prscolaire une tude sur la validit prdictive
dun test de QI (le WPPSI) et dun test de potentiel dapprentissage
(procdure T-A-R des Matrices de Raven). Intgrant dans une rgression
multiple comme critre le score de gain rsiduel au test dapprentissage et,
comme prdicteurs, le nombre daides dans ce test et le score de QI au
WPPSI, ils concluent que les deux scores ne se confondent pas, puisque
chacun explique une fraction diffrente de la variance des scores de gain.
De mme, Guthke et collaborateurs qui ont dvelopp Leipzig depuis
le milieu des annes soixante des travaux sur les tests dapprentissage ,
proposent de sparer (Guthke, 1980 cit par Guthke, 1992) ce quils
appellent lintellectual status que lon pourrait traduire par statut (ou
tat) intellectuel et ce quils appellent le potentiel intellectuel (intellectual
potential).
Le potentiel dapprentissage comme valuation

de la modifiabilit cognitive
La position de Feuerstein est ne de sa pratique. Il a t amen valuer,

en Isral, des adolescents immigrants, issus de pays diffrents et pour la
majorit peu scolariss. Jugeant les tests conventionnels trop fortement
marqus culturellement et inaptes guider des interventions de remdiation,
il a labor deux programmes complmentaires :
lun visant lvaluation du potentiel dapprentissage, le learning Potential
Assessment Device (LPAD ; Feuerstein, Rand, & Hoffman, 1979 ; Jensen,
& Feuerstein, 1987) ;
lautre visant la remdiation cognitive, le Programme dEnrichissement
Instrumental (PEI ; Feuerstein, Rand, Hoffman, & Miller, 1980).
Les deux dmarches sont indissociables et visent toutes deux, grce la
mdiation mise en uvre, augmenter la modifiabilit cognitive du sujet. Le
but du LPAD est de fournir, par une intervention courte, les lments qui
vont guider lintervention plus lourde mene par le PEI.
336
Constitu dune batterie de quinze preuves verbales et non verbales

inspires de tests classiques, le LPAD structure une dmarche clinique
devant aboutir un bilan qualitatif des fonctions cognitives et des
prconisations pdagogiques. Le but de lapplication du LPAD expliquent
Feuerstein, Rand, Jensen, Kaniel, & Tzuriel (1987, p. 42) est de provoquer
des modifications cognitives structurales afin den tablir les limites tant
quantitatives que qualitatives.
Contrairement aux preuves dapprentissage proposes par les autres
auteurs, la passation est peu standardise. Le nombre dpreuves, leur
dure, la nature et la quantit de mdiation fournie dpendent largement
des caractristiques du sujet et de la perception que lexaminateur en
a. Le concept dexprience dapprentissage mdiatis (Mediated learning
experience (MLE) ; Feuerstein et al., 1980) est trs voisin de celui de
mdiation sociale du dveloppement propos par Vygotski. Feuerstein
explique les dficits cognitifs comme rsultant dun manque de MLE et
envisage de remdier ces dficits en apportant, loccasion de tches
proposes dans le LPAD et dans le PEI, une bonne mdiation. Bien que
sinspirant trs largement de la thorie de Vygotski, Feuerstein ne fait pas
explicitement rfrence la notion de ZPD et ne positionne pas lvaluation
du potentiel dapprentissage comme complmentaire de lvaluation statique.
La dfinition de la modifiabilit cognitive comme une capacit trs gnrale
dauto-adaptation et dapprentissage voque, il est vrai, de nombreuses
dfinitions habituellement donnes de lintelligence.
4.
Les objectifs de lvaluation dynamique

De lensemble des travaux mens ces dernires annes et de ces diffrentes
conceptions voques, nous identifions principalement quatre grands
objectifs distincts, et parfois complmentaires, poursuivis par les auteurs
qui se proposent de mener, laide des dispositifs dcrits, des valuations
dynamiques.
1r objectif : Amliorer la mesure de lintelligence
Lvaluation dynamique est suppos permettre lobtention dune mesure

plus complte et plus valide de lintelligence que celle ralise par
337
lvaluation traditionnelle. Plusieurs arguments sont avancs pour tayer

cette affirmation.
Elle permet de limiter leffet du hasard dans les rponses. Lvaluation
donnant lieu gnralement une double mesure (procdure T-A-R), la

probabilit quune bonne rponse soit obtenue au hasard est rduite ;
Elle permet de corriger les biais socioculturels qui affectent la mesure
classique. Les occasions dapprendre ayant pu tre diffrentes suivant les
personnes, la phase dapprentissage incluse dans le dispositif dvaluation
fournit tous une gale opportunit de familiarisation aux tches. Le
rsultat obtenu aprs entranement reflterait donc mieux laptitude
raisonner que la performance spontane produite sans aides ;
Elle permet de distinguer entre vrai et pseudo-dficit. Les travaux
de Budoff et col. (Budoff & Corman, 1974 ; Budoff et Hamilton,
1976 ; Budoff, 1987) illustrent cette proprit de la mesure du potentiel
dapprentissage. Ayant fait passer une preuve de potentiel dapprentissage
des sujets prsentant des troubles de comportement ou ayant une vie
familiale perturbe, les auteurs distinguent trois types de sujets : les
gagnants , se montrant capables de bnficier dun apprentissage, les
non-gagnants , qui ne profitent pas ou trs peu dun apprentissage, et
les sujets scores levs , ainsi nomms en raison de leur score lev ds
le prtest. Les sujets des deux premiers groupes ayant des scores faibles
au prtest, nauraient pas t distingus par une valuation statique. Or,
ils nont pas la mme capacit profiter de la situation dapprentissage et
lobservation de leurs comportements ultrieurs le confirme. Aussi, les
auteurs concluent-ils que la mesure du potentiel dapprentissage est une
mesure de lintelligence plus fiable que la mesure traditionnelle ;
Elle est plus complte parce quelle intgre les fonctions intellectuelles en
cours de dveloppement (cf. Vygotsky) et permet de mesurer directement
deux composantes de lintelligence dcrites comme importantes selon
les thories cognitivistes du traitement de linformation : la vitesse
dapprentissage et lefficience du transfert (Brown & Ferrara, 1985,
p. 286).
2e objectif : valuer lducabilit cognitive de lindividu
La vise premire de lvaluation dynamique est, pour plusieurs auteurs, la

mesure de lducabilit des individus. Le potentiel dapprentissage est alors
338
pris comme prdicteur du dveloppement cognitif ultrieur de la personne.

Cette conception rejoint directement celle de Vygotsky (1935/1985) qui
affirmait que la mesure du niveau de dveloppement potentiel a une valeur
prdictive plus grande pour la dynamique du dveloppement intellectuel
que la mesure du niveau actuel de dveloppement.
Sous le terme dducabilit, Rey, pour sa part, considre ladaptabilit du
sujet une situation nouvelle. Il se propose de la mesurer travers la qualit
et la vitesse de lapprentissage dune tche dexploration et de localisation
spatiale.
De mme, selon Feuerstein, le but de lapplication du LPAD est la mesure
de la modifiabilit cognitive des sujets quil dcrit comme la possibilit
que possde tout individu de se modifier et de former de nouvelles
structures cognitives qui ntaient pas auparavant dans son rpertoire
(Feuerstein, 1990, p. 123).
De faon concrte, Budoff (cit par Dias, 1991) utilise des tests de
potentiel dapprentissage pour intgrer des lves de classes spcialises dans
des classes dites normales.
3e objectif : Pronostiquer la russite dans les apprentissages
ultrieurs
Les tests daptitudes classiques sont frquemment utiliss en bilan dorientation pour pronostiquer la russite scolaire ou ladaptation des formations
professionnelles. Ils remplissent dailleurs assez bien cette fonction. Dans
ce cas, le pronostic des acquisitions futures est fait laune du niveau des
acquisitions antrieures, et donc du constat actuel. Pourtant, nombreux
sont les auteurs qui critiquent cette dmarche (e.g. Wagner & Sternberg,
1984) et certains considrent plus valide pour diagnostiquer les capacits
dapprentissage dune personne de la placer directement en situation relle
dapprentissage. Le pronostic dapprentissage nest plus alors fond sur un
chantillon de performances mais sur un chantillon dapprentissage. Cette
recherche dune meilleure homognit de contenu entre la variable observe
et la variable prdite est de mme nature que celle qui motivait les expriences
menes dans les annes vingt (dcrites par Caroll, 1962, cit par Hurtig,
1995) o lon faisait apprendre aux enfants des langues artificielles pour
estimer leur aptitude lapprentissage des langues trangres. La dmarche
est galement dans lesprit des tests in basket qui consistent prlever un
chantillon de la situation pour laquelle on cherche prdire ladaptation
339
du sujet et le proposer sous la forme dun test standardis. Lvaluation

dynamique prsenterait donc une meilleure validit de contenu vis--vis des
apprentissages ultrieurs.
Une seconde raison menant prfrer lvaluation dynamique pour le
diagnostic de ladaptation aux situations futures de formation est avance par
Budoff (1987). Lvaluation dynamique offre une meilleure conformit aux
situations relles de la vie, proprit que lon pourrait qualifier de meilleure
validit cologique. En effet, les conditions de standardisation des preuves
classiques placent le sujet dans un contexte artificiel ayant, de nombreux
gards, peu voir avec les situations naturelles quil aura ensuite affronter
(voir Paour et al., 1995, p. 64). On notera particulirement labsence de
possibilit qua le sujet, dans la dmarche classique, de tirer profit de ses
erreurs au cours de la passation. Or, dans la vie courante la capacit
tenir compte du produit de ses propres actions est un facteur important
dapprentissage. Lvaluation dynamique lui permet de se manifester.
4e objectif : Recueillir des indications utiles lintervention
pdagogique
La finalit pdagogique de lvaluation dynamique est exprime par de

nombreux auteurs. Contrairement lvaluation classique de lintelligence
dont lincapacit fournir des indications utiles pour lenseignant a de
nombreuses fois t souligne, il semble quil y ait une passerelle naturelle
entre mesure du potentiel dapprentissage et intervention pdagogique.
Les mthodes dducation cognitives constituent le prolongement naturel

et ncessaire des instruments dvaluation dynamique des aptitudes.
(Paour et al., 1995, p. 86)
Lvaluation dynamique, affirme Das (1987) est reli de faon symbiotique

aux concepts dintervention et denrichissement. Cette finalit pdagogique
de lvaluation dynamique est galement trs explicitement affiche par
Feuerstein (Feuerstein et al., 1979, 1987). Alors que la plupart des auteurs
(voir par exemple Guthke, 1990) sparent scrupuleusement le temps
du diagnostic dapprentissage du temps de lintervention pdagogique,
Feuerstein considre ces deux aspects comme indissociables et fait dbuter
lintervention pdagogique au cours de la phase dvaluation. Lintervention
devient alors un moyen dvaluation. Le but de lapplication du LPAD est,
dit-il (1987, p. 42) de provoquer des modifications cognitives structurales
afin den tablir les limites tant quantitatives que qualitatives. Il prvoit
340
en outre que lvaluation se prolonge par un programme de remdiation

cognitive (le PEI) permettant de remdier aux dficiences des fonctions
cognitives constates chez le sujet.
Les mrites de lvaluation dynamique
On laura compris la lecture de ce qui prcde, lvaluation dynamique est

suppos prsenter des avantages multiples sur lvaluation classique.
La composante dapprentissage introduite dans le test est considre
comme un moyen de dtecter les possibilits dvolution future des capacits
de lindividu et, dans la mesure o elle neutralise les diffrences de familiarit
avec la situation dvaluation, de limiter les biais socioculturels. Ce serait
donc une meilleure base de pronostic de la russite et du dveloppement
ultrieurs que le test classique, notamment pour les sujets culturellement
dfavoriss ou issus dune culture diffrente de celle dont les tests sont issus.
Dautres avantages sont galement souligns. Lvaluation dynamique
permettrait, mieux que le test classique lobservation du fonctionnement
du sujet (Paour et al., 1995), ce qui correspond une proccupation de
la psychologie cognitive contemporaine. Elle produirait galement des
informations plus directement utilisables dans une perspective ducative
que le test classique (Campione & Brown, 1987). Elle serait enfin pour le
sujet moins anxiogne et moins stressante (cf. Flammer & Schmid, 1995)
et amliorerait son sentiment de comptence (Budoff, 1987).
Pourtant, si lvaluation dynamique prsente tous ces avantages sur
lvaluation classique, on peut se demander pourquoi elle ne la pas
supplante depuis longtemps et nest pas aujourdhui mieux inscrite dans les
pratiques. La raison est, nous semble t-il rechercher du ct des difficults
diverses que soulve ce type dapproche. Nous avons repr, dune part, des
problmes relatifs la mesure du potentiel dapprentissage :
Problmes pratiques, relatifs la mise en uvre de protocoles dvaluations
plus complexes et plus lourds que dans lvaluation classique ;

Problmes mthodologiques lis principalement la difficult de mesurer
le changement et garantir les qualits mtrologiques de lvaluation
dynamique ;
Problmes thoriques qui concernent la nature mme de ce qui est
valu. Il est de toute vidence artificiel de dissocier radicalement les
aspects mthodologiques et thoriques. Ainsi, par exemple, la faon
dont les diffrents auteurs envisagent de prendre en compte les qualits
341
mtrologiques de lvaluation dpend de la conception quils ont du

potentiel dapprentissage.
Nous examinerons ces diffrentes difficults et prsenterons quand ils
existent des lments de rponse, issus de recherches actuelles.
5.
Les difficults pratiques et mthodologiques

de lvaluation dynamique
Nous ne nous appesantirons pas sur les difficults rencontres par les
praticiens confronts la mise en uvre de procdures nettement plus
lourdes que pour lvaluation statique. Il est vrai que lvaluation du
potentiel dapprentissage sinscrit dans une certaine dure puisquil convient
dajouter la dure de lvaluation la dure de lapprentissage ou des aides
(procdure ACT), ainsi que la dure du retest (procdure T-A-R). Elle peut
galement ncessiter une passation individuelle et des observations plus fines
(ACT) et parfois une formation ou une expertise particulire. Nous suivons
cependant volontiers Huteau et Lautrey (1999a) lorsquils soutiennent que
les problmes pratiques ne constituent pas un obstacle insurmontable au
dveloppement de lvaluation dynamique (p. 267). Lacceptation de ces
contraintes pratiques est notre avis strictement dpendante de la valeur
ajoute que peut apporter ce type dvaluation et dpend donc de la
rsolution des problmes mthodologiques et thoriques.
Les problmes mthodologiques tiennent principalement au fait que la
mesure du potentiel dapprentissage est une mesure de changement. Elle
prsente de ce fait des risques de biais de mesure (Bacher, 1967 ; Embretson,
1987). Diffrents indices du potentiel dapprentissage sont envisageables
et permettent diffrents niveaux de contrle des biais de mesure (Loarer et
Chartier, 1994, 1996 ; Loarer, 2000 ; Huteau et Lautrey, 1999a).
Les problmes rencontrs ne sont pas identiques selon la procdure
utilise : T-A-R ou ACT.
Problmes mthodologiques relatifs la procdure ACT
La procdure daide au cours du test suppose lintervention du psychologue

des moments cls de la passation afin dapporter au sujet une aide adapte
la rsolution dune difficult particulire sur laquelle il bute pour rsoudre
la tche. Le choix du moment dintervention et la nature de laide apporte
342
peuvent dpendre de lapprciation du psychologue, ce qui rend alors la procdure peut standardisable et destine lpreuve uniquement au cadre dune
intervention clinique. Dans ce cadre, on ne pourra attendre de lpreuve
quelle prsente les qualits mtrologiques classiquement attendues dun test.
Certains auteurs ont souhait standardiser la procdure dintroduction
des aides ainsi que la nature mme de ces aides. Cest le cas de lpreuve
de Ionescu prsente ci-dessous. Nanmoins, mme dans ce cas, plusieurs
problmes mthodologiques demeurent. Nous citerons en particulier la
difficult interprter les indices de performance. Par exemple, le nombre
de russites conscutives une aide, indice qui peut reflter la capacit du
sujet tirer profit de laide (et donc son potentiel dapprentissage ), est
fortement dpendant du nombre daides fournies et donc du niveau initial
de russite aux items. Il faut chouer litem pour se voir proposer laide
correspondante. Le potentiel dapprentissage devient alors artificiellement
corrl ngativement avec le niveau de russite initiale. Le calcul dun rapport
aide russie/aide fournie ne rsout que trs partiellement le problme.
Par ailleurs, les aides tant fournies en cours dpreuve, le score de russite
spontane un item inclut les effets des aides ventuellement donnes aux
items prcdents. Cette procdure ne permet donc pas de disposer dune
mesure trs pure du niveau initial du sujet. Enfin, cette procdure ne peut
que trs difficilement aboutir des mesures fidles. Cest ce que dmontrent
de nombreuses tudes. Cette faiblesse de fidlit peut en particulier tenir au
fait que les scores daides ne se distribuent souvent pas normalement, ce qui
affecte le calcul de coefficients de fidlit.
Compte tenu de ces difficults nous recommandons de rserver le recours
cette procdure une approche clinique de lvaluation, notamment
lorsquil sagit de dtecter un potentiel individuel apprendre, sans que
lon ait le souci dune comparaison quelconque avec dautres sujets ou de
rfrence prcise avec des critres externes, ou encore lorsque lon sintresse
principalement au rapport subjectif du sujet aux situations de rsolution de
problme et dapprentissage.
Problmes mthodologiques relatifs la procdure T-A-R
La procdure T-A-R, vite certaines difficults rencontres dans la procdure

ACT. Elle prsente cependant galement, comme nous allons le voir,
diffrentes difficults relatives au choix et linterprtation des indices, ainsi
quen ce qui concerne la fidlit de ces indices.
343
Les indices de potentiel dapprentissage

Le potentiel dapprentissage peut tre mesur par le gain (G) entre le test (X)
et le retest (Y), donn par la diffrence YX. Cependant, ce gain prsente
une faible fidlit.
Pourquoi les scores de diffrences sont-ils peu fidles ?
Comme nous lavons vu dans le chapitre 2 de cet ouvrage, selon la thorie
classique des tests, le score du sujet obtenu un test (score observ) peut
tre dcompos en un score vrai et une erreur de mesure.
score observ = score vrai + erreur de mesure
Lorsque lon procde 2 mesures, on obtient deux scores observs (SO1 ;
SO2 ) et chacun est compos dun score vrai (SV1 ; SV2 ) et dune erreur
de mesure (E1 ; E2 ).
Lorsque lon calcule la diffrence entre deux scores observs, les erreurs
de mesures ne se soustraient pas mais se cumulent
SV 2 - SV1 = (SV2 SV1 ) + (E2 + E1 )
Le score de diffrence est donc affect dune variance derreur suprieure
celle de chacun des scores pris en compte.
La meilleure faon, dans labsolu, de rsoudre les problmes lis la mesure
du changement est de faire appel aux modles de rponse litem (Item
Response Theory) appels aussi modles traits latents (Dickes, Tournois,
Flieller & Kop, 1994 ; Embretson 1987, 1989, 1991, 1995 ; Hambleton,
Swaminathan & Rogers, 1991 ; Hambleton & Slater, 1997 ; Vrignaud,
1994, 1996). Ces modles supposent lexistence dun continuum latent sur
lequel sujets et items peuvent tre situs. Ils permettent de placer sur une
chelle commune (le paramtre daptitude) les items du pr-test et du posttest et rsolvent ainsi les effets de rgression et les problmes de fidlit. Ils
permettent, en outre, destimer sparment le niveau de difficult des items
et le niveau de comptence des individus, ce qui est commode pour valuer
des progrs. Dans cette approche, on peut considrer le gain individuel
du paramtre daptitude comme une mesure du potentiel dapprentissage.
Embretson (1991) a propos un modle multidimensionnel adapt la
mesure du potentiel dapprentissage qui distingue deux variables unidimensionnelles : laptitude du sujet dune part et sa modifiabilit dautre part.
La mise en uvre des modles IRT est cependant dlicate. Ils reposent
sur des axiomes (dunidimensionnalit, dindpendance locale, etc.) qui
344
sont rarement satisfaits dans les situations concrtes et leur mise en uvre
ncessite un nombre lev de sujets.
Il est donc utile denvisager dautres indices refltant le potentiel
dapprentissage qui prsenteraient moins dinconvnients que le score de
simple diffrence mais seraient plus oprationnels que ceux qui sappuient
sur les modles IRT.
On peut, par exemple, corriger les effets de rgression vers la moyenne
en calculant un score de gain rsiduel. Le score de gain rsiduel (GR) est
la part du score observ qui nest pas attribuable la rgression du pr-test
sur le post-test. La dmarche consiste calculer un score attendu Y grce
lquation de la droite de rgression des scores au retest sur les scores au
pr-test, pour tous les sujets ayant un score donn au pr-test, et de calculer
ensuite la diffrence entre ce score attendu Y et le score observ Yobs .Ce
score ne permet cependant pas de distinguer entre deux sources de gains :
celle qui est lie la sance dapprentissage (effet dapprentissage) et qui peut
concerner les principes logiques sollicits dans la tche, et celle qui est lie
la rptition de la passation du test (effet du retest) et qui dcoule dune
meilleure familiarisation la situation et du temps gagn par le sujet dans
les items dont il se souvient. Or, on peut penser que ces deux effets nont
pas le mme sens ni la mme capacit prdire les apprentissages futurs.
Cela nous a amens proposer un nouvel indice (Loarer & Chartier,
1994) que nous avons appel score de gain rsiduel diffrentiel (GRD) qui
consiste estimer le score attendu Y non plus sur le groupe exprimental,
mais sur un groupe contrle ne bnficiant pas de la sance dapprentissage.
Le pronostic calcul par rapport ce groupe (soit Ycont = aX+b) donne
leffet propre du retest. Pour un sujet du groupe exprimental, le score de
potentiel dapprentissage sera la diffrence entre le score attendu sil avait
fait partie du groupe contrle Ycont et le score observ Yobs. Il sagit dun gain
hypothtique, reprsentant la part de la note observe non attribuable leffet
de retest. Lavantage de cette mesure est donc disoler leffet de la sance
dapprentissage. Linconvnient est la lourdeur du dispositif dvaluation
qui la destine principalement la recherche.
Le score au retest apparat cependant comme un compromis intressant
puisquil permet dviter les problmes lis la rptition de la mesure tout
en tant dobtention aise. Il a nanmoins linconvnient de mler dans
un score global le niveau initial et le gain d lapprentissage. Huteau
et Lautrey (1999a, p. 256) proposent une faon lgante de sparer ces
deux lments lorsque lon possde un critre extrieur, en calculant la
corrlation partielle du post-test avec le critre lorsque la corrlation avec
345
le pr-test est partialise, ou encore en ralisant une analyse de rgression

dans laquelle on introduirait successivement comme prdicteurs le pr-test
puis le post-test. La fraction de variance supplmentaire explique par le
post-test correspondant leffet propre de lapprentissage. Cependant, cette
pratique est rserve des recherches et peu adapt aux pratiques classiques
dvaluation. En outre, dans de nombreuses tudes, la mise en uvre de ce
traitement est gne par la prsence de colinarit entre les variables. lissue
dun ensemble dtudes menes pour comparer les proprits des diffrents
indices de potentiel dapprentissage, Loarer (2000) conclut que lindice le
plus commode utiliser et le plus valide est bien le score au post-test.
La fidlit des mesures dapprentissage

La fidlit des mesures dapprentissage est menace par plusieurs types de
phnomnes :
1. Les effets de plafonnement des scores : Les preuves de potentiel
dapprentissage sont frquemment confrontes des problmes
techniques lis un effet de plafond : la marge de progression
possible dans une preuve ntant pas infinie, les scores dapprentissages
peuvent sen trouvent affects. Par exemple, Bchel et al. (1990)
cherchant valuer la stabilit, dans le temps, des gains entre test et
retest se heurtent un effet de plafond dans les apprentissages ;
2. Les effets des erreurs de mesure : Comme dans lvaluation conventionnelle, la fidlit test-retest des preuves dapprentissage est relative
aux erreurs de mesure alatoires affectant lobservation (laptitude du
sujet donne par la "mesure vraie"). Lorsque le score dapprentissage
sappuie sur deux scores (test et retest), les erreurs de mesure sont alors
cumules ;
3. La stabilit du changement : Dans lvaluation dynamique, la fidlit
est galement dpendante de la stabilit du phnomne observ. La
fidlit de la mesure du potentiel dapprentissage suppose une stabilit
dans la faon de changer, ce qui nest pas toujours le cas.
346
6.
Les problmes thoriques de lvaluation

dynamique : que mesure t-on exactement ?
Au-del des problmes pratiques et mthodologiques qui ont t prsents et
pour lesquels, nous lavons vu, des rponses satisfaisantes semblent pouvoir
tre trouves, un certain nombre de problmes dordre thorique subsistent
aujourdhui et divisent les auteurs. Dans la priode rcente, de nombreux
travaux portent sur lvaluation dynamique et proposent des techniques de
mesure du potentiel dapprentissage . Cependant, le concept nest pas
toujours clairement dfini et lorsquil lest, les conceptions quen ont les
diffrents auteurs diffrent assez largement.
Proccups surtout par la construction dinstruments destins mesurer le
potentiel dapprentissage expliquaient dj Ionescu & Jourdan-Ionescu
(1984, p. 920) les chercheurs ont nglig les laborations thoriques.
Ce manque dunit de vue sur la notion de potentiel dapprentissage,

encore prsent aujourdhui, donne parfois limpression que lon ne sait pas
trs bien ce que lon mesure mme si lon sait parfaitement le mesurer.
Les rapports entre le potentiel dapprentissage et lintelligence
Certains auteurs ne voient pas la ncessit thorique de distinguer les

deux dimensions. Pour eux, les tests classiques et les tests de potentiel
dapprentissage mesureraient, sous des formes diffrentes, la mme chose.
En effet, les tests classiques dintelligence mesurant, travers le niveau
defficience actuel, le produit des apprentissages antrieurs, ils prendraient
indirectement en compte le potentiel dapprentissage. La mesure statique
de lintelligence intgrerait donc celle du potentiel dapprentissage.
Lautrey (1994) fait remarquer que cette position ne devrait cependant
pas ncessairement exclure lintrt dune valuation dynamique. En effet,
compte tenu du fait que les occasions dapprendre peuvent avoir t
diffrentes suivant les individus, peut-tre obtiendrait-on une meilleure
valuation de lintelligence par une mesure directe de la capacit dapprentissage qu travers ses produits. Nous noterons que dans ce cas, le recours
lvaluation dynamique nest alors envisag que comme une possibilit que
se donne le psychologue de compenser, pour mieux mesurer lintelligence,
certains biais culturels.
347
Pour dautres auteurs, il semble que les deux dimensions soient fondamentalement distinctes. Les tests classiques et les tests de potentiel dapprentissage
mesureraient des ralits diffrentes. Pour Vygotsky, par exemple, et donc
pour les auteurs qui sen inspirent (Brown & Ferrara, 1985 ; Campione &
Brown, 1987 ; Day, 1983), la zone proximale de dveloppement dbutant
l ou finit la zone de dveloppement actuel, les tests classiques et les tests
de potentiel dapprentissage mesureraient donc, par dfinition des entits
psychologiques distinctes. Cette hypothse semble tre confirme par les
rsultats obtenus par plusieurs auteurs (Guthke, 1982 ; Lidz, 1987) qui
montrent que les scores de russite spontane (ou prtests) et les scores
dapprentissage (post-tests ou scores de gains) sont faiblement intercorrls.
Cependant Flammer & Schmid (1995, p. 193) expliquent que ces rsultats
peuvent tre dus des artefacts mthodologiques.
La nature et la signification des progrs conscutifs

lapprentissage valu
Les fondements de lvaluation dynamique sappuient sur le postulat de

lducabilit de lintelligence crivent Paour et al. (1995, p. 47). Nous
pouvons ajouter que si lvaluation dynamique et lducation cognitive
partagent les mmes racines pistmologiques ils partagent galement les
mmes ambiguts thoriques. Aussi, la question cruciale de la nature
des effets induits par le programme dducation cognitive est pose ici
propos des progrs mesurs par le potentiel dapprentissage. Les progrs
rsultent-ils dune transformation du sujet, dune modification de sa
reprsentation de la tche et/ou dune rduction de la complexit initiale de
la tche ? sinterrogent trs justement Paour et al. (1995, p. 82).
On a vu limportance de cette question propos de lvaluation des effets
de mthodes de remdiation cognitive (cf. Loarer, 1998). Faut-il interprter
les effets observs lissue dun programme dducation cognitive consistant
entraner les sujets rsoudre des problmes extraits directement ou inspirs
de tests dintelligence, comme des indices de dveloppement cognitif ou
bien comme le simple rsultat dune familiarisation aux situations de tests ?
Tout comme pour les effets des mthodes dducation cognitive, la
rponse cette question passe par ltude de lintgration fonctionnelle
de ce qui a t acquis propos de certaines tches (transfrabilit proche
et loigne, immdiate et diffre des tches diffrentes requrant une
activit cognitive de mme type) (cf. Huteau et Loarer, 1992). Seule une
348
telle tude permettra de dire si le sujet a seulement t entran russir au

test ou a fait lapprentissage de procdures cognitives nouvelles rutilisables
ultrieurement et transfrables des situations analogues.
La nature des contenus et oprations cognitives qui sont
valus et entrans dans le cadre de lvaluation dynamique
Le reproche majeur fait aux tests dintelligence est quils ne permettent

gnralement pas de comprendre le fonctionnement cognitif des individus
(voir chapitre 7). De ce fait, ils sont dun faible secours dans ltablissement
dun diagnostic sur la nature des difficults de fonctionnement ni dans
la prescription de mesures de remdiation. linverse, lvaluation
dynamique sinscrit dans cette dmarche dlucidation des contenus cognitifs
des tests dintelligence (Paour et al., 1995, p. 52).
La construction dun test dvaluation de potentiel dapprentissage et
particulirement llaboration des aides spcifiques fournies au sujet, ainsi
que le choix de tches de transfert demande en effet une connaissance des
domaines cognitifs valuer et une analyse fine des items proposs.
Quels que soient les objectifs poursuivis, lvaluation dynamique ne
peut se dispenser dune analyse des contenus et des processus mobiliss
dans la rsolution des tches proposes au sujet. Ceci est particulirement
vrai lorsque la finalit de lvaluation est lintervention psychopdagogique.
Diffrentes dmarches danalyse des tches cognitives ont t proposes (cf.
Sternberg, 1977 ; Glaser & Pellegrino, 1978/79 ; Pellegrino, 1985), mais la
complexit de leur mise en uvre les rend essentiellement utilisables dans
un contexte de recherche.
Sur ce point, lvaluation dynamique rencontre des limites qui sont
celles de lavancement des recherches en psychologie cognitive. Bien
entendu, le besoin de connaissances de ce type pour les applications
psychomtriques et pdagogiques peut constituer une incitation importante
ce que sintensifient les travaux dans le domaine. Mais on sait aussi que ces
recherches sont coteuses et que la production de connaissances nouvelles
est lente.
Nous noterons galement que mme si lanalyse des tests peut aboutir
la comprhension des processus cognitifs de rsolution impliqus dans les
tches, elle ne dit pas comment on peut ensuite aider les individus acqurir
la matrise de ces processus lorsque lon constate quils leur font dfaut. Sur
349
ce point, on se reportera aux travaux sur les mthodes dducation cognitive

(voir par exemple Loarer et al., 1995 ; Loarer, 2001).
La validation du potentiel dapprentissage et des critres
de validit
La notion de validit prdictive des preuves de potentiel dapprentissage

est fonde sur le postulat que la capacit apprendre qui se manifeste
aujourdhui dans une situation de test, se manifestera nouveau demain
dans des situations relles. Ce postulat soulve notre avis deux problmes
majeurs. Le premier concerne la gnralit de la mesure ralise. Le second
sa fidlit.
Gnralit de la mesure
Au cours de lvaluation dynamique, lentranement est ralis dans
un domaine donn et dans des conditions donnes. Lhypothse que
cet chantillon particulier dapprentissage soit reprsentatif de tous les
apprentissages que la personne sera amene effectuer nous parat trs
audacieuse et dire vrai peu fonde. Bien sr, on constatera que les tches
retenues par la majorit des auteurs (Feuerstein, Guthke, Budoff, Ionescu,
...) pour servir la fois de support lvaluation et lapprentissage sont des
tests fortement saturs en facteur g. Est-ce dire que laptitude apprendre,
avec laide dun psychologue, rsoudre des tests de facteur G tmoigne
dune capacit gnrale dapprentissage ?
Les travaux mens en psychologie cognitive durant ces trente dernires
annes sont nombreux conclure limportance des contenus et des
contextes spcifiques dans lacquisition et la mise en uvre des procdures
cognitives (Chi, 1978 ; Borkowski & Cavanaugh, 1979 ; Lautrey et al. 1986 ;
Pignault, 2007). Ces rsultats concernent directement la problmatique de
lvaluation dynamique. On a vu galement plusieurs reprises (Loarer et
al., 1995 ; Loarer, 2001) comment ils justifiaient la rvision des postulats
de base de certaines mthodes de remdiation cognitive.
Une tude que nous avons mene afin de tester le degr de gnralit
ou de spcificit de la capacit apprendre (Loarer & Chartier, 1994)
renforce ce point de vue. Nous avons bti, selon la procdure T-A-R
trois preuves de potentiel dapprentissage, chacune explorant un domaine
cognitif diffrent : raisonnement inductif, raisonnement spatial et crativit.
350
Appliques aux mmes sujets (123 adolescents de lyce professionnel et

jeunes adultes en formation) les preuves aboutissent des mesures de
la capacit dapprentissage trs faiblement corrles entre elles, ce qui
atteste de la spcificit du potentiel dapprentissage. Les scores de potentiel
dapprentissage ne renvoient donc pas une capacit gnrale apprendre,
mais une capacit qui varie selon les domaines sur lesquels ont port
les apprentissages. Ce point de vue corrobore celui nonc par Campione
& Brown (1987), Brown & Ferrara (1987), ou encore Klauer (1990). Il
semble donc ncessaire, ce qui limite srieusement la porte de certaines
preuves, que pour raliser une mesure de potentiel dapprentissage des
fins pronostiques, le psychologue slectionne soigneusement les tches en
relation avec les domaines viss.
La concordance entre lpreuve de potentiel dapprentissage et lapprentissage ultrieur nest pas seulement considrer du point de vue des contenus.
Elle est aussi envisager sous langle du format de lapprentissage. Ainsi,
pour ce qui est de la prdiction de la russite scolaire, la validit des tests
dapprentissage va dpendre de la concordance entre le mode dentranement
et le mode denseignement. On ne voit en effet pas bien pour quelle raison le
score de potentiel dapprentissage obtenu aprs une sance dentranement
trs individualis et donnant lieu une forte mdiation de la part du
formateur constituerait un bon prdicteur de la russite du sujet dans une
formation ultrieure collective et faiblement mdiatise. Cest ce qui fait dire
de nombreux auteurs (Laughton, 1990 ; Jensen & Feuerstein, 1987 ; Lidz
& Thomas, 1987 ; Flammer & Schmid, 1995) que les rsultats scolaires
ne sont pas toujours de bons critres de validation des scores de potentiel
dapprentissage. De mme, pour ce qui est de lducabilit cognitive de
la personne, nombreux sont les auteurs (par exemple Feuerstein et al.,
1979, 1998 ; Dias, 1991) qui soulignent la ncessit, pour que lvaluation
dynamique ait un sens, que la personne puisse continuer ultrieurement
se trouver dans un environnement favorable son dveloppement.
La perspective ouverte par la thorie du potentiel dapprentissage ne
peut tre pleinement satisfaite que dans un environnement qui offre ses
membres les conditions de se modifier. (Dias, 1991, p. 132).
Faute dun tel environnement, la mesure du potentiel dapprentissage

restera la mesure non pas dun dveloppement futur mais... dun potentiel
futur non ralis et de ce fait non validable.
Si lon considre dune part que les conditions habituelles de formation
scolaire ou professionnelle sont rarement de mme type que celles prconises
351
par les auteurs pratiquant lvaluation dynamique et dautre part que

lvaluation du potentiel dapprentissage est, comme nous lavons dit, essentiellement pertinente pour les personnes qui vivent dans un environnement
socioculturel dfavorable, alors on aboutit un certain paradoxe de la
mthode : le potentiel dapprentissage serait un bon prdicteur pour des
situations dans lesquelles le sujet a peu de chances de se trouver plac. Ceci
limite notre avis ltendue du domaine de validit prdictive du potentiel
dapprentissage.
Fidlit de la mesure
Le pronostic dapprentissage suppose une certaine stabilit dans la faon
de changer et renvoie au problme de la fidlit de la mesure du potentiel
dapprentissage.
Si lvaluation du potentiel dapprentissage ntait pas fidle, au moins

un moment donn, elle ne pourrait fonder la moindre activit diagnostique
ou pronostique et elle serait donc strictement inutile prcise Lautrey
(1994, p. 138).
Pourtant, cette proprit de la mesure a rarement t tudie pour les

preuves de potentiel dapprentissage, probablement en raison des problmes
techniques quelle pose et que nous avons voqus.
notre avis, cependant, le problme de fidlit de la mesure des potentiels
dapprentissages est plus thorique que mthodologique, notamment
lorsquil sagit de pronostiquer le dveloppement (diagnostic dducabilit).
Le pronostic de dveloppement ultrieur fait implicitement rfrence
un modle linaire du dveloppement cognitif. Lorsque Vygotski affirme
que la ZPD renseigne mieux que le niveau actuel sur les apprentissages
ultrieurs, il suppose une certaine stabilit individuelle des caractristiques de
la ZPD. Lorsque les auteurs contemporains suggrent dvaluer le potentiel
dapprentissage des individus, ils supposent galement que celui-ci peut tre
considr comme un trait caractristique du sujet. La liaison recherche
est gnralement tudie par une rgression statistique, simple ou multiple,
de type linaire. Or, aucune thorie gntique nenvisage aujourdhui le
dveloppement cognitif comme un processus monotone. Nous pouvons
mme aller plus loin et souligner combien cette rfrence implicite est en
contradiction avec certains postulats de base de lducabilit cognitive.
Dans le cadre de lvaluation classique de lintelligence, la validit de
la prdiction sappuie sur la stabilit dans le temps des caractristiques
352
individuelles (relativement au groupe de rfrence). Cest le cas, par exemple

du QI. De ce fait, le niveau futur peut tre pronostiqu partir du niveau
actuel. Les tenants de lvaluation dynamique postulent, au contraire, que
la capacit dapprentissage, la modifiabilit ou lducabilit nest pas, pour
un individu, une quantit fixe gntiquement une fois pour toutes, mais
est susceptible de variations importantes en raison de multiples facteurs
externes ou internes. Ainsi, par exemple, Feuerstein prtend provoquer par
son intervention (LPAD ou/et PEI) une augmentation de la modifiabilit
cognitive des individus et cela quel que soit leur ge (Feuerstein, 1980, 1990).
De leur ct, Campione & Brown (1987, p. 87) soulignent la ncessit de
ractualiser frquemment la mesure du potentiel dapprentissage. La mesure
de lducabilit dun individu, disent-ils, nest valable que pour de brves
priodes parce quelle peut changer avec lentranement ou linstruction.
Feuerstein va plus loin et rejette lide mme de fidlit dans lvaluation
du potentiel dapprentissage au nom de linstabilit du phnomne observ
(Feuerstein et al., 1987). Nous ne le rejoignons pas sur ce point car il devient
alors inutile de tenter toute mesure.
Ce point de vue trs optimiste ne prend pas en compte ce que les
thoriciens du dveloppement appellent les contraintes ou les limites
dveloppementales prsentes dans toutes les thories du dveloppement. Ce
manque dintgration de lvaluation dynamique dans un modle explicite
du dveloppement cognitif peut surprendre. De Ribaupierre (1995) explique
ce phnomne par le clivage historique entre thories de lapprentissage
et thories dveloppementales. Certains promoteurs de lvaluation dynamique tant essentiellement des thoriciens de lapprentissage, ils ont eu
tendance dvelopper leurs conceptions en marge des grandes thories
du dveloppement et de ce fait sous-estimer les contraintes structurales
sexerant sur lampleur des progrs possibles.
7.
Quels usages des preuves de potentiel

dapprentissage ?
Quel que soit le modle dfendu, lvaluation dynamique est suppos fournir
les bases dun meilleur pronostic des apprentissages ultrieurs que ne le fait
lvaluation statique. Aussi, les tudes comparant les validits prdictives,
du point de vue de la russite scolaire, de tests de potentiel dapprentissage
et de tests conventionnels de QI, sont assez nombreuses dans la littrature
353
(Grigorenko & Sternberg, 1998). Force est de constater quelles ne vont pas
toutes dans le sens de lhypothse. Ainsi, par exemple, Sewell (1979, 1987)
observe dans une tude de ce type mene en premire anne de primaire que
la meilleure prdiction est donne, pour lensemble de lchantillon test,
par les tests conventionnels. Taylor & Richards (1990) arrivent aux mmes
conclusions : le Wisc-R savre tre un meilleur prdicteur de la russite
scolaire en primaire que les tests dapprentissage quils ont utiliss. Une tude
conduite par Guthke (1990) fournit galement des rsultats allant dans le
mme sens. Il constate, sur un chantillon de 400 enfants faisant lobjet
dun suivi durant leur scolarit primaire, que les rsultats obtenus par un
test classique de facteur G (MPC) prdit mieux la russite scolaire (value
par les notes, les apprciations des matres et des tests de rendement scolaire)
que ne le font les rsultats dun test de potentiel dapprentissage (le RKL).
Ce type de rsultats a amen certains auteurs (par exemple Flammer, 1974,
cit par Flammer & Schmid, 1982/1995, p. 204) conclure quavec des
sujets normaux , lapport de lvaluation dynamique ntait pas suffisant
pour justifier son cot supplmentaire.
Il nen va cependant pas de mme lorsque lon sintresse aux sujets
les plus faibles. Dans une tude de 1979, Sewell constate ainsi que, si le
score classique de QI prdit mieux la russite scolaire denfants blancs de
classe sociale moyenne, cest le score de retest de lpreuve de potentiel
dapprentissage que fournit la meilleure prdiction pour un groupe dlves
noirs de classe sociale dfavorise. De mme, Guthke (1990) rapporte que
lorsquil observe non plus lensemble de lchantillon, mais seulement les
lves (5 %) qui avaient t signals par la matresse de maternelle, leur
entre en primaire, comme prsentant un risque dchec, cest le score de
potentiel dapprentissage qui prdit le mieux leur russite scolaire.
Les rsultats que nous avons nous-mmes obtenus dans lpreuve des
SPM, et prsents ci-dessous, vont dans le mme sens. La sance daide
ou dapprentissage apparat augmenter la validit de la mesure (score au
retest). Lvaluation dynamique permet ainsi damliorer sensiblement le
pronostic de russite pour les sujets les plus faibles, alors quelle napporte
aucune information supplmentaire concernant les sujets niveau initial
lev. Ces deux lments tayent, parmi les trois conceptions du potentiel
dapprentissage que nous avons dcrites, celle qui voit dans la mesure du
potentiel dapprentissage une amlioration de la mesure de lintelligence,
notamment en limitant les biais socioculturels.
Ces rsultats illustrent un paradoxe et saccordent avec le point de vue
de Budoff (1987) : les tests dintelligence ont souvent t construits pour
354
reprer les dficits intellectuels et sont massivement utiliss pour lvaluation

des enfants dficients, cest--dire pour lusage dans lequel ils semblent les
moins valides. Cela conforte la position de Budoff sur le sens donner
la notion de potentiel dapprentissage. Il apparat clairement ici que
lvaluation dynamique prsente un intrt pour la compensation des biais
socioculturels dans lvaluation de lintelligence.
Lun des avantages souvent cit par les dfenseurs de lvaluation
dynamique est quelle permet de recueillir des indications utiles lintervention
pdagogique. Nous disposons en ltat actuel de peu dlments probants
allant dans ce sens. Il nous semble que des avances ne pourront tre faites
dans cette voie :
sans un effort de conception de nouvelles tches dvaluation permettant
une analyse fine des stratgies mises en uvre par les sujets (nous avons
voqu les limites des tches adaptes de tests classiques pour analyser les
erreurs des sujets) ;
sans une avance conjointe des connaissances sur les interactions entre
individus et situation pdagogiques ;
sans llaboration de situations de formation capables de fournir des
critres fiables de validation des stratgies dapprentissage repres dans
la situation de test.
8.
Prsentation dpreuves
Les preuves dvaluation du potentiel dapprentissage sont, quelques
exceptions prs, peu diffuses et accessibles en France. Beaucoup ont t
dveloppes loccasion de recherches. Nous avons fait le choix ici de
prsenter trois preuves :
Une premire preuve adapte des cubes de Kohs (Ionescu et al., 1985,
1987, Loarer et Chartier, 1994) qui adopte la procdure ACT,

Une seconde preuve adapte des Matrices de Raven (Loarer et Chartier,
1994, Loarer, 2001) qui utilise la procdure T-A-R,
Une troisime preuve adapte dun test de Faverge : le TEDE6 de
Pasquier (2003) qui a opt pour une variante de la procdure T-A-R dans
laquelle ne subsistent que les phases dapprentissage de retest.
355
Seule cette dernire preuve est disponible chez un diteur. Les deux
premires preuves sont prsentes ici afin de fournir des exemples
prototypiques de matriels et de procdures dvaluation dynamique.
Lpreuve de type Aide au cours du test de Ionescu
et collaborateurs fonde sur les cubes de de Kohs
Une procdure dvaluation dynamique base sur lpreuve des cubes de

Kohs a t labore par Ionescu et al. (1985), Ionescu, Jourdan-Ionescu, &
Alain (1987) et reprise et complte par Chartier & Loarer (1994).
Lpreuve
Le matriel utilis a t construit partir des neuf planches de lpreuve de
cubes de lchelle dIntelligence de Wechsler pour adultes (WAIS-R).
Les principales caractristiques de la procdure sont les suivantes :
La passation est individuelle ;
Chaque personne passe lensemble de lpreuve, compose de 9 items ;
Les aides ne sont donnes quen cas dchec mais le sont jusqu lobtention
de la russite ;
Les aides sont standardises et hirarchiss, cest--dire que loprateur
commence par donner des indices minimaux, qui sont progressivement
enrichis en cas dchec ;
Les aides sont fournies au sujet au cours de la passation en fonction des
erreurs quil commet ;
Une srie de trois aides hirarchises est prvue pour chaque item (voir
figure 7.4) :
1. La premire de ces aides consiste prsenter le modle lchelle 1
(le modle original est lchelle 1/2). Elle permet de compenser
dventuels problmes perceptifs ou des difficults lis au changement
dchelle ;
2. La seconde aide prsente un modle o sont traces les limites
des diffrents cubes, induisant une stratgie danalyse de la figure en
lments spars ;
3. La troisime aide est une dmonstration ralise par le psychologue
laide des cubes.
356
En cas de russite avec aide on revient systmatiquement au modle

initial de litem afin dvaluer ce que les auteurs appellent le transfert
dapprentissage. Ce dernier constitue un aspect essentiel de la mesure du
potentiel dapprentissage. Il se rfre la capacit qua la personne qui passe
le test de profiter de laide, ou des aides apportes, non seulement pour
russir le niveau de tche pour lequel laide a t apporte mais galement
dexploiter le principe appris pour mieux russir litem de niveau de difficult
suprieur.
Figure 7.4
Principe des aides.
Les aides ne sont donnes quen cas dchec, selon le schma de passation
dcrit dans la figure 7.5. Quel que soit litem considr, le temps de rflexion
du sujet est limit 2 minutes pour la planche standard et 1 minute pour
chacune des aides.
Les indices
Dans les tudes ralises par Ionescu et al. auprs de dficients mentaux, trois
notes ont t prises en compte, calcules soit partir des russites spontanes
des sujets (NS, note spontane) soit partir du nombre daides efficaces
fournies conscutivement un item initialement chou (NA, note daide)
ou encore du nombre de russites du modle initial aprs aide (NT, note
de transfert). Les auteurs considrent la note spontane comme quivalente
une mesure classique de laptitude. Cela nest pas notre avis tout fait
justifi, car leffet dapprentissage tient alors aussi bien la familiarisation
avec lpreuve quaux aides ventuellement fournies. Quoi quil en soit, dans
ces conditions, la prise en compte de la note de transfert dans un score global
(NG = NS+NT) amliore quelque peu la validit prdictive de lpreuve
par rapport un critre externe qui est la notation des moniteurs ayant eu
superviser le travail des sujets. Cette note globale explique 29 % de la
357
ITEM i
(planche i A) si russsite
ITEM i +1
si chec
planche i B
si russsite
planche i A
ITEM i +1
si russsite
planche i A
ITEM i +1
si chec
planche i C
si chec
faire le modle avec des cubes
devant le sujet
russite ou chec
planche i A
ITEM i+1
Figure 7.5
Schma de la passation.
variance de lchelle de Comptence Professionnelle sur laquelle les sujets

sont valus.
Chartier et Loarer (1994) introduisent une variante en proposant
2 nouveaux scores par rapport Ionescu et al. (1987) pour limiter le
problme concernant la liaison ngative observe habituellement entre le
score de russite spontane et le nombre daides ou de transferts russis. Il
sagit de deux rapports :
Le rapport (appel RA, rapport daide ) donn par lopration : nombre
de russites conscutives une aide/nombre daides fournies, qui dsigne

la capacit du sujet tirer parti des aides qui lui sont fournies ;
Le rapport (appel RT rapport de transfert ) donn par lopration :
nombre de transferts russis/nombre doccasions de transfrer, qui dsigne
la capacit du sujet gnraliser le principe de russite appris au cours de
laide.
Utilisation
Cette preuve, dcrite ici comme illustration dune dmarche dvaluation
dynamique est principalement destine lvaluation de lintelligence de
358
sujets prsentant des carts et/ ou des carences socioculturelles par rapport
aux populations habituellement values. Elle permet en particulier, selon
une approche principalement clinique, de tester lhypothse de dficit
culturel.
preuve dvaluation dynamique base sur le SPM de Raven
Lpreuve, labore par Loarer et collaborateurs (cf. Loarer et Chartier, 1994 ;

Loarer, 2001) est base sur les progressives matrices de Raven (voir pour une
prsentation de cette preuve le chapitre 4) et utilise la procdure T-A-R.
Des aides portant sur la rsolution de chaque type ditems du test ont t
conues en sappuyant sur les travaux de Carpenter, Just, & Shell (1990), de
Laroche (1956), de Raven (1981) et sur un travail complmentaire danalyse
des procdures de rsolution de chaque item ralis par les auteurs.
La passation est individuelle. Le sujet ralise une premire fois le test
puis se voit ensuite proposer un apprentissage sur les items auxquels il a
chou. Enfin, il passe le test une seconde fois. Les deux passations se font
en temps limit. La figure 7.6 prsente un exemple daide, correspondant
un principe de rsolution utilis dans lpreuve de Raven. La passation
dure donc le temps ncessaire pour les deux passations compltes du SPM
et pour la phase dapprentissage, soit environ 1 heure et 30 minutes.
Figure 7.6
Exemple daide propose correspondant lun des principes de rsolution des items des
Matrices de Raven SPM (Loarer et Chartier, 1994).
Une tude de validit de cette preuve a t mene auprs dlves de 3e

de collge (Loarer, 2001). La dmarche a consist valuer les lves en
dbut danne scolaire laide des matrices de Raven, selon la procdure
T-A-R, et comparer les rsultats au pr-test (mesure classique) et les scores
359
au post-test (mesure incluant les effets de lapprentissage) du point de vue

de leur validit pronostique. Les notes scolaires aux 1r et 3e trimestres ont
t prises comme critres (centres et rduites par classe et par matire).
Les coefficients de validit ont t calculs initialement pour la totalit de
leffectif, puis une partition du groupe la mdiane a t opre selon les
rsultats au pr-test. Les rsultats montrent que pour lensemble des sujets,
le post-test napporte pas, par rapport au pr-test, un surcrot significatif de
validit. Par contre, aprs partition du groupe (cf. tableau 7.1) on constate
que cest le score au post-test qui est le plus valide pour les sujets ayant les
scores les moins levs, les coefficients de validit des scores au pr-test tant
non-significatifs.
Tableau 7.1
Coefficients des corrlations (rbp) entre les scores aux SPM sans apprentissage (pr-test) et aprs apprentissage
(post-test) et les notes scolaires aux 1er et 3e trimestres pour le groupe le plus faible
Pr-test
rBP
rBP
sign.
sign.
er
09
ns.
.30
p<.05
.02
ns.
.22
p<.05
Notes 1 trim.
Notes 3 trim.
Post-test
Nous retenons donc de cette tude que le score au retest aprs apprentissage
reflte mieux le niveau rel des sujets les plus faibles.
En passation individuelle, linterprtation du rsultat au test des fins
de pronostic de la russite ultrieure consiste alors prendre le score
au retest aprs apprentissage comme refltant le niveau rel du sujet. La
solution idale serait de disposer dun talonnage des scores de retest pour
diffrentes populations de rfrence. Il sagit l dune possibilit intressante
de dveloppement de ce test.
Le Test dvaluation Dynamique de lducabilit, 6e dition
(T.E.D.E.6) de Pasquier
Le T.E.D.E. 6 a pour objectif principal, selon son auteur (cf. Manuel, p. 5),
la mesure de lducabilit de la personne par lvaluation de son potentiel
dapprentissage . II est destin des populations adultes, apprentis ou
candidats apprentis sachant lire le Franais.
360
Le test adopte la procdure apprentissage-test, variante de la procdure

T-A-R sans effectuer le test initial. La mesure du potentiel dapprentissage
correspond la performance obtenue par le test effectu aprs apprentissage.
Tche
Inspire du test de calcul des longueurs de Faverge (1955), la tche, de
nature spatiale et logico-mathmatique, est double : il sagit dune part de
composer une galit partir de segments de droites et, dautre part, de
tracer les flches figurant les superpositions de segments justifiant cette
galit (cf. figure 7.7)
6,7
12,3
15,1
?
FIGURE
2e EXEMPLE - Figure C.
On vous a donn 3 longueurs en trait fort : 6,7 ; 15,1 ;
12,3 et on vous demande de calculer une quatrime
longueur en trait fort devant laquelle on a mis un point
d'interrogation. Vous voyez quelle est la diffrence entre
15,1 - 6,7 - 8,4. La rponse est 8,4.
Il tait donc inutile de se servir de la longueur donne
12,3.
Avez-vous bien compris ?
Figure 7.7
Exemple ditem du test de calcul des longueurs de Faverge (1955) et dont sinspire le TEDE.
Le TEDE comprend trois niveaux de difficult des items selon la

complexit des oprations effectuer.
Les 12 items de la phase dapprentissage et les 18 items de la phase de test
couvrent 3 niveaux de complexit des oprations raliser.
Matriel et passation
Le matriel comprend deux livrets (le livret dapprentissage et le livret de test)
et un dossier dinstructions. La premire phase de la passation est consacre
361
(a-b+c)
(a+b-c+d)
(a+b+c-d)
Figure 7.8
lapprentissage de la tche excuter. Pour cette premire phase, les sujets

accompagns de lexaminateur travaillent en situation dauto-formation
assiste laide du dossier dinstructions et du livret pour lapprentissage.
Les personnes sont ensuite invites raliser les exercices du livret de test
(3 exemples + 3 sries de 6 items) sans aucune aide.
La passation peut tre individuelle ou collective. Le temps de passation
est de 2 heures (apprentissage : 1 heure + pause de 15 minutes + test :
45 minutes). Le temps de correction est denviron 5 minutes (logiciel de
correction).
lments de validation
Le manuel prsente de nombreuses donnes de validation, tant en ce qui
concerne la validit interne du test (analyse des items, cohrence interne,
analyse de biais diffrentiels, fidlit) quen ce qui concerne les validits
externes (concourantes et prdictives). Ainsi, le manuel fait tat dune
cohrence interne (coefficient alpha de Cronbach) de 0,92 et dune stabilit
temporelle (corrlation test-retest une semaine dintervalle de 0,94). Ces
deux indices ont des niveaux trs satisfaisants. On peut cependant regretter
que la stabilit soit value sur un chantillon trs restreint (15 sujets). Les
donnes relatives la validit prdictive relativement des indicateurs de
russite en formation sappuient sur des chantillons plus larges (n=161
pour lchantillon adulte et n=244 pour lchantillon apprentis) et sont en
moyenne leves : les corrlations vont de 0,40 0,83 pour les diffrents
groupes composant lchantillon adultes et de 0,38 0,71 pour les diffrents
groupes composant lchantillon des apprentis.
362
Des lments de validit concourante sont galement prsents dans le

manuel, relativement diffrents tests de raisonnement et de connaissance,
ce qui se comprend bien, mais aussi avec des inventaires dintrts (modle
de Holland) et de personnalit (preuve de Gordon) ce qui se comprend
moins aisment.
Nous retiendrons que le test prsente globalement de bons indices de
validit et semble bien adapt la fois au type de populations vises mais
aussi aux objectifs viss (prdiction de la russite en formation).
Nous remarquerons cependant que le choix de la procdure d Aideretest ne permet pas de savoir quelle est la part du niveau initial et quelle
est celle de lapprentissage dans la russite au test. La procdure permet
probablement de limiter lincidence de biais induits par le manque de familiarit avec la tche, lappartenance socioculturelle ou encore ventuellement
lmotivit. Lpreuve apparat donc poursuivre principalement un objectif
damlioration de la mesure de lintelligence logique. Une analyse de la
squence dapprentissage et de ces relations avec le test lui-mme permet
nanmoins daller bien au-del de cet objectif et de fournir des indications
relatives lapprentissage lui-mme.
Corrections et exploitation des rsultats

Le test est fourni avec un programme permettant de saisir les rsultats du
sujet. Ce programme donne accs diffrents traitements du protocole. Il
permet de le positionner au regard de ltalonnage adapt mais il permet
aussi afin danalyser les caractristiques de la phase dapprentissage et de
dgager ce qui est appel des profils du sujet. Il sont de trois types :
profil fonctionnel,
profil dapprentissage,
profil de transfert.
Le profil fonctionnel correspond la rpartition des russites selon les trois
niveaux de complexit du test et selon les aspects de la tche : galits et

dplacements ;
Le profil dapprentissage fournit une analyse des erreurs faites et de la faon
dont elles ont t traites ;
Le profil de transfert reflte le lien entre la squence dapprentissage et le
test proprement dit.
363
Cinq cas de figures ont t rpertoris : russite ritre (litem est russi
lapprentissage et au test) ; gain (litem non russi lapprentissage lest au
test) ; perte (litem russi lapprentissage ne lest plus au test) ; chec ritr
(litem nest russi ni lapprentissage ni au test) ; omission ritre (litem
nest ralis ni lapprentissage ni au test). Ces profils donnent accs une
information qui peut tre utile dans une perspective psychopdagogique, ce
que peu de tests permettent.
talonnages
Les talonnages disponibles portent sur une population dadultes et sur une
population dapprentis.
Des talonnages spcifiques sont en outre proposs :
Pour la population adulte selon 4 niveaux de qualification :
groupe 1 : les hommes et femmes de niveau II et ID, les hommes de
niveau IV, tous ges confondus,
groupe 2 : les hommes juniors (16- 29 ans) de niveau V et les femmes
juniors (16-29 ans) de niveau IV,
groupe 3 : les femmes de niveau V, les hommes seniors (29-58 ans) de
niveau V et les femmes seniors (29-58 ans) de niveau IV,
groupe 4 : les hommes et femmes de niveau VI, tous ges confondus ;
Pour la population des apprentis et candidats apprentis, selon 4 niveaux
de qualification des diplmes prpars : CAP, BEP, BP, Bac.
Restitution
Le manuel fournit un modle de fiche de synthse et des indications
concernant la restitution des rsultats la personne qui a pass lpreuve.
Cette restitution sappuie en particulier sur lanalyse des profils qui a t
faite.
9.
Conclusions sur le potentiel dapprentissage

La perspective de disposer dinstruments nouveaux permettant de dpasser les
limites des instruments classiques est rjouissante. Pour cela, le concept dvaluation dynamique constitue manifestement une rupture pistmologique
(Paour et al., 1995) par rapport aux approches traditionnelles de diagnostic
364
cognitif, et la dmarche dvaluation qui en dcoule semble prometteuse.

Lvaluation dynamique apporte dj une amlioration notable la mesure
de lintelligence pour les sujets de faible niveau de performance. Neutralisant,
au moins partiellement, les diffrences individuelles bases sur des ingalits
socioculturelles, elle permet alors de raliser un diagnostic plus valide
(plus dmocratique) de leurs capacits cognitives. Cependant, bien que trs
sduisante dans ses principes gnraux, lvaluation dynamique ne va pas sans
poser un certain nombre de problmes pineux. Comme le font remarquer
trs justement Bchel et Paour (1990), les tentatives pour dynamiser la psychomtrie ont jusquici soulev autant de problmes quelles en ont rsolus.
Dun point de vue mthodologique, nous retenons les faibles qualits
mtrologiques des indices dynamiques et la bonne tenue des scores de posttest, tant du point de vue de la fidlit que de la validit. Nos observations
confirment donc le choix fait par plusieurs auteurs de privilgier ce dernier
(Guthke & Wigenfeld, 1992 ; Guthke et al., 1997 ; Klauer, 1975, cit par
Klauer, 1995 ; Speece, Cooper, & Kibler, 1990). Ce constat prsente un
intrt vident pour le praticien. La prise en compte de la note au retest
permet dutiliser un indice dont la transparence facilite la restitution aux
personnes concernes (sujets, enseignants,...) et dont la dtermination vite
la mise en uvre dun plan exprimental difficilement conciliable avec les
contraintes des pratiques habituelles dvaluation.
Pour ce qui est de ses finalits diagnostique et pronostique, trop de
problmes non rsolus ou rsolus seulement partiellement, notamment des
problmes relatifs lobjectivit des observations, la fidlit et la validit
des mesures, et leur caractre plus ou moins analytique, subsistent. Le
nombre de ces inconvnients, voire de ses limites, risque de la rendre difficile
mettre en uvre dans la pratique courante des bilans psychologiques.
Pour ce qui est de sa finalit ducative, il est probable que ds que lon
pourra proposer des mthodes dvaluation fournissant de faon fiable
des informations utiles aux formateurs et enseignants, bon nombre de
praticiens se dtourneront des mthodes statiques au profit de lvaluation
dynamique. Il sagit donc dune approche prometteuse et actuellement
encore insuffisamment dveloppe.
CHAPITRE
8
Utilisation des tests

dintelligence
Sommaire
1. Les conditions dutilisation des tests . . . . . . . . . . . . . . . . . . . . . . . . . .
Page 367
2. La pratique des tests . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Page 380
3. Exemples de contextes dutilisation des tests dintelligence logique
Page 394
4. diteurs de tests . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Page 409
367
utilise des tests dintelligence ? Comment les utilise-on ? Dans

quels contextes ? Cest lobjet de ce chapitre.
Pour le qui , les utilisateurs de tests sont, au moins en
France, majoritairement des psychologues. Nous en exposerons
les raisons.
Pour le comment , nous dtaillerons les grandes tapes de lutilisation
de tests psychologiques : de lanalyse de la demande la restitution des
rsultats.
Enfin, concernant les contextes dutilisation, ils sont nombreux : des bilans
psychologiques effectus dans le systme ducatif pour les scolaires (enfants
et adolescents) aux pratiques de recrutement et de gestion des ressources
humaines pour les adultes, sans oublier les pratiques plus contemporaines de
conseil et daccompagnement (bilan de comptences...), ou encore les bilans
psychologiques effectus dans les hpitaux ( la demande des psychiatres et
les neurologues), sans oublier les demandes dexpertise des tribunaux... Nous
prsenterons les grandes lignes de quelques-uns de ces contextes dutilisation.
Q
1.
UI
Les conditions dutilisation des tests
Qui peut utiliser des tests en France ?
Les utilisateurs de tests en France sont, comme nous venons de lindiquer,

le plus souvent des psychologues. En effet, un nombre important de tests
nest accessible quaux personnes pouvant justifier du titre de psychologue.
Rappelons ce propos que la profession de psychologue est rglemente
depuis la loi de 1985. Pour pouvoir faire usage du titre de psychologue il
est ncessaire : 1) davoir valid un cursus complet dtudes suprieures en
Psychologie (Licence et Master), 2) davoir ralis (et valid) un stage dans
un contexte professionnel dune dure minimale de 500 heures.
La vente de tests psychologiques se trouve donc, du moins en France, et
pour certains tests seulement, limite aux personnes pouvant justifier du
titre de psychologue. Pourtant, et la Socit Franaise de Psychologie (SFP)
le prcise dans un document relatif la problmatique de lutilisation des
tests (SFP, non dat, disponible sur son site internet), du point de vue
de la lgislation franaise actuelle, une personne non psychologue pourrait
attaquer en justice un diteur de test pour refus de vente. La restriction de
368
la vente relve donc plus dun accord informel entre diteurs et auteurs (et
organisation professionnelle ?) que de lexistence de rels textes lgislatifs.
Certaines preuves sont ainsi accessibles aux non psychologues, cest
par exemple le cas, pour rester dans le champ des tests de logique, des
matrices de Raven, qui peut tre considr comme le, ou lun des exemples
prototypiques dun test dintelligence. Laccs libre cette preuve nous
semble regrettable car le titre de psychologue constitue une garantie des
capacits de lutilisateur utiliser de manire pertinente ce test.
Ce qui est en jeu nest pas la dfense dun titre professionnel et de
ses prrogatives, mme si cet argument doit tre pris en compte dans la
rflexion sur le sujet, mais bien la protection des intrts de la personne
qui fait lobjet dune valuation. Le psychologue est gnralement, du fait
de sa formation et de son exprience, et de son code de dontologie,
mme dapprcier la pertinence dutiliser ou non un test, de choisir le
plus appropri une situation donne, destimer le niveau de fiabilit de
lpreuve slectionne compte tenu de la situation et du contexte, capable
den interprter correctement les rsultats et de les restituer de faon adquate
la personne... Bref, il possde les connaissances et comptences qui
conditionnent un bon usage des tests.
Car il existe bien de mauvais usages des tests, et une personne non
psychologue pourra tre amene, non pas ncessairement en raison de
mauvaises intentions mais plus simplement par manque de connaissances
et de vigilance sur certains aspects, mettre en uvre de telles pratiques
nfastes, par exemple en utilisation mcaniquement le test, en linterprtant
sans nuance ou encore en lappliquant hors de son champ de validit.
On peut argumenter quune grande diversit existe dans les formations
de psychologie et que toutes ne fournissent pas de formation pousse en
psychomtrie. Cela est vrai et plus encore aujourdhui depuis lorganisation
des formations universitaires selon le systme europen de formation (LMD)
qui a abouti augmenter la diversit des parcours de formation universitaires.
Nanmoins, lvaluation psychologique et la pratique des tests font partie
des connaissances et comptences de base du psychologue et, mme si tous
les psychologues ne sont pas au sens strict du terme, spcialiss dans ce
domaine, la formation quils ont reue et le code de dontologie qui encadre
leur pratique constitue ce jour la meilleure garantie en la matire.
Un article de Castro et al. (2001) est justement consacr ce problme
de lutilisation des tests psychologiques par des psychologues et des non
psychologues. partir dune enqute auprs de psychologues il ressort
que ces derniers regrettent une absence totale de rglementation ce
369
niveau et ne souhaitent pas que des non psychologues puissent utiliser des
tests psychologiques : lensemble des rpondants soppose formellement
lutilisation des tests psychologiques par des non-psychologues et ce pour
deux raisons distinctes lies la formation et la notion de responsabilit
(p. 105). Lactivit dvaluation par des tests psychologiques est perue
comme un acte psychologique ncessitant un haut niveau de formation
en psychologie. Les auteurs de larticle, dans leurs commentaires sur les
rsultats de lenqute, avancent les arguments suivants :
Lutilisation dontologique des tests (dans lintrt des personnes

values) suppose donc un niveau de formation appropri, qui ne peut
tre atteint qu travers un cursus complet de psychologie (p. 107).
Sept ans aprs ce constat, la rglementation na pas chang et les pratiques

dvaluation psychomtriques par des non-psychologues a plutt tendance
se dvelopper. Plusieurs raisons peuvent tre invoques. Une raison
vidente est de nature commerciale : alors que le march de lvaluation
psychologique est actuellement en plein essor, en particulier sous leffet du
dveloppement des tests informatiss et des tests en ligne, il peut apparatre
souhaitable certains (notamment certains diteurs) de laisser les choses
en ltat. Une autre raison est peut-tre rechercher au sein mme de la
profession qui ne prsente pas de rel consensus sur cette problmatique.
Une pratique de diffusion des tests conditionne au suivi dune formation
spcifique se dveloppe actuellement. Elle concerne essentiellement mais non
exclusivement les preuves de type questionnaires (intrts professionnels
ou dimensions de la personnalit). Cette pratique consiste conditionner
la vente de lpreuve, et donc son utilisation, au suivi obligatoire dune
formation courte relative lpreuve vendue. Mme si cette pratique prsente
des limites (et constitue un vrai march en soi car ces formations sont
onreuses) elle constitue lvidence un progrs par rapport une situation
de vente libre des tests. Cependant, de telles formations courtes ne peuvent
tre profitables qu des personnes ayant dj des prrequis dans le domaine
de lvaluation psychologique. En outre, une application stricte de la rgle
aboutit parfois obliger des psychologues parfaitement mme dutiliser
les preuves suivre galement cette formation...
Une rflexion est donc mener sur les conditions dune ouverture de
lutilisation des tests des non-psychologues. Quels aspects de la pratique
et sous quelles conditions (dexprience, de formation la psychomtrie,
de formation spcifique lpreuve...) la pratique des tests pourrait-elle
tre largie des non-psychologues ? Cela peut probablement dpendre
370
du type de test et de lexprience professionnelle1 du non-psychologue

qui souhaite utiliser une preuve. Une contribution cette rflexion est
propose par la SFP (SFP, non dat).
Si la passation dune preuve, ou du moins de certaines preuves, voire
mme leur cotation, peut ventuellement faire lobjet dune formation
relativement limite, il nen est pas de mme pour linterprtation des
rsultats, la rflexion sur lusage de tests dans le cas dune pratique
professionnelle, sur le respect de la personne etc. Tous ces lments justifient
bien le haut niveau de formation ncessaire pour pouvoir exercer des activits
de psychologue, en lien direct avec les aspects thiques et dontologiques de
cette profession.
Afin de garantir la qualit de cette activit, dindiquer quelles devraient
tre les lments dune bonne pratique professionnelle, mais galement
de garantir les droits des usagers, les organisations professionnelles de
psychologues (dont la SFP) ont labor un code de dontologie afin de cerner
les droits et les devoirs du psychologue, de dfinir un cadre de rfrence :
le prsent code de dontologie est destin servir de rgle professionnelle
aux hommes et aux femmes qui possdent le titre de psychologue, quels
que soient leur mode dexercice et leur cadre professionnel, y compris leurs
activits denseignement et de recherche .
Le code de dontologie des psychologues
La dernire version du code de dontologie date de 1996. Elle figure en

annexe de cet ouvrage. Nous en reprendrons ici quelques articles, en lien
direct avec lutilisation des tests.
Au tout dbut de ce document, dans les principes gnraux, il est indiqu
que le psychologue dcide du choix de ses mthodes :
Dans le cadre de ses comptences professionnelles, le psychologue dcide
du choix et de lapplication des mthodes et techniques psychologiques
quil conoit et met en uvre. Il rpond donc personnellement de ses
choix et des consquences directes de ses actions et avis professionnels.
Ces mthodes doivent reposer sur des fondements thoriques solides et

explicites :
1. Que pourrait tre une Validation des Acquis de lExprience sur ce point ?
371
Les modes dintervention choisis par le psychologue doivent pouvoir

faire lobjet dune explicitation raisonne de leurs fondements thoriques
et de leur construction. Toute valuation ou tout rsultat doit pouvoir
faire lobjet dun dbat contradictoire des professionnels entre eux.
Ces lments sont repris ensuite dans larticle 18 du code :

Les techniques utilises par les psychologues pour lvaluation, des
fins directes de diagnostic, dorientation et de slection, doivent avoir t
scientifiquement valides.
Le psychologue doit tre capable destimer la fiabilit des mesures quil

ralise mais aussi, plus globalement, des preuves quil utilise, comme nous
lindiquent les articles suivants :
Le psychologue est averti du caractre relatif de ses valuations et
interprtations. Il ne tire pas de conclusions rductrices ou dfinitives
sur les aptitudes ou la personnalit des individus, notamment lorsque
ces conclusions peuvent avoir une influence directe sur leur existence
(article 19) ; La pratique du psychologue ne se rduit pas aux mthodes
et techniques quil met en uvre. Elle est indissociable dune apprciation
critique et dune mise en perspective thorique de ces techniques.
(article 17.)
Cette capacit de matrise des tests, outils et mthodes doit faire lobjet
dune formation spcifique dans laquelle :
Il est enseign aux tudiants que les procdures psychologiques concernant lvaluation des individus et des groupes requirent la plus grande
rigueur scientifique et thique dans leur maniement (prudence, vrification) et leur utilisation (secret professionnel et devoir de rserve), et que
les prsentations de cas se font dans le respect de la libert de consentir
ou de refuser, de la dignit et du bien-tre des personnes prsentes.
(article 32.)
Mais certaines de ces rgles de bonne conduite proposes dans le code

de dontologie ont parfois quelques difficults tre respectes dans les
situations concrtes. Par exemple : quen est-il du choix de ses preuves
lorsque le psychologue ne peut disposer, au sein de sa structure, que dun
nombre parfois trs limit de tests ? Quen est-il de la restitution des rsultats
dans le cadre dutilisation de tests dans une procdure de slection ?
Llaboration dun code est ncessaire mais faut-il encore quil soit
facilement applicable et adapt aux diffrentes situations professionnelles.
Pour Huteau et Lautrey les indications fournies par les codes de dontologie
372
et les textes lgislatifs demeurent souvent assez vagues et leur application

est parfois problmatique (1997, p. 110). Ils en donnent alors quelques
exemples :
Quest-ce quune technique scientifiquement valide si lon ne se rfre
pas des normes ? [...] La confidentialit est forcment mise mal dans
les procdures de recrutement : le psychologue est bien oblig de fournir
des informations concernant les candidats puisquil est pay pour cela !
(p. 110).
Le code de dontologie est un outil ncessaire et indispensable, cest une

rfrence pour une profession mais cest au psychologue, en dernier recours,
destimer, en fonction du contexte, quelle application de ce code est possible.
Claude Lvy-Leboyer, dans un article ancien, mais toujours pertinent,
consacr aux problmes thiques poss par lusage des tests (Lvy-Leboyer,
1987) distingue trois questions principales : Le problme dontologique
renvoie donc trois questions qui sont, en fait, de nature mthodologique :
quelles rgles dapplication faut-il respecter ?
quelle est la valeur de loutil que constituent les tests eux-mmes ?
comment la prouver de manire objective et raliste la fois ? (LvyLeboyer, 1987, p. 473).
Ces trois questions, qui rejoignent certains points du code de dontologie
relatifs lvaluation des personnes, peuvent guider le psychologue dans ses
activits dvaluation. Pour Lvy-Leboyer il existe aussi un lien troit entre
formation et comptences requises pour utiliser des tests dans de bonnes
conditions : seuls ceux qui ont reu une formation thorique et pratique
adquate sont capables de choisir des tests adapts chaque situation, de
les faire passer dans des conditions satisfaisantes, de les interprter et de
les utiliser dans le cadre plus large de dcisions concernant la carrire des
individus, et leur orientation, ou encore dactivits de conseil psychologique
(p. 474).
Un autre aspect intressant de larticle concerne les dcisions importantes
qui peuvent tre prises partir des rsultats de tests. Pour Levy-Leboyer
il faut multiplier les sources dinformation sur le sujet, et galement, si
possible, multiplier les personnes en charge de la dcision : dune part,
aucune dcision ne peut tre prise sur la base dun seul test, ni mme
en fonction des seules informations que les tests apportent ; dautre part,
aucune dcision importante ne devrait tre prise par une seule personne
(Lvy-Leboyer, 1987, p. 484).
373
Le lecteur souhaitant approfondir la rflexion sur les aspects dontologiques de lactivit de psychologue pourra consulter les publications de
Bourguignon (2000 et 2003) ainsi que le numro spcial de janvier 2000
de la revue Bulletin de psychologie consacr thique en psychologie et
dontologie des psychologues .
Qui diffuse les tests en France ?
Les tests sont diffuss en France par des entreprises dditions. Historiquement en France, les plus anciennes, et sans doute les plus connues,
sont les EAP1 et les ECPA2 , regroupes depuis quelques annes au sein
des ECPA. On peut galement signaler la prsence, plus rcente, dautres
diteurs de tests tels quEurotests, Hogrefe, OPP... Nous avons recens
en fin de chapitre les coordonnes des principaux diteurs de tests en
France. Le psychologue pourra consulter sur internet le catalogue de ces
diffrents diteurs et sapercevra rapidement que certaines maisons ddition,
plus anciennes, possdent un nombre important dpreuves tandis que
dautres, plus petites et/ou plus rcentes, ont un catalogue plus rduit
et/ou en cours de dveloppement. Signalons enfin que certaines de ces
entreprises organisent des prsentations de tests, et de nouveauts, sous
forme de petits-djeuners . Cest loccasion, pour le psychologue, de se
tenir inform de lactualit des tests.
Les politiques de ces diteurs peuvent tre sensiblement diffrentes :
certains sont plus spcialiss dans les outils destinations des adultes,
dautres proposent galement des tests destination denfants ; certains
tentent de diffuser des preuves europennes et/ou francophones alors que
dautres adaptent surtout des tests dorigine anglo-saxonne.
Avant dacheter un test il est fortement conseill, si lon ne connat pas
lpreuve, de se rendre chez lditeur afin de pouvoir consulter lpreuve
dans son ensemble, et tout particulirement les informations contenues dans
le manuel qui accompagne le test.
1. ditions et Applications Psychologiques.

2. ditions du Centre de Psychologie Applique.
374
La formation lutilisation des tests
Nous pouvons distinguer ici trois types de formation offrant des enseignements sur la pratique des tests : les formations universitaires en Psychologie,
les formations de psychologues statut fonctionnaires et les organismes de
type formation continue.
Les formations universitaires en psychologie1

Comme nous lavons indiqu auparavant, toute formation de psychologue
doit comporter un enseignement significatif dans le domaine des tests.
Gnralement, une premire approche de la mesure en psychologie, et des
tests, est propose aux tudiants pendant la Licence de Psychologie. Cette
formation est ensuite dveloppe en Master, mais restreinte au domaine
spcifique de la spcialit du Master : par exemple, on ne prsentera pas
aux tudiants dun Master de psychopathologie, les mmes preuves quaux
tudiants suivant un Master en Psychologie du travail. De plus, le nombre
limit dheures de cours ne permet gnralement pas daborder un ensemble
vaste dpreuves. Enfin, la place accorde lvaluation dans les programmes
de formation peut dpendre du contexte historique et institutionnel de
chaque Universit.
Toutes ces sources possibles de variations expliquent que, mme si tout
tudiant diplm en psychologie, de niveau Master, possde thoriquement
les bases thoriques, mthodologiques et les comptences pratiques, ncessaires la bonne utilisation de tests, il est possible que, comme dans la
ferme des animaux (Orwell), certains soient plus gaux que dautres
ce niveau. Et ces diffrences de formation auront des consquences dans
la pratique ultrieure, comme nous lindique Dana Castro : deux choses
sont certaines : toute la multitude de tests actuellement disponible nest pas
enseignable et les enseignements dispenss aux futurs psychologues au cours de
leur formation initiale vont marquer de leur empreinte, et pour longtemps, leur
pratique ultrieure (Castro, 2001, p. 52).
De plus, au-del de la formation, une relle exprience est indispensable :
Le fait de possder des diplmes universitaires en psychologie ne
remplace pas lexprience acquise et tous les psychologues diplms ne sont
pas forcment comptents pour tous les tests existants. (Levy-Leboyer,
1987 p. 474).
1. Nous pouvons intgrer galement ici le cursus de psychologie du travail propos par le CNAM.
375
Les formations de psychologues statut de fonctionnaires

Deux formations de psychologues amens exercer avec un statut de
fonctionnaire dans lducation nationale sont voques ici : il sagit
de formations de type universitaire mais recrutement particulier : les
psychologues scolaires et les Conseillers dorientation-psychologues.
Les psychologues scolaires interviennent dans lenseignement primaire.
Leur formation (dune dure dun an) est rserve aux instituteurs ou
professeurs des coles, titulaires dune licence de psychologie. Les Conseillers
dorientation-psychologues (COP) interviennent dans les tablissements
denseignement secondaire et dans le suprieur, ainsi que dans les Centres
dInformations et dOrientation (CIO). Le recrutement, sur concours, est
ouvert aux titulaires dune licence de psychologie et la formation dure
ensuite deux ans. Dans ces deux formations des enseignements significatifs
portent sur lvaluation psychologique, les tests et lexamen individuel.
Nous prsenterons plus loin quelques lments descriptifs des activits
professionnelles des COP dans le domaine de lvaluation des personnes.
La formation continue
Le psychologue est tenu de maintenir ses connaissances jour et doit pouvoir
bnficier de stages de formations. Les universits et des instituts spcialiss
(comme par exemple lINETOP), mais aussi des cabinets privs ou encore
les diteurs de tests, proposent des formations continues dans le domaine
de lvaluation psychologique. Il peut sagir de formations portant sur des
modles thoriques, sur la pratique dune preuve ou dun groupe dpreuves
(analyse de protocoles, tudes de cas...), ou encore de formations spcifiques
accompagnant la sortie dune nouvelle preuve, ou dune version rnove
(comme par exemple les formations sur le WISC-IV proposes par les ECPA
et lINETOP).
Lapproche par la dfinition de normes et par lanalyse

des comptences des utilisateurs de tests
Nous venons daborder les conditions dutilisation des tests en France et

avons signal que cette possibilit dutilisation reste marque, dans ce pays,
et pour diffrentes raisons, par la distinction entre psychologue et non
psychologue. Dautres pays ont suivi une approche diffrente et se sont
questionns sur les comptences que devrait possder tout utilisateur de
376
tests. Il faut signaler ici le travail important ralis il y a quelques annes

par plusieurs organisations amricaines de psychologues et professionnels de
lvaluation1 , repris et traduit en 2003 par Georges Sarrazin et collaborateurs
(Sarrazin (Ed.), 2003). On peut noter que ce travail de traduction a t
ralis linitiative de lOrdre de conseillers et conseillres dorientation du
Qubec.
Lobjectif de cet ouvrage est de proposer des normes de rfrence pour
toute utilisation des outils dvaluation :
Lobjectif vis par les Normes de Pratiques est de promouvoir une
utilisation valide et thique des tests et de fournir une base lvaluation
de la qualit des pratiques de testing. (p. 1)
Il sagit de proposer la fois des critres dvaluation pour les tests mais
galement des normes dans la pratique de ces instruments de mesure afin
den garantir une bonne utilisation :
Pour tre efficace, le testing et lvaluation requirent de tous ceux qui
participent au processus la possession de connaissances, dhabilets et
daptitudes (p. 2).
Sont ainsi viss les utilisateurs de tests mais galement les concepteurs et
diteurs.
Louvrage est structur en trois parties. Dans la premire, Construction
de tests, valuation et documentation, sont abordes les principales notions
psychomtriques (qui ont t prsentes dans le chapitre 2 de notre livre).
La deuxime, quit en valuation, est relative lanalyse de biais potentiels
dans les tests2 . La troisime partie, Application du testing, est consacre aux
conditions dune bonne utilisation des tests.
Chaque partie est compose de plusieurs chapitres et la fin de chaque
chapitre figure une liste de normes. Prenons quelques exemples afin
dillustrer la dmarche des auteurs :
Norme 1.2, relative la validit des tests (partie I du livre) :
Les concepteurs de tests devraient expliquer clairement la faon
dinterprter et dutiliser les scores dun test. La ou les populations pour
lesquelles le test a t conu devraient tre clairement dlimites et la
1. American Educational Research Association, American Psychological Association, National

Council on Measurement in Education.
2. Lquit tant dfinie comme une absence de biais ou le fait que tous les candidats sont traits
galement dans le processus dvaluation (p. 90).
377
construction mentale que le test est cens mesurer devrait tre dcrite avec
prcision (p. 19).
Norme 10.1, relative lvaluation des personnes prsentant un handicap

(partie II du livre sur lquit) :
Dans lvaluation des personnes handicapes, ceux qui conoivent,
administrent et utilisent les tests devraient prendre toutes les mesures
ncessaires pour garantir que les infrences faites partir des scores
refltent avec exactitude la construction mentale en cause, plutt quun
handicap ou les attributs qui lui sont associs sans rapport avec lobjet de
la mesure. (p. 127).
Norme 11.1, relative la responsabilit des utilisateurs de tests (partie III

du livre) :
Avant dadopter et dutiliser un test publi, son utilisateur devrait analyser
et valuer les documents fournis par son concepteur, particulirement
le matriel qui rsume les objectifs du test, spcifie ses modalits
administratives, dfinit les populations cibles et passe en revue les possibles
interprtations de scores bass sur des donnes fiables et fidles. (p. 136).
Comme nous pouvons le constater, ces normes visent bien lensemble du

processus dvaluation, de la qualit de linstrument de mesure jusquaux
connaissances et comptences que lutilisateur de test doit matriser.
Tout particulirement, cest dans cette dernire partie de louvrage
(partie III) que lon trouve les recommandations (et normes) relatives aux
comptences et qualifications que doit possder tout utilisateur de test. Ainsi,
comme nous lavons dj soulign dans notre ouvrage, lutilisateur de test
doit tre capable dexercer un regard critique, un regard dexpert, sur le test
quil souhaite utiliser :
Quand il slectionne un test, le professionnel fait davantage que revoir le
nom du test ; il fonde sa dcision sur les preuves de validit et de fidlit et
sur lapplicabilit des donnes normatives qui sont disponibles pour ce test
dans la recension de la documentation de recherche. En plus tout fait
vers dans les procdures administratives appropries, le professionnel doit
aussi tre familier avec les preuves de validit et de fidlit spcifiques
lutilisation envisage et avec les objectifs viss par les tests et les inventaires
choisis et doit tre prt dvelopper une analyse logique soutenant les
diffrentes facettes de lvaluation et les infrences qui en dcoulent.
(p. 144).
378
Et cest tout naturellement que ces aspects de lactivit professionnelle

sont mis en relation avec les qualifications de lutilisateur de tests, comme,
par exemple, dans la norme 11.3 (p. 136) :
La responsabilit de lutilisation dun test devrait tre uniquement
assume (ou dlgue) par des personnes formes cette fin, possdant
toutes les comptences professionnelles et lexprience requise pour en
prendre charge. Toute qualification particulire pour administrer ou
interprter le test et spcifie dans le manuel devrait tre respecte.
Ce travail de rflexion, et de propositions de normes, trs intressant, ne

semble pas tre (trs) connu en France. Un autre document international,
et cest lobjet de la partie suivante, a fait lobjet dune plus large diffusion.
Les recommandations internationales sur lutilisation des tests
La Commission Internationale des Tests (International Test Commission) a

publi en 2000 des Recommandations internationales sur lutilisation des
tests . Ce document (31 pages) a fait lobjet dune adaptation en langue
Franaise, diffuse en juin 2003 par la SFP1 (dans le cadre dun numro
spcial hors srie de la Revue Pratiques Psychologiques) et disponible sur
son site internet (www.sfpsy.org). Nous ne prsenterons ici que quelques
extraits de ce document que le lecteur intress pourra trouver en annexe de
cet ouvrage.
Ces recommandations ont t labores partir de lanalyse de diffrents
documents relatifs aux tests : le travail sur les recommandations a dbut
en rassemblant les documents se rapportant aux normes sur les tests, codes
de dontologie, dutilisation de tests, etc., dans un grand nombre de pays
(p. 10).
Les Recommandations comportent de 3 parties :
1) Les recommandations gnrales (p. 13-16) ;
2) Les recommandations concernant un usage thique des tests (p. 17-18),
[agir de faon professionnelle et thique, sassurer de ses comptences, prendre ses
responsabilits dans lutilisation des tests, scurit du matriel, confidentialit
des rsultats] ;
3) Les recommandations pour assurer une pratique correcte dans lutilisation des tests (p. 19-24) [estimer lintrt ventuel dune utilisation des tests
1. Socit Franaise de Psychologie, qui est lune des associations professionnelle franaise de
psychologues.
379
dans une situation dvaluation donne, choisir des tests techniquement fiables
et appropris la situation, sassurer de labsence de biais, faire les prparations
requises pour la sance de tests, administrer les tests de manire approprie,
corriger et analyser les tests avec exactitude, interprter les rsultats de manire
approprie, communiquer les rsultats clairement et prcisment aux personnes
concernes, contrler ladquation du test et de son utilisation].
Les objectifs de ce texte rejoignent les objectifs du travail sur les normes
que nous venons de prsenter. En effet, il sagit de promouvoir une
bonne utilisation des tests et dencourager des pratiques exemplaires dans le
domaine de lvaluation (p. 9). Mais ici le but ultime nest pas de dfinir
des normes mais plutt de lister les comptences que devrait possder tout
utilisateur de test : le but long terme de ce projet comprend la production
dun ensemble de recommandations qui se rapportent aux comptences
(connaissances, capacits, savoir-faire et autres caractristiques personnelles)
requises des utilisateurs de tests. Ces comptences sont dfinies en terme de
critres de performances valuables. (p. 10).
On trouve ainsi une liste de connaissances et comptences que devrait
possder tout utilisateur de test :
Connaissances dclaratives pertinentes

Connaissances des principes et procdures de base de la psychomtrie,
et des exigences techniques des tests (par exemple, fidlit, validit,
standardisation) ;
Connaissance suffisante des tests et de la mesure, pour permettre une
comprhension approprie des rsultats des tests ;
Connaissance et comprhension des thories pertinentes et des modles
des aptitudes, de la personnalit et dautres construits psychologiques
ou de la psychopathologie, autant que ncessaire pour sinformer sur le
choix des tests et linterprtation des rsultats ;
Connaissance des tests et des fournisseurs de tests dans le secteur
dapplication o lon intervient.
Connaissances pratiques et comptences
Connaissances et comptences relatives aux procdures spcifiques
dvaluation ou aux instruments, y compris lutilisation des procdures
dvaluation assiste par ordinateur ;
Connaissances spcialises et comptences pratiques ncessaires pour
une bonne utilisation des tests situs lintrieur du rpertoire doutils
dvaluation de chacun ;
380
Connaissances et comprhension de la ou des thorie(s) sous-jacente(s)

aux scores au test, lorsque cest important si lon veut tre en mesure de
tirer des infrences valides partir des rsultats au test.
Ces Recommandations, fortes intressantes aussi bien pour la pratique des
tests que pour lenseignement, et malgr leur diffusion par la SFP, semblent
pourtant assez mconnues des praticiens...
Enfin, nous pouvons galement citer une version de ces Recommandations
concernant les tests informatiss et les tests sur internet disponible galement
sur le site de la SFP.
2.
La pratique des tests
Quelques rappels
Avant daborder plus concrtement les principales tapes de la pratique de

tests il nous semble ncessaire de rappeler un certain nombre de points
importants, que nous avons dj abords dans les chapitres prcdents mais
que nous avons souhait regrouper ici car ils conditionnent la fiabilit dune
pratique valuative. Ils concernent : le manuel du test, lerreur de mesure, la
notion de biais, ltalonnage, les tests informatiss et les tests en ligne.
Le manuel du test
Comme nous lavons dj indiqu plusieurs reprises, tout test doit tre
accompagn dun, ou de plusieurs, manuel(s). La consultation du manuel
est trs importante et une premire information sur la qualit probable
du test pourra tre infre partir de lpaisseur de celui-ci : en effet
certains manuels sont trs minces alors que dautres sont plus consquents,
avec parfois sparation en plusieurs volumes. Cest le cas par exemple du
WISC-IV qui propose deux manuels : un manuel pour la passation et la
cotation et un manuel pour les qualits psychomtriques et linterprtation
des rsultats (voir prsentation de ce test dans le chapitre 3 de ce livre).
Que doit comporter un manuel ? Bien entendu le psychologue va y trouver
toutes les indications utiles pour la passation et la cotation de lpreuve
(consignes, temps, matriel, talonnages...). Il peut y trouver galement des
aides pour linterprtation des rsultats (comme par exemple des tudes de
381
cas). Enfin il doit y trouver toutes les tudes relatives lexprimentation de

lpreuve et lanalyse de ses qualits psychomtriques.
Le psychologue doit conserver un esprit critique sur les informations
contenues dans les manuels et, par exemple, tre capable de cerner les intrts
mais aussi les limites du test quil compte utiliser partir de lanalyse de ces
informations.
Il pourra ventuellement complter les donnes du manuel par dautres
sources dinformations comme, par exemple, les ouvrages et publications
spcialiss. On peut indiquer ce propos la diffusion rgulire dun cahier
outils, mthodes et pratiques professionnelles en orientation dans la
revue LOrientation Scolaire et Professionnelle destin prsenter un outil,
une mthode ou une pratique daide lorientation et dans lequel figure
rgulirement la prsentation de tests et/ou de pratiques dvaluation.
Lerreur de mesure
Il convient toujours de se rappeler que le score observ (la mesure) nest
quune estimation du score vrai du sujet. Comme nous lavons indiqu, il
est possible destimer cette erreur de mesure (le manuel comporte souvent une
rubrique ce propos), certains tests incitant mme fortement le psychologue
encadrer chaque score obtenu dun intervalle de confiance (voir par
exemple les chelles de Wechsler).
Si lon ne souhaite pas, pour diffrentes raisons, procder ce calcul,
il faut, au minimum, prendre en compte lerreur de mesure de manire
plus qualitative dans lanalyse des rsultats, en relativisant par exemple la
caractrisation des performances du sujet par un seul score talonn (et tout
particulirement lorsque le score brut du sujet est proche du seuil qui spare
deux scores talonns).
Les biais
Bien que lanalyse des biais dans les tests soit de plus en plus frquente, elle
reste le plus souvent assez superficielle (Vrignaud, 2002a). Le psychologue
devra toujours sinterroger sur les biais potentiels dutilisation dune preuve
sur un sujet, ou un groupe de sujets, particulier. Il sera, par exemple, attentif
au vocabulaire contenu dans lpreuve (est-il connu de tous les sujets ?), aux
aspects culturels, et sociaux, qui pourraient avoir une influence, dans un
sens comme dans lautre, sur les rsultats des sujets (connaissance a priori
382
de certains aspects du test ? familiarit avec la situation dvaluation ?), aux

modalits de prsentation des items, et aux modalits de rponse...
Les talonnages
Rappelons ici quil est indispensable de sinterroger sur ltalonnage, en
particulier sur la date de recueil des donnes (effet Flynn), mais galement
sur la composition de lchantillon des sujets de ltalonnage (C.S.P, sexe...).
Un examen minutieux de ces lments permettra destimer dans quelles
limites la comparaison des rsultats dun sujet avec la population de rfrence
de ltalonnage est adapte.
Rappelons galement quil est parfois possible dobtenir des talonnages
supplmentaires (postrieurs la publication du manuel par exemple) auprs
de lditeur du test.
Les tests informatiss et les tests en ligne sur internet

Depuis quelques annes un vritable march sest ouvert dans le domaine des
tests en ligne. Par exemple en entrant test dintelligence sur un moteur
de recherche, on obtient 383 000 rponses !!! Il ne sagit pas bien entendu
de 383 000 tests dintelligence : dans un certain nombre de cas il sagit de
sites 1 qui proposent des passations gratuites de tests, ou dun prix modique
(quelques euros...), mais avec, le plus souvent, un supplment si lon
souhaite recevoir un compte rendu de la passation.
La qualit scientifique de ces tests est trs variable. Il peut sagir de
tests semblables ceux que lon trouve dans des magazines, plus conus
pour distraire le lecteur que pour valuer rellement ses carctristiques. Ce
sont alors des tests souvent trs courts (peu ditems) et prsents de faon
trs attrayante. Ils tmoignent souvent, comme lobserve Gaudron, dune
imagination inversement proportionnelle la validation scientifique
(Gaudron, 2008).
Lvaluation par les tests en ligne peut prsenter une relle solution pour
les entreprises et les particuliers en raison de la souplesse et de lconomie de
temps que reprsente ce mode de passation. Nanmoins, force est de constater
qu ce jour, dans la plupart des cas, on ne dispose daucune information
fiable sur les preuves proposes, sur leur validit, sur les comparaisons
1. Il peut sagir galement de blogs personnels, et enfin, plus rarement, de liens avec de rels diteurs
de tests.
383
ventuellement effectues avec un groupe de rfrence (talonnages...). Cest

lun des points soulevs par Gaudron (1999 et 2008) qui liste un certain
nombre de problmes spcifiques poss par les procdures automatises
dvaluation, dont les tests en ligne.
Pour les tests informatiss, en ligne ou non, les mmes problmes peuvent
tre soulevs. Il faut ici distinguer les versions informatises de tests connus,
dj diffuss par des diteurs de tests, des tests proposs par des entreprises
et/ou des cabinets et/ou sur internet dont on ignore, bien souvent, lorigine.
Il faut rappeler par exemple, quun test informatis doit prsenter les
mmes qualits quun test papier-crayon et donc tre accompagn
dun manuel... ce qui nest pas toujours le cas dans certaines preuves
informatises utilises ou utilisables, par exemple, dans le domaine de
la gestion des ressources humaines (qui reste lun des grands marchs
actuels de lvaluation...). On ne peut quinciter le psychologue une grande
prudence dans ce domaine.
Il doit exercer son regard critique sur les informations communiques
relatives aux qualits psychomtriques du test (et a fortiori sur leur absence !)
afin destimer la fiabilit de lpreuve quon lui propose.
Un document diffus sur le site de la SFP et relatif aux Recommandations
Internationales sur les tests informatiss ou les tests distribus par internet
peut tre dune grande aide sur le sujet.
En cas dinterrogation sur la fiabilit dun test informatis, et/ou en ligne,
le psychologue peut galement consulter la commission des tests de la SFP.
La pratique des tests : de lanalyse de la demande

la restitution des rsultats
Dans une pratique dvaluation, nous pouvons distinguer plusieurs tapes

entre la phase de rflexion sur la demande jusqu la phase de restitution
des rsultats :
1. Rflexion sur la demande et sur la pertinence dutiliser des preuves
standardises
2. Choix les preuves adaptes,
3. Entretien pralable avec le sujet,
4. Passation des preuves,
5. Cotation,
6. Interprtation des scores,
7. Prparation de la restitution,
384
8. La restitution orale,
9. La restitution crite (le compte rendu).
Bien entendu cette dcomposition en 9 tapes nest quune des possibilits
de rendre compte des diffrentes phases dune pratique valuative et doit
tre adapte au contexte de lvaluation (situation de slection, de conseil,
dexpertise...). Le plus important, quel que soit le nombre des tapes, est de
prendre le temps daborder tous ces aspects.
Rflexion sur la demande et sur la pertinence dutiliser des preuves

standardises
Rappelons que lutilisation de tests se situe dans une pratique globale de
psychologue et quil est ncessaire, avant toute intervention, danalyser
la situation. Cest lune des distinctions probables entre une pratique
(valuative) dun psychologue (pour qui lanalyse de la demande est
essentielle) et une pratique valuative dun non psychologue (qui aura
tendance rpondre directement la demande exprime). Pour tenter de
comprendre tous les lments de la demande le psychologue peut (doit)
se poser les questions suivantes : Quelle demande est exprime ? Exprime
par qui ? Dans quels termes ? Reprer la demande explicite et lventuelle
demande implicite, la demande institutionnelle... Le plus souvent la simple
question qui devrai-je prsenter les rsultats ? , permet de reprer le rel
demandeur !
Le psychologue peut ainsi sparer la commande de la demande : un
premier niveau danalyse doit sappuyer sur la distinction classique des
psychosociologues entre la commande, le besoin qui est explicitement
exprim, et la demande, qui pose le vritable problme et dont la personne a
plus ou moins conscience (Guillevic et Vautier, 1998, p. 19).
La (ou les) demande(s) tant prcise(s), et claircie(s), le psychologue doit
alors se positionner, en tant que professionnel par rapport cette demande :
dans quelle mesure peut-il y rpondre ? Comment ? Dans quelles limites ?
Il peut se rfrer ici, si ncessaire, au code de dontologie.
Puis il doit cerner lintrt dutiliser des preuves standardises pour
rpondre au problme pos : que vont apporter de plus, et/ou de spcifique,
ce ou ces preuves ? Et quels lments du problme ne seront ventuellement
pas pris en compte par ces preuves ? Il sagit bien ici de cerner les limites
de lutilisation de tests.
385
Cette phase danalyse de la demande est essentielle car elle permet, bien
souvent, de rvler la complexit dun problme prsent comme une simple
valuation.
Choisir les preuves adaptes

Ce nest quune fois que le problme sera correctement pos, et que
lune des solutions envisages consistera utiliser une ou plusieurs
preuves, quil faudra dterminer le(s) type(s) dpreuve et leur nombre.
La, ou les, preuve(s) sera/seront adapte(s) 1 au problme pos, 2 aux
caractristiques du sujet1 (ge, sexe, niveau dtude...).
Pralables : la connaissance des preuves existantes et leur possibilit
daccs. Par exemple, si le psychologue ne dispose dans sa structure que dun
nombre limit dpreuves, cet lment limite de fait le champ des possibles.
Le psychologue questionnera galement son degr de connaissance, et de
matrise, de ou des preuves envisages.
Entretien pralable avec le sujet

Toute passation de tests doit tre prcde dun entretien avec le sujet. Le
psychologue va ainsi sassurer que la personne est bien consentante pour
une passation de test (en particulier lors dune procdure de recrutement...)
et va recueillir des informations sur lexprience ventuelle du sujet dans ce
domaine (a-t-il dj pass des tests ? dans quelles conditions ? ...).
Lors de cet entretien seront galement voqus les objectifs de la passation,
les modalits de passation, le type de tche rsoudre...
Le psychologue devra tre conscient que la majorit des personnes a
souvent beaucoup dapprhension par rapport aux tests2 et fera en sorte de
prparer du mieux possible le sujet la passation (dans les limites dfinies
dans le manuel du test). Bernaud parle ainsi de pratiques de testage
ouvert qui consiste fournir aux participants, quelque temps avant la
sance dvaluation, des informations sur son contenu et les moyens de sy
prparer (2007, p. 87).
On peut rappeler lexistence dun dispositif, assez rare, que lon trouve
dans la version APM des Matrices Raven : la possibilit de proposer au sujet
1. Il faut toujours sinterroger ds cette tape sur les talonnages disponibles.
2. Et dautant plus quand il y a des enjeux, comme par exemple, laccs un emploi ou une
formation...
386
une srie ditems (un livret dapprentissage), srie non value qui servira
de prparation la passation de lpreuve proprement dite (voir dans le
chapitre 4 de ce livre la prsentation de la version APM des Matrices de
Raven).
Si lon pousse ce dispositif lextrme, nous nous retrouvons dans
des situations proches de celles proposes dans le cadre dune valuation
dynamique (voir chapitre 7 de ce livre).
Passation des preuves

Avant la passation, le psychologue prpare le matriel ncessaire, en quantit
suffisante (en cas de passation collective...).
Lors de la passation des exemples, il est attentif aux ventuels problmes
de comprhension des consignes, de report des rponses du sujet... Il sagit
de crer ce que lon dsigne par une relation positive (Bernaud, 2007, p. 88),
propice au bon droulement du test et limplication du sujet : qualit de
laccueil du sujet, information claire et objective sur les procdures...
Pour la passation du test, le psychologue respecte scrupuleusement les
consignes du manuel (le matriel, lattitude du psychologue, les consignes, les
exemples, le temps de passation...) de manire garantir la standardisation.
Tout en restant dans les limites de celle-ci, il doit sassurer de la bonne
comprhension, par le sujet, de la situation globale de la passation.
Il observera, si possible, la conduite du sujet pendant la passation :
hsitations, lassitude, niveau de motivation, implication1 , dcouragement,
comportement face la difficult (surtout dans les items difficiles), rapidit
globale dexcution, temps de passation... Ces observations seront plus faciles
raliser dans le cadre dune passation individuelle ou en petit groupe. Elles
seront ventuellement reprendre avec le sujet dans la phase de la restitution
des rsultats ( il ma sembl que vous avez hsit tel moment... que vous vous
tes un peu dcourag en fin dpreuve... avez-vous manqu de temps ? ) et
pourront galement tre utiles dans la phase dinterprtation des rsultats.
1. Essayer de reprer les rponses visiblement donnes au hasard (par exemple : cochage systmatique
des rponses en ligne ou en colonne...).
387
Cotation des preuves

Calcul des scores bruts
Pour la cotation du protocole des rponses du sujet, il faut suivre les

indications du manuel. On accorde gnralement 1 point pour chaque
bonne rponse ( vrifier dans le manuel).
Au pralable le psychologue aura analys la validit du protocole en
vrifiant :
labsence de rponses systmatiques au hasard (par exemple des rponses
situes systmatiquement en ligne ou en colonne...) ;
la concordance entre rponses du sujet et items : vrifier que le sujet ne
sest pas tromp dans le report de ses rponses (attention aux dcalages
ventuels des rponses du sujet par rapport aux items...). En cas de
doutes il est conseill de reprendre quelques items loral afin de vrifier
labsence de biais ce niveau ;
les ventuelles observations du sujet pendant la passation (implication...).
Les scores talonns
Le psychologue slectionne le, ou les, talonnages les plus adapts et

transforme les scores bruts en scores talonns.
Il doit tre attentif lerreur de mesure, tout particulirement quand le
score brut du sujet se situe proximit dun seuil qui spare deux catgories
de notes talonnes (dans ce cas il peut tre prfrable de situer le sujet sur
ces 2 scores talonns).
Interprtation des scores

Avant dinterprter les scores talonns le psychologue doit analyser le ou
les talonnages disponibles (description de lchantillon dtalonnage, date
de ltalonnage, rpartition selon le sexe, la CSP...) de manire vrifier
la fiabilit des comparaisons, et des ventuelles gnralisations, quil va
effectuer. Il convient toujours de limiter les conclusions sur le niveau de
performance dun sujet aux caractristiques de la population dtalonnage.
Par exemple, si lon observe de bons rsultats la batterie NV7, il faut
considrer que ce ne sont pas des bons rsultats dans labsolu mais de bons
rsultats relatifs aux caractristiques de la population dtalonnage, qui est
ici peu qualifie...
Si lon dispose de plusieurs scores, linterprtation suit gnralement le
principe suivant : partir des scores les plus gnraux (le score total) et aborder
388
ensuite les scores les plus spcifiques (notes aux diffrentes sous chelles,
voire scores certains subtests).
Quest-ce que chaque score reprsente ? Le manuel doit fournir des
informations sur ce point. Il faut ici revenir vers le modle thorique de
rfrence (par exemple le facteur g sil sagit dun test de ce type) afin
de situer la performance observe dans un cadre thorique plus large. Il
faut galement prendre en compte les ventuelles spcificits de lpreuve
(type ditems, type de rponse, temps libre ou limit...) qui donnent une
coloration de ce qui est plus prcisment valu par lpreuve utilise. Il
peut tre intressant ce propos de distinguer la comptence (ce que lon
cherche mesurer) de la performance (mesure ralise dans un contexte
prcis, avec un certain test...) pour aborder les limites de la gnralisation
de ce qui a t valu.
Enfin, il faut mettre en relation les rsultats observs et ce que lon connat,
par ailleurs, du sujet (exprience, qualification, mtiers exercs, projets...) :
quels sont les rsultats concordants ? Les rsultats discordants ? Quels sont
les ventuels dcalages ?...
Analyse des erreurs ?
Il peut tre parfois utile de procder une analyse des erreurs en reprant
quels sont les items chous et en essayant den comprendre la cause. On
peut ainsi envisager de revenir sur ces checs lors de lentretien de restitution,
afin de tenter de mieux comprendre le raisonnement du sujet.
On peut galement distinguer labsence de rponse dune rponse fausse.
Il peut sagir galement de reprer les absences de rponse en distinguant
celles situes en cours dpreuve (assimilables un chec) de celles situes
en fin dpreuve (attribuables, au moins en partie, un manque de temps
dans le cas dpreuve temps limit). Il peut tre intressant par exemple
de confronter le sujet aux items quil na pas eu le temps daborder lors
de la passation de lpreuve afin destimer sa capacit rsoudre les items
situs en fin dpreuve, qui sont souvent les plus difficiles. Bien entendu,
on ne tiendra pas compte de ses ventuelles russites supplmentaires dans
son score, car elles se situent hors limites de temps, mais ces informations
peuvent tre utiles. Rappelons ce propos que certaines preuves proposent
des talonnages avec passation en temps libre (par exemple les Matrices de
Raven).
389
Prparation de la restitution
Avant de sengager dans la phase de restitution proprement dite, un

pralable indispensable consiste :
sassurer que le bnficiaire a pass les preuves dans de bonnes
conditions ;
linterroger sur lintrt induit par les preuves ;
concevoir et proposer des mthodes susceptibles de laider comprendre
les rsultats, se les approprier, y ragir de faon argumente et, enfin,
en faire la synthse. (Blanchard et al., 1999, p. 287.)
Il sagit donc, avant de communiquer les rsultats au sujet, de vrifier

certaines conditions de validit (condition de passation, niveau dimplication...) mais aussi, et cest lobjet de cette partie, de prparer la restitution
en fonction des objectifs proposs par ces auteurs et en particulier de
faire en sorte que le sujet 1) comprenne ses rsultats, 2) se les approprie.
Cette approche de la prsentation des rsultats est assez rcente et concerne
principalement lutilisation de tests dans le cas de dmarche de conseil et/ou
de bilans. Dans ces contextes dutilisation, limportance de cette phase de
restitution (on parle aussi de rtroaction) sest considrablement dveloppe
ces dernires annes. En effet, avec le dveloppement des pratiques de
conseil, lobjectif principal des valuations sest progressivement modifi et
vise maintenant, en totalit ou en grande partie, amliorer la connaissance
de soi des individus. Cest le cas, par exemple, dans les pratiques de bilans de
comptences o lon cherche alors dvelopper la connaissance du sujet sur
ses aptitudes, ses intrts, ses traits de personnalit... Lobjectif final tant
de lui permettre de mieux faire ses choix dorientation.
Do un intrt de plus en plus vif, dans les pratiques comme dans les
recherches, pour cette phase de lvaluation. Mais dans la majorit des
cas cet intrt se porte sur les questionnaires de personnalit ou de choix
dactivits professionnelles (les questionnaires dintrts) et non sur les
tests dintelligence. On trouve, par exemple, dans louvrage de Bernaud et
Vrignaud de 2005, consacr lvaluation des intrts professionnels, une
prsentation de plusieurs mthodes de restitution des rsultats.
Par contre, peu dtudes ou de recherches portent sur la restitution
des rsultats des tests dintelligence logique. Pourquoi ? Lune des pistes
explicatives tient peut-tre au fait que les questionnaires dintrt sont plus
frquemment utiliss dans les pratiques de conseil que ne le sont les tests
dintelligence. Peut-tre aussi quil y a plus dlments restituer dans un
tel questionnaire que dans une preuve de performance.
390
Nanmoins, certains manuels donnent des indications sur cette phase de

restitution. Cest par exemple le cas de la batterie NV7 (voir la prsentation
de ce test dans le chapitre 5 de ce livre). Le psychologue pourra donc sinspirer
des ventuelles informations des manuels pour prparer la restitution.
Nous allons prsenter ici quelques lments gnraux concernant la
restitution des rsultats. Ces lments sont particulirement adapts une
pratique dvaluation destine accompagner le sujet dans une dmarche
de rflexion sur lui-mme.
Quelle que soit lpreuve, dans la phase de prparation de la restitution le
psychologue doit se poser les questions suivantes :
Quoi dire ?
Cerner lessentiel, et le superflu en fonction, dune part, des capacits du
sujet prendre en compte ces informations, dautre part, des objectifs de
lvaluation.
Comment le dire ?
Moduler les modalits de restitution, et le vocabulaire utilis, en fonction
des caractristiques du sujet.
Comment faciliter la comprhension des rsultats par le sujet ?
Il faudra ventuellement envisager de revenir sur lpreuve (ce quelle
mesure ? comment elle le mesure ?), en reprenant ventuellement des
exemples ditems. Prciser galement ce que le test ne prend pas en compte
(ses limites).
Dans la mesure du possible il peut tre pertinent de trouver (ou de faire
trouver) des liens entre ce qui est valu par le test et des situations de la vie
quotidienne et/ou professionnelle du sujet.
Enfin, on peut inciter le sujet reformuler avec ses propres mots les
points les plus importants qui ont t abords dans la restitution (linciter
prendre des notes par exemple...).
Comment aider le bnficiaire de lvaluation grer cette nouvelle
information sur lui-mme ?
Le rsultat un test dintelligence logique, surtout lorsquil a donn lieu au
calcul dun QI, prsente, quon le veuille o non, des enjeux de comparaison
sociale. Il convient de prendre en compte cette dimension et daider le sujet
bien la grer. Cela dpasse proprement parler la phase dvaluation et de
comprhension de celle-ci par le sujet, et concerne les consquences pour
lui-mme de cette valuation. Un accompagnement de la personne sur ce
point peut ventuellement ncessiter un rendez-vous ultrieur.
Le point essentiel ici est le suivant : il faut que la restitution soit adapte au
sujet, ses caractristiques personnelles (ses capacits de comprhension, son
391
niveau de langage...), lobjectif de lvaluation (pourquoi a-t-il demand ou

accept de passer ces tests ? quelles sont ses attentes ?), ainsi qu sa situation
personnelle.
Il faut galement que la restitution soit adapte au psychologue : chacun
a son propre style, ou doit le trouver. Par exemple, certains psychologues
peuvent utiliser des schmas, des illustrations partir de courbes de Gauss
(par exemple pour faire comprendre la notion dtalonnage...) tandis que
dautres seront plus laise dans des explications verbales...
On ne peut que conseiller au psychologue de rechercher (et de trouver)
son style, de crer ses propres outils de restitution en laborant, par exemple,
quand il nexiste pas, un cahier (ou livret) de restitution pour le sujet quil
compltera lui-mme au fur et mesure de la prsentation de ses rsultats.
Le psychologue doit laisser la place, dans cette phase de restitution,
lexpression par le sujet du vcu de sa passation : a-t-il t surpris par
lpreuve ? A-t-il rencontr des difficults ? Que peut-il dire, aprs coup, de
cette situation de passation ?
Dans la mesure du possible on envisagera une restitution dynamique ,
pour le sujet, dans laquelle il pourra commenter les rsultats prsents par le
psychologue, les questionner voire les contester. En effet, il est souvent plus
clairant et plus dynamisant dinviter le bnficiaire commenter et tayer
ses rsultats, voire sopposer ceux-ci lorsquils semblent contredire un
aspect de sa personnalit ou de ses comptences (Bernaud, 2000, p. 101).
La situation de restitution doit tre conue comme une situation de
communication, dchange (Gudon et Savard, 2000) et non pas comme
(uniquement) un discours dexpert.
Enfin, il faut toujours prvoir lavance les ventuelles traces, les ventuels
documents, que le sujet va (peut) conserver de sa passation et de ses rsultats.
Une rgle gnrale consiste ne jamais laisser la feuille de passation au
sujet. En effet, pour des motifs de respect des rgles de copyright mais
galement pour des raisons dontologiques, il nest pas possible que le sujet
reparte avec un exemplaire du test. Par contre, plusieurs possibilits de
conservation des traces de ses rsultats sont possibles allant des simples notes
prises par le sujet lui-mme au cours de lentretien au cahier de restitution,
disponible avec certains tests (ou ventuellement labor par le psychologue).
Le droulement de la restitution orale

La restitution est le plus souvent individuelle mais on peut envisager, au
moins certains moments, une phase collective (en petit groupe).
392
La restitution doit se drouler comme le psychologue la prvu (cf. la

partie prcdente) tout en sadaptant aux ractions du sujet : une certaine
souplesse est ncessaire !
Elle peut suivre le plan suivant :
1. Rappel des objectifs de lvaluation,
2. Prsentation des bases thoriques de lpreuve utilise : ce quelle mesure ;
comment elle le mesure (rappels des caractristiques des items...) ; les
indicateurs quelle permet de calculer (le ou les scores)...
3. Prsentation de la notion dtalonnage et de comparaison un groupe
de rfrence,
4. changes sur les conditions de passation
5. Recueil ventuel des reprsentations a priori du sujet par rapport ses
rsultats : comment pense-t-il quil va se positionner ?
6. Prsentation des rsultats
7. Confrontation entre les rsultats du test et les reprsentations a priori
du sujet
8. Bilan de lvaluation par rapport aux objectifs de dpart et analyse de
ses consquences.
On peut terminer lentretien de restitution en demandant au sujet ce
quil a retenu de lentretien, ce qui lui semble le plus important, et/ou le
plus surprenant... On pourra ainsi reprer quelles informations il a retenu
(slectionn) et quelles informations ne lui semblent pas essentielles... On
peut aussi se rendre compte des ventuelles erreurs dinterprtation des
rsultats, des points reprendre avec lui, de suite ou dans le cadre dun autre
rendez-vous.
Enfin, il convient de replacer lvaluation dans la problmatique gnrale
du sujet : le test comme lune des tapes dun processus daccompagnement.
La restitution crite (le compte rendu)

Dans la plupart des cas, le psychologue va rdiger un compte rendu crit. La
premire question se poser concerne le destinataire de ce document : est-ce
un document de travail pour le psychologue qui ne sera pas communiqu
un autrui ? Est-ce un document pour le principal intress ? Pour une
institution ? Pour un tiers lorigine de la demande ? Pour un autre
psychologue ?...Qui demande un compte rendu crit, et pourquoi ?
393
Le psychologue peut ainsi tre amen rdiger plusieurs comptes

rendus diffrents, plus ou moins toff, dun mme cas en fonction
des destinataires, en adaptant la fois la forme et le fond. Il doit galement
prciser, au dbut du document, quel est le destinataire et quelles sont les
limites de diffusion de ce document.
Enfin, il doit dater et signer tout document quil est amen rdiger.
Lun des rgles du psychologue tant le respect de la confidentialit, le
praticien devra faire preuve de prudence et de rflexion dans ses crits.
On peut retrouver cette rgle de base dans le code de dontologie des
psychologues : les documents manant dun psychologue (attestation,
bilan, certificat, courrier, rapport...) portent son nom, lidentification de
sa fonction ainsi que ses coordonnes professionnelles, sa signature et la
mention prcise du destinataire. Le psychologue naccepte pas que dautres
que lui-mme modifient, signent ou annulent les documents relevant de
son activit professionnelle. Il naccepte pas que ses comptes rendus soient
transmis sans son accord explicite, et il fait respecter la confidentialit de
son courrier (chapitre 2, article 14).
Dans le cas dun document usage interne, le psychologue runit les
diffrentes informations concernant le sujet pour laborer un dossier
dexamen psychologique de la personne. Dana Castro rappelle que ce
dossier est la proprit du psychologue (Castro, 2006, p. 473).
Pour les autres types de comptes rendus, le contenu peut ventuellement
tre discut avec le sujet : quelles informations nous a-t-il confies (par
exemple dans la phase danalyse des rsultats ou lors dun entretien...) et
quil ne souhaite communiquer autrui ?
Quelles informations communiquer dans un compte rendu crit ?
Comme nous venons de lindiquer, ces informations vont dpendre du

destinataire mais on peut prciser ici ce qui nous semble tre la base de tout
compte rendu crit :
Indiquer le ou les objectifs de lvaluation (clarification de la demande) ;
Prciser toujours les preuves utilises (et les situer rapidement dans un
cadre thorique... avec les limites ventuelles de ce cadre...), les talonnages consults (date dlaboration et caractristiques des populations
dtalonnage...) et les ventuelles limites de comparaison compte tenu
des caractristiques de la personne value ;
Situer les rsultats du sujet (sans oublier la notion derreur de mesure) ;
Nuancer ventuellement ces rsultats en fonction dindications cliniques
releves durant la passation (motivation, arrts, comportement face
394
la difficult...) et/ou dinformations sur le sujet (exemple : niveau

dexprience par rapport aux tests ...).
Terminer le compte rendu en articulant les rsultats aux autres informations recueillies sur le sujet (rsultats plus ou moins en accord avec ce qui
tait attendu en fonction, par exemple, du niveau dtude du sujet et/ou
de son exprience professionnelle...) et en analysant de quelle manire les
rsultats rpondent lobjectif de dpart.
Enfin, il peut tre pertinent de dire quelques mots sur la restitution orale :
comment le sujet a-t-il ragi ? Ses remarques, son degr daccord ou de
dsaccord avec les rsultats, avec les interprtations proposes ? Les limites
ventuelles de comprhension de ses rsultats ?...
3.
Exemples de contextes dutilisation des tests

dintelligence logique
Comme nous lavons indiqu dans lintroduction de ce chapitre, les
tests dintelligence sont utiliss dans plusieurs secteurs dactivit : lcole,
lentreprise, lhpital, le tribunal... Il est impossible de dresser un panorama
exhaustif de ces contextes dusages. Nous ne prsenterons donc ici que
certains dentre eux qui nous semblent tre les plus reprsentatifs : le systme
ducatif, le recrutement et les ressources humaines, les pratiques plus actuelles
de conseil tout au long de la vie, et enfin, le secteur de la formation.
Dans le systme ducatif
Dans lenseignement public, il existe les psychologues scolaires, qui

interviennent auprs dlves scolariss dans lenseignement lmentaire, et
les Conseillers dorientation-psychologue, qui interviennent principalement
dans lenseignement secondaire.
Les activits des psychologues scolaires1 concernent un public denfants et
ne correspondent donc pas lobjet principal de cet ouvrage relatif aux tests
utilisables auprs dadolescents et dadultes. Par contre, nous voquerons
1. Pour une prsentation des psychologues scolaires le lecteur peut consulter Cognet (2006).
395
les activits des conseillers dorientation-psychologues1 (C.O.P) qui sont

amens utiliser des tests dintelligence auprs dadolescents et dadultes.
Il sagit principalement des situations suivantes :
1. Dans le cadre de leur activit daide lorientation, de conseil auprs

de publics scolaires, ils peuvent utiliser des tests dintelligence logique
comme un outil daide la connaissance de soi : identifier ses points
forts, ses atouts... mais aussi ses faiblesses... Le COP peut utiliser ici des
tests collectifs comme les batteries factorielles (rappelons que la DAT5
propose des talonnages pour les collgiens et les lycens) mais galement
des preuves de type facteur g.
2. Alerts par les quipes pdagogiques des tablissements scolaires au sujet
dlves en difficult, ils peuvent galement procder une valuation
des capacits cognitives, complmentaire aux valuations scolaires.
Cest le cas, par exemple, dlves de 6e en grande difficult scolaire
et pour lesquels, aprs le plus souvent un redoublement, lquipe
pdagogique envisage une orientation vers un enseignement adapt.
La loi de 2005 sur le handicap a modifi la procdure dorientation
vers ce type denseignement. Un dossier doit tre transmis une
commission dpartementale dorientation, dossier devant comporter
un bilan psychologique tabli par le C.O.P (circulaire n 2006-139
relative aux enseignements adapts dans le second degr). Ce bilan,
prcise la circulaire, doit tre tay explicitement par des valuations
psychomtriques . Le plus souvent les COP utilisent alors une chelle
dintelligence, comme le WISC, qui permet lestimation dun Q.I. En
de dune certaine valeur de Q.I (gnralement autour de 70/75), et en
fonction dautres informations complmentaires, le COP peut proposer,
dans les conclusions de son bilan, une telle orientation. Mme si la
notion de Q.I fait actuellement dbat en France (voir par exemple
larticle Gare au Q.I, publi dans Le journal des psychologues, n 230 de
septembre 2005), la rfrence ce type dindicateur est encore dusage
largement majoritaire dans ces situations.
3. Un autre usage des tests, reposant sur les mmes preuves et sur le
mme type dindicateur (Q.I), concerne le diagnostic des lves
dits surdous ou intellectuellement prcoces . Si un enfant
prsente des signes dun possible surdouement , les parents (voire les
enseignants) peuvent demander au conseiller dorientation-psychologue
1. Pour une prsentation plus complte : Huteau (2006).
396
de procder un examen individuel afin dtablir un diagnostic sur ce

plan. L encore, cest essentiellement les chelles de Wechsler qui seront
utilises1 . Mais rappelons que lindice de Q.I nest pas lui seul suffisant
pour diagnostiquer une prcocit mentale (voir les lments que nous
avons prsents sur ce point dans le chapitre 2 de ce livre).
4. Enfin, mais cest plus rare, le COP peut tre amen utiliser des tests
dintelligence logique auprs dadultes. Cest le cas, par exemple,
dtudiants en chec lUniversit qui sinterrogent sur les raisons de cet
chec ou encore dadultes en demande de reconversion qui consultent
un Centre dInformation et dOrientation (lieu principal dactivit des
COP).
Dans le recrutement et les ressources humaines
Le recours lusage des tests afin de slectionner des personnes pour

occuper un emploi donn, est lune des toutes premires pratiques de la
psychologie du travail (Vrignaud et Loarer, 2008). En France, lide dutiliser
la psychotechnique pour mieux mettre en relation individus et emplois,
est envisage ds 1904 par douard Toulouse qui y voyait un moyen de
classer les individus suivant leurs aptitudes avec une prcision bien autre
que celle que peuvent fournir des examens superficiels (cit par Huteau,
2004). Cette ide conduira la cration en 1928 de lInstitut National
dOrientation Professionnelle par Henri Piron et lapparition des premiers
services de psychologie dans des grandes entreprises comme Renault (1928)
et Citron (1929). On doit galement voquer les travaux prcurseurs de
Jean-Marie Lahy, fondateur du Laboratoire Psychotechnique de la STCRP
(future RATP) en 1924 et de celui de la Compagnie des chemins de Fer du
Nord (puis SNCF) en 1932. Il sagissait, dans tous les cas, de crer et valider
les preuves psychomtriques utiles une slection optimale des personnels.
Dans un premier temps, les auteurs ont cherch valuer lensemble
des aptitudes requises dans les diffrents emplois. Certaines batteries
comprenaient prs dune cinquantaine de tests partir desquels on pouvait
constituer des batteries plus restreintes adaptes aux besoins de slection
dans tous les emplois. Les tests les plus pertinents taient slectionns
a priori ( partir dune analyse de lemploi) ou a posteriori ( partir des
1. Ce diagnostic peut galement tre ralis par un cabinet libral, le plus souvent avec les mmes
preuves (de type Q.I).
397
rsultats de personnes dj en place) (Vrignaud et Loarer, 2008). partir

des annes 1960, les batteries se sont simplifies. La raison principale en
est mthodologique : les avances des mthodes danalyse factorielle, en
particulier lanalyse factorielle confirmatoire, ont abouti la construction de
modles plus synthtiques (une hirarchie de facteurs) et plus conomiques
qui ont conduit liminer de nombreuses aptitudes, en fait trs redondantes
(voir chapitre 1 de cet ouvrage).
La place des tests dintelligence dans les pratiques de recrutement

Les mthodes de recrutement sont multiples et les recruteurs peuvent
sappuyer sur des techniques varies dvaluation des personnes. Les tudes
menes dans ce domaine, permettent de saisir cette diversit de techniques
et de pratiques. Les tests sont frquemment utiliss mais lexamen de la
littrature internationale montre que leur usage varie fortement selon les
pays et selon les praticiens. Ils ne figurent notamment pas dans ce que
Cook (1988, cit par Lvy-Leboyer, 2002) appelle le trio classique des
techniques les plus systmatiquement mises en uvre pour raliser un
recrutement que sont : lentretien, lanalyse des donnes biographiques
(CV, fiches de renseignement standardises...), et les rfrences (attestations,
recommandations...). Une tude mene en France par Bruchon-Schweizer
et Ferrieux (1991) auprs de 102 responsables de recrutement en cabinets et
entreprises, est illustrative de ce phnomne. Les rsultats en sont prsents
dans le tableau 8.1.
Tableau 8.1
Classement des mthodes dvaluation utilises en France dans le recrutement
selon le % total des services les utilisant (daprs Bruchon-Schweizer et Ferrieux, 1991).
Frquence demploi
Techniques utilises
Systmatique
Occasionnel
Total
Entretien(s)
95
99
Examen graphologique approfondi
55
38
93
Tests daptitudes ou dintelligence
31
32
63
Tests de personnalit
35
26
61
Mini-situations de travail
7,5
26,5
34
Techniques projectives
12
8,5
20,5
Autres techniques (morphopsychologie, astrologie...)
15
398
Les deux techniques auxquelles les services de recrutement ont le plus

systmatiquement recours sont lentretien (95 %) et lexamen graphologique
approfondi (55 %). Les tests de personnalit viennent ensuite (35 %). Les
tests dintelligence ne sont utiliss systmatiquement que par 31 % dentre
eux. Dautres tudes ont confirm ces rsultats (Vom Hofe et Lvy-Leboyer,
1993, Ballico, 1997, 1999). Ce classement des techniques selon la frquence
de leur usage varie cependant fortement dun pays lautre. Une tude
de Dany et Torchy (1994) comparant les pratiques de recrutement dans
12 pays europens, montre ainsi que lutilisation des tests cognitifs est plus
frquente quen France dans une majorit de pays europens, et que la
France est seule avoir un recours si important la graphologie.
La valeur pronostique des preuves de recrutement

La question essentielle en matire de recrutement est de savoir dans
quelle mesure les valuations ralises fournissent des informations sur
les performances professionnelles futures du candidat.
Les informations sur les caractristiques psychologiques des personnes
recueillies laide des tests ne prennent de sens quen fonction du poste pour
lequel on cherche recruter. Cette mise en relation du profil de personnes
avec les exigences dun emploi peut se faire selon des procdures plus ou
moins explicites et validables. Elles peuvent galement varier selon la manire
dont les tests sont utiliss dans la procdure : par exemple si les tests sont
utiliss pour faire une prslection, cest--dire constituer une liste rduite
partir dun ensemble important de candidats ou si les tests sont utiliss
pour classer un petit nombre de candidats pralablement slectionns dans
un ensemble plus important de candidats.
Une premire approche, que lon peut qualifier de classique par son
anciennet historique, est de considrer que les tests valuent des caractristiques gnrales relativement dcontextualises et, de ce fait, pertinentes
pour tous les emplois. Dans le domaine cognitif, on utilisera alors une
preuve de facteur G ou une batterie de tests daptitudes et cela quel que
soit lemploi concern par le recrutement. Cette pratique, qui peut paratre
caricaturale reste encore aujourdhui courante car elle prsente un caractre
conomique et permet de contribuer efficacement une prise de dcision
relativement quitable et pertinente, notamment lorsquil sagit de faire un
premier tri parmi un grand nombre de candidats. Nanmoins, et bien que
la validit prdictive du facteur G, relativement la russite professionnelle
soit leve, comme en attestent de nombreuses tudes, cette mthode ne
399
saurait suffire pour estimer prcisment ladquation dune personne avec

un emploi donn.
Une approche alternative, et souvent complmentaire, consiste, partir
dune analyse prcise du travail, identifier les caractristiques spcifiquement requises dans lemploi (capacits ou aptitudes, comportements,
"savoir tre", etc.) afin de les valuer de faon cible. Cette approche prsente
lavantage dune meilleure proximit entre les preuves utilises et les activits
menes dans lemploi mais possde galement des limites. Dune part il
est difficile de reprer ces lments car ils ne sont pas directement visibles
(seuls les comportements et les performances le sont) et ne peuvent qutre
infrs. Bien que certains prtendent, par des dmarches parfois simplistes,
y parvenir aisment, ce passage des activits aux qualits humaines que
ces activits mobilisent demande en ralit la mise en uvre de dmarches
relativement complexes, rigoureuses et contrles, qui dpassent largement
1
le simple bon sens . Elle doit tre taye par des cadres conceptuels
solides et valids, afin dviter des noncs flous et donc peu informatifs
ou ne prsentant pas de cohrence entre eux. Dautre part, il nexiste pas
toujours dpreuves psychomtriques permettant dvaluer de faon valide
les caractristiques identifies.
Pour savoir avec quelle prcision une technique dvaluation permet de
connatre les capacits dune personne russir dans un emploi, on value
la cohrence statistique entre les rsultats dune preuve (prise comme
prdicteur) et des indicateurs de russite professionnelle (prises comme
critres). Le coefficient de corrlation appel alors coefficient de prdiction
et sa valeur maximum est donc de 1. Lapproche pronostique de la validit,
quel que soit loutil considr, consiste mettre en relation les rsultats
du test au moment de la slection, avec des informations (performances
professionnelles par exemple) obtenues en un temps T+1, situ plusieurs
mois ou annes aprs le recrutement. Cette approche pose de nombreux
problmes mthodologiques (cf. Vrignaud et Loarer, 2008).
Exemple de difficults mthodologiques des tudes de validit pronostique
des tests de recrutement
Une premire difficult est que lchantillon utilis est dans la plupart des cas
constitu dune partie seulement de lchantillon de dpart. Ce sous-chantillon
a en outre t slectionn en utilisant linstrument que lon cherche valider.
Outre le problme de la dpendance entre linstrument et la procdure, ces
donnes sont censures cest--dire que les candidats slectionns ne sont
pas rpartis sur toute ltendue de la distribution mais se situent dans les
scores les plus levs ou du moins proches des seuils jugs optimaux. La
variance du sous-chantillon va donc se trouver rduite ce qui aura, entre
400
autres consquences, celle de rduire ltendue potentielle des corrlations

avec les variables critrielles utilises.
Une seconde difficult mthodologique est le choix du critre retenu pour la
validit pronostique qui pose la question de la manire dont se fait lvaluation
de la performance dans lemploi. Dans certains cas, il est possible de trouver
des critres relativement objectifs, comme par exemple le volume de vente
pour des preuves de slection aux mtiers de la vente. Mais cela nest pas
toujours ralisable pour tous les emplois. Bien souvent on va se baser sur
une information dclarative, provenant soit de la hirarchie, soit du candidat
lui-mme (par exemple sur la satisfaction dans le poste). La fidlit de ces
critres nest pas trs leve, en tout cas, moindre que celle des tests. Or la
corrlation entre deux variables est limite par les valeurs des fidlits de ces
variables. (Vrignaud et Loarer, 2008, p. 354.)
De nombreux chercheurs se sont mobiliss pour mesurer les coefficients

de prdiction de diffrentes techniques dvaluation par rapport la russite
professionnelle. Des rsultats souvent htrognes ont t obtenus. Cette
htrognit sexplique par la qualit des critres retenus (il est difficile
dchantillonner et de standardiser les indicateurs de russite professionnelle)
ainsi que par les effectifs, souvent limits, des recherches ralises. Pour
limiter ces difficults, des synthses (appeles mta-analyses) ont t
produites. Il sagit dtudes qui agglomrent les rsultats de nombreuses
recherches ralises sur une mme question et comportant des conditions
comparables.
Plusieurs mta-analyses ont ainsi pu tre ralises, notamment par Hunter
et Hunter, 1984 ; Hunter et Schmidt, 1996 ; Schmidt et Hunter, 1998 ;
Robertson et Smith (2001) ; Salgado et al. (2003). Elles fournissent des
comparaisons intressantes et fiables des capacits respectives des diffrentes
techniques dvaluation pronostiquer la russite professionnelle.
Comme le montrent les rsultats prsents dans le tableau 8.2 ci-dessous
issus dtudes qui portent sur plus de 30 000 personnes (daprs Schmidt
et Hunter, 1998 et Robertson et Smith, 2001), les mises en situations
professionnelles sur des situations slectionnes prsentent gnralement les
meilleurs coefficients de prdiction (0,54). Cela peut se comprendre par
la proximit leve quil y a entre la situation dvaluation et la situation
professionnelle. Le prdicteur est alors trs proche du critre. Cette technique
est cependant gnralement coteuse et difficile mettre en uvre et ne
garantit en rien ladaptation de la personne long terme, notamment
lorsque les caractristiques du travail voluent ou lorsque la personne est
amene changer demploi. Les tests dintelligence gnrale, outre leur
facilit de mise en uvre, donnent une bonne prdiction de la performance
401
au travail (0,51). Ils sont suprieurs lensemble des autres techniques

utilisables (que se soient les assessment center, les preuves de personnalit,
lanciennet au travail ou lexprience professionnelle). Lentretien prsente
une validit faible lorsquil nest pas structur (0,14 0,23, Robertson
et Smith, 1989), mais cette validit samliore si lentretien est structur
(0,51). On remarquera que les questionnaires de personnalit et dintrt
prsentent des validits plus faibles que les tests daptitude cognitive. On
notera galement la validit nulle de la graphologie. Ce dernier rsultat a t
souvent dmontr (Huteau, 2005) et la persistance de certains recruteurs
utiliser cette mthode non valide ne peut manquer dtonner. Comme
le met en relief ltude de Bruchon-Schweizer et Ferrieux (1991), ce sont
les mthodes les moins valides qui ont tendance, en France, tre les plus
utilises.
Tableau 8.2
Validit prdictive de diffrentes techniques dvaluation utilises en recrutement
(selon Schmidt & Hunter, 1998 et Robertson & Schmidt, 2001).
Mthodes dvaluation
Validit prdictive
(corrlation avec la performance au travail)
chantillons de travail
0,54
Tests dintelligence (aptitude mentale gnrale)
0,51
Entretiens structurs
0,51
valuations par des pairs
0,49
Tests de connaissances professionnelles
0,48
Tests dintgrit
0,41
Assessment centers
0,37
Inventaires biographiques
0,35
Tests de personnalit
0,31
Rfrences
0,26
Exprience professionnelle antrieure (nb dannes)
0,18
niveau de scolarit (nb dannes)
0,10
valuation des intrts
0,10
Graphologie
0,02
tant donn le caractre plus conomique en temps de passation et de

cotation et la possibilit de passations collectives, on peut considrer que les
402
tests dintelligence prsentent le meilleur compromis validit/cot. Hunter

et Schmidt (1996) ont en outre montr que cette prdiction tait gnrale
lensemble des tches et des professions, ce qui assure la validit long terme
de la prdiction. Une autre mta-analyse mene par Salgado et al. (2003)
sur 89 tudes portant sur des chantillons europens a largement confirm
ces rsultats et montr que lintelligence gnrale est un bon prdicteur,
non seulement de la performance au travail, mais aussi de lefficacit dune
formation.
Par ailleurs, Hunter et Hunter (1984) et Hunter et Schmidt (1996) ont
apport un lment de validit supplmentaire en montrant (mta-analyse
portant sur plus de 400 tudes) que la validit de la prdiction par les tests
dintelligence augmente avec le degr de complexit de la tche. Ainsi, de
0,38 pour des tches de complexit rduite (20 % des emplois tudis), elle
passe 0,51 pour des tches de complexit moyenne (63 % des emplois) et
0,57 pour des tches de grande complexit (17 % des emplois).
Aprs avoir compar les validits des diffrentes techniques dvaluation
les chercheurs se sont galement intresss la possibilit de combiner
diffrentes preuves afin damliorer le pronostic global de la performance
professionnelle. Plusieurs recherches (par exemple Ree et collaborateurs,
1991, 1994) ont montr que la prise en compte des capacits cognitives
spcifiques (aptitudes primaires verbales, numriques, spatiales, mcaniques)
ne fournissait pas dinformation complmentaire substantielle dans la
prdiction des performances professionnelles. Par contre, lorsquil sagit
dpreuves valuant des dimensions autres que cognitives, des possibilits
de gains de validit existent. Ainsi Hunter et Hunter (1984) et Hartigan et
Wigdor (1989) ont constat que les aptitudes psychomotrices augmentaient
la validit des tests de facteur G pour les emplois faible niveau de
complexit. De leur ct, Schmidt et Hunter (1998) ont constat que
lajout un test dintelligence gnrale dun test dintgrit (valuant le
risque de comportements contre productifs tels que voler, se battre, abmer le
matriel...) donne une validit totale de 0,63 (amlioration de 0,12). Lajout
dun test du caractre consciencieux (lun des facteurs de personnalit du
modle en 5 facteurs appel Big five ) produit galement un gain de
validit et donne une validit totale de 0,65 (amlioration de 0,14). Ces
rsultats plaident donc pour une combinaison dpreuves, sachant que
lessentiel est apport par lpreuve dintelligence gnrale.
403
Comment interprter ces rsultats ?

Linterprtation des coefficients de prdiction issus de ces mta-analyses peut
tre guide par deux considrations concernant la taille de ces coefficients.
Un coefficient de 0,50 correspond une fraction de variance (des performances professionnelles) explique (par le test) de 25 % (cest--dire r2 ).
On peut donc considrer que les tests dintelligence gnrale expliquent
environ 14 de la performance professionnelle. Cest plus que ne le font la
plupart des autres prdicteurs mais cela peut sembler peu.
Une premire remarque est que les mta-analyses sont bases sur un
ensemble demplois trs varis et cela peut contribuer produire des
coefficients de prdiction moins levs que lorsquon travaille sur des emplois
trs homognes. Cela est vrai pour lensemble des techniques prsentant
une bonne validit.
Une seconde remarque est que le fait de prendre appui pour tayer une
dcision de recrutement sur des preuves prsentant ces niveaux de validit
amliore trs sensiblement la qualit du choix ralis et rduit fortement le
risque derreur. Un ensemble important de recherches menes notamment
par Rosenthal et ses collgues (Rosenthal et Rubin, 1982 ; Rosenthal et
DiMatteo, 2001) dans le domaine mdical a montr la pertinence dune
analyse de ces coefficients de prdiction en termes de risques relatifs entre des
solutions diffrentes de comportement. Ainsi, ces auteurs montrent (cit par
Rolland, 2004) quun coefficient de prdiction de 0,60 entre le respect du
traitement dune maladie et le risque de dcs d cette maladie quivaut
un risque relatif de 4, cest--dire que le patient qui ne suit pas le traitement
a 4 fois plus de chances de mourir que dans le cas contraire. Sur le mme
principe, on peut considrer que le recours des tests dintelligence pour
dcider dun recrutement, permet de faire environ 3,3 fois moins derreurs
que si lon utilise pour cela une preuve non valide. Ce ratio est considrable,
surtout lorsque lon considre le cot humain et financier dune erreur de
recrutement.
Tests dintelligence et respect de la loi contre les discriminations

Une dernire remarque est relative la notion dquit dans le processus
de slection. Alors que la lutte contre les discriminations lembauche
est devenue un enjeu social majeur et une proccupation essentielle des
professionnels du recrutement, le fait de disposer de mthodes valides et
quitables est primordial. La loi relative la lutte contre les discriminations
404
du 16 novembre 2001 inclut la question des discriminations relatives aux

procdures de recrutement et prcise que les discriminations vises peuvent
tre directes ou indirectes. On entend par discrimination indirecte une
discrimination qui se produit lorsquune disposition, un critre ou une
pratique apparemment neutre, est susceptible dentraner un dsavantage
particulier pour des personnes par rapport dautres personnes, moins que
cette disposition, ce critre ou cette pratique apparemment neutre ne soit
objectivement justifie par un objet lgitime, et que les moyens de raliser
cet objectif ne soient appropris et ncessaire (cit par Gavand, 2006).
Les pratiques dvaluations en vue de recrutement sont bien videmment
susceptibles de produire des discriminations indirectes lencontre de
certains candidats, en particulier si elles sont affectes de biais avantageant
ou dsavantageant systmatiquement certaines catgories de candidats sur
des bases non justifies par lobjectif de lvaluation.
La notion de test quitable nest pas nouvelle. On dit quun test est
quitable lorsquil aboutit prendre la mme dcision (par exemple le
recrutement) indpendamment des caractristiques des sujets (par exemple
le genre, lorigine sociale, ethnique) (Vrignaud et Loarer, 2008). Le concept
dquit (fairness en anglais) a pour origine un questionnement ancien
sur les limites de lutilisation des tests en gnral et pour le recrutement
en particulier. Il a donn lieu des dveloppements mthodologiques
trs sophistiqus pour identifier et rduire les biais pouvant induire des
diffrences de rsultats entre les groupes composant la population. Aux
tats-Unis, plusieurs procs intents par des victimes de discrimination,
ont conduit les utilisateurs ainsi que les diteurs et les auteurs de tests
procder la recherche des biais et publier dans le manuel des rsultats de
ces analyses. La publication de ces informations est dailleurs explicitement
inscrite dans les recommandations lusage des utilisateurs de tests (voir
annexes).
De nombreux travaux ont dj t raliss, notamment sur les tests
dintelligence et mritent dtre poursuivis pour parfaire la validit des tests.
Sans rentrer ici dans le dtail des diffrents types de biais et des mthodes
pour les contrler (voir le chapitre 2 de cet ouvrage, ainsi que Vrignaud,
2002a) nous retiendrons simplement que de nombreux travaux ont montr
la supriorit des mthodes structures et standardises pour prvenir ou
rduire le risque de biais et quil est clair que les tests cognitifs, prsentent,
de ce point de vue, de nombreux avantages en situation de recrutement
par rapport des situations moins standardises qui laissent une place plus
grande la subjectivit de lvaluateur.
405
Dans les pratiques de conseil, daccompagnement

et dorientation tout au long de la vie
Depuis les annes 1980, les pratiques dorientation, traditionnellement

destination des lves, se sont dveloppes et touchent maintenant les adultes
et les seniors (Guichard et Huteau, 2006). On parle ainsi dorientation tout
au long de la vie. Dans ces pratiques de conseil, les tests dintelligence sont
utiliss. Bien que les preuves soient, le plus souvent, identiques celles
utiliss dans les pratiques de recrutement (Laberon, Lagabrielle et Vonthron,
2005), lobjectif du psychologue est, comme nous allons le dvelopper,
foncirement diffrent. Il ne va pas sagir en effet dutiliser ces outils dans
un objectif de diffrenciation, de slection, mais dans un objectif daide la
connaissance de soi, voire daide au dveloppement de soi...
La posture mme du psychologue va changer dans ce contexte : il
va passer de la position de lexpert celui de conseiller : un conseiller
qui ne donne pas obligatoirement de conseils, qui ne se place pas, ou
pas exclusivement, en position dexpert, mais plutt un conseiller qui
tient conseil avec son consultant (Lhotellier, 2000). Ainsi lvaluation
de type examen psychologique traditionnel (examen psychotechnique)
et lvaluation de type bilan de comptences, approche plus rcente, se
distinguent sur la place donne (attribue) au sujet : dans lexamen la
personne est objet de lvaluation, dans le bilan elle devient partie prenante
du processus dvaluation et dauto-valuation (Blanchard, 2002 et 2007).
Quest-ce quun bilan ?

Il faut comprendre ici cette notion de bilan comme refltant une approche
globale du sujet, dpassant le cadre dun simple examen psychologique, pour
prendre en compte un vaste ensemble de variables, afin de tenter de cerner
les diffrents aspects dune personne. Aubret et Blanchard, dans leur ouvrage
consacr la pratique du bilan personnalis (2005) nous en proposent une
dfinition : la notion de bilan personnalis renvoie une approche globale
de la personne considre dans son unit, ses identits, ses rapports soi, au
travail, autrui, ses valeurs, confronte des vnements ou des situations
problmes impliquant recherche de solutions et prises de dcisions (p. 1).
Lune des formes possibles du bilan personnalis appliqu ladulte est le
bilan de comptences.
406
Le bilan de comptences
Le bilan de comptences est institu en France depuis 1991 la France
semble dailleurs en avance ce niveau comparativement dautres pays,
comme lAllemagne par exemple (Eckert et al., 2008) et est rgi par
des textes rglementaires. Ainsi, une loi de 1991 instituant le bilan de
comptences en dfini les objectifs : les actions permettant de raliser un
bilan de comptence ont pour objet de permettre des travailleurs danalyser
leurs comptences professionnelles et personnelles ainsi que leurs aptitudes
et leurs motivations afin de dfinir un projet professionnel et, le cas chant,
un projet de formation (cit par Aubret et Blanchard, 2005, p. 23)
Pour effectuer ce bilan, les professionnels sont, le plus souvent, des
psychologues.
Les tapes du bilan de comptence.

Dune dure maximale de 24 heures, le bilan de comptences comporte
trois phases :
1. Une phase daccueil et dinformation. On apporte au bnficiaire une
information adapte sa demande, on prcise cette demande, on vrifie
que le bilan correspond aux besoins et attentes de la personne ;
2. Une phase dinvestigation. Cest la phase la plus longue au cours de
laquelle diffrentes mthodes et outils (dont les tests) peuvent tre
utiliss afin damliorer 1 la connaissance de soi du bnficiaire, 2
la connaissance de son environnement professionnel. Le(s) projet(s)
personnel(s) commence(nt) prendre forme ;
3. Une phase de conclusion. Le conseiller et le bnficiaire hirarchisent
les diffrents projets, et examinent les conditions de leur ralisation. Un
document de synthse est remis au bnficiaire.
4. Cest donc dans la deuxime phase du bilan que le psychologue va utiliser
des tests.
Lutilisation des tests dans une pratique de bilan

Dans le cadre du bilan, et de la construction dune alliance de travail entre
le bnficiaire du bilan et le psychologue, ce dernier propose des techniques
dvaluation visant dvelopper chez lui une meilleure connaissance de
407
soi, de ses comptences professionnelles et personnelles et une meilleure

connaissance du monde professionnel (Blanchard, 2007, p. 65).
La situation du sujet valu est donc assez particulire dans le cadre du
bilan : il nest plus un sujet passif mais un sujet actif : lindividu devient
un partenaire, voire un acteur de la gestion de sa carrire (Guichard et
Huteau, 2006, p. 281).
Les psychologues intervenant en bilan utilisent massivement des preuves
destines valuer les aspects conatifs de la personne : motivation,
personnalit, intrts professionnels (Blanchard, Sontag et Leskow, 1999)
et galement, mais de manire souvent moins systmatique, des preuves
cognitives pour valuer les acquis, aptitudes et comptence. La place donne
aux tests dintelligence dans une pratique de bilan peut galement varier
selon les professionnels du bilan. Dans une enqute comparative sur les
pratiques dvaluation en recrutement et en bilan de comptences, nous
pouvons relever les constats suivants (Laberon, Lagabrielle et Vonthron,
2005) :
mme si les objectifs des deux situations diffrent, les mthodes et outils
utiliss sont similaires ;
les tests daptitudes sont utiliss par 84 % des conseillers bilans interrogs.
Par contre, aucune information nest donne dans cet article sur les tests
utiliss. Daprs nos propres constats, nous pouvons avancer que les preuves
cognitives les plus utilises dans le contexte du bilan de comptences sont
les batteries factorielles, telles que la NV5 et la NV7, mais galement, en
fonction des caractristiques du bnficiaire (et essentiellement de son niveau
de formation), des preuves de facteur g comme par exemple le D2000 ou
encore le R2000.
Dans la formation des adultes
Lusage des tests sexplique ici essentiellement par leur pouvoir prdictif1
quant la russite en formation. Dans le processus de slection des
demandeurs de formation, mais aussi dans le cadre de conseil, il est judicieux
dintgrer des tests dintelligence logique. Cest le cas, par exemple, pour
les formations proposes par lAssociation Nationale pour la Formation
1. Nous ne reprendrons pas ici la prsentation des tudes de validit prsentes dans la partie
recrutement (voir plus haut).
408
Professionnelle des Adultes (A.F.P.A). Cest cet exemple que nous allons
maintenant rapidement dvelopper.
Quest-ce que lAFPA ?

Cre en 1945, LAFPA est lorganisme le plus important en France au niveau
de la formation qualifiante.
Elle collabore troitement avec lANPE et propose, aux demandeurs
demploi mais aussi aux salaris et aux entreprises, diffrents services :
orientation, formations, reclassement... La psychologie lAFPA, et tout
particulirement la pratique (et la recherche sur) des tests, est une histoire
ancienne mais toujours dactualit (Fraise, 1991 ; Chartier, 2002).
Les psychologues lAFPA

Environ 700 psychologues travaillent lAFPA. Ils peuvent exercer
directement dans les centres rgionaux de lAFPA mais galement dans
un tablissement spcialis de lAFPA, lInstitut National de lOrientation
et de lInsertion Professionnel (I.N.O.I.P). Dans les centres rgionaux, ils
interviennent dans les procdures dvaluations, daccompagnement, de
conseil, ainsi que dans diffrentes activits lies lorientation des adultes
(conseil en formation, bilans de comptences...).
Au sein de lINOIP, ils assurent des missions de recherche et dtude
et dveloppent, par exemple, des mthodes et outils utilisables dans les
domaines de lorientation et de la formation. Cest dans ce cadre quils
peuvent tre amens dvelopper des tests psychologiques.
La pratique des tests lAFPA

Diffrentes formes dvaluation sont pratiques lAFPA, diffrents
moments de la formation : en amont, en cours de formation et en fin de
formation (Chartier, D., 2002). En ce qui concerne les tests dintelligence, ils
sont principalement utiliss en amont de la formation lors de lvaluation des
capacits dapprentissage des demandeurs de formation. De par leurs qualits
psychomtriques, et tout particulirement de leur validit prdictive : la
mthode des tests a t introduite des fins de prvisions, conjointement
dautres modes dinvestigation : questionnaires de connaissances gnrales
ou professionnelles, et entretien psychologique (Fraise, 1991, p. 129).
409
Pour chaque formation une valeur seuil a t dfinie pour chacune

des dimensions values par les tests. Llaboration de ce seuil est le rsultat
dune procdure complexe qui tente de combiner une double contrainte :
admettre les candidats qui ont de fortes chances de russir la formation,
carter ceux qui ont une forte probabilit dchouer. Dans ce type de
dcision, Fraise, en 1991, distinguait deux types derreurs possibles : 1) ne
pas admettre une personne qui russirait, 2) admettre une personne qui ne
russirait pas (Fraise, 1991). Mme si la dfinition de la valeur seuil, et son
utilisation, semble moins rigide aujourdhui quauparavant (Chartier, D.,
2002), la mme problmatique se pose encore actuellement :
Ce qui importe le plus, lorsquon fixe un seuil, nest pas le classement
des stagiaires qui russissent, mais le fait quon essaie de minimiser le
nombre de personnes cartes tort de la formation quils souhaitent tout
en nenvoyant pas en formation des personnes dont la probabilit dchec
est trop leve (Chartier, D., 2002, p. 9).
Mais ce seuil nest pas la seule information prise en compte aujourdhui

par le psychologue de lAFPA : dautres lments (motivation, exprience
antrieure...) vont intervenir. Cest partir de cet ensemble dinformations
que le psychologue va prendre sa dcision sur lentre en formation dun
candidat demandeur de formation. On retrouve ainsi lAFPA une volont
de garantir un certain niveau dobjectivit dans les procdures de slection
des candidats
Cet exemple dutilisation de tests dans une procdure de slection de
candidats une formation, associe une certaine souplesse dans la prise
de dcision, illustre bien quel peut tre lapport de ces preuves dans un
processus de formation.
4.
diteurs de tests
Nous prsentons les coordonnes des principaux diteurs de tests franais
(classs par ordre alphabtique).
ditions Delta Expert, 15, bis rue des Pas Perdus, BP-8338, 95804 Cergy
Cedex
www.delta-expert.com
410
ditions ECPA et EAP, 25, rue de la plaine, 75980 Paris

Tl : 01 40 09 62 62
www.ecpa.fr
ditions EUROTEST, 1, impasse de la baleine, 75011 Paris
Tl : 01 48 06 25 75
www.eurotests.com
www.eurotests.eu
ditions HOGREFE France, 75 avenue Parmentier, 75011 Paris
Tl : 01 40 21 42 08
www.hogrefe.fr
ditions Qui plus est , 9, rue du Liban, 75020 Paris
Tl : 01 43 66 61 16
www.editionquiplusest.com
ditions OPP, 112 rue Raumur, 75002 Paris
Tl : 01 55 34 92 00
www.opp.eu.com
ditions SHL, 21 - 23 rue de Madrid, 75008 Paris
Tl : 01 53 04 94 44
Fax : 01 53 04 94 45
www.shl.com/shl/fr/
Fiches pratiques
1.
Le test DAT5
Prsentation du test
Nom du test : Differential Aptitude Test version 5 (DAT 5)

Auteurs : Bennet, G. K., Seashore, H. G. et Wesman, A. G.
Version : Il sagit de la 5e version de lpreuve publie en 1947 aux tats-Unis.
Dates ddition et de rnovation : La version DAT5 a t diffuse en France
en 2002
diteur : ECPA.
Format : papier/crayon
Type dpreuve : batterie factorielle
Type ditems : la DAT5 se compose de huit preuves indpendantes :
Raisonnement Verbal, Raisonnement Abstrait, Raisonnement Numrique,
Raisonnement Mcanique, Relations Spatiales, Vitesse de Perception et
Prcision, Orthographe et Grammaire. Chaque preuve comporte des items
reprsentatifs de laptitude value.
Indicateurs : Le psychologue dispose dun score pour chaque preuve ainsi
que dun score composite indicateur de lefficience scolaire.
Populations vises : adolescents scolariss (3e Baccalaurat) et adultes.
Passation
Temps de passation : variable selon les preuves (de 6 20 minutes). Pour

une passation de toutes les preuves il faut prvoir un temps total de 1 h 45
environ.
Modalits de passation : individuelle ou collective
Matriel : rponse sur le cahier de passation ; manuel (81 pages).
412
Modalits de cotation : rapide, 1 point par bonne rponse.

talonnages disponibles : Pour les adolescents en fonction de la formation
suivie : classe de 3e , classe de 2e et classe de 1re /Terminale ; Pour les adultes
trois niveaux : CAP/BEP, Baccalaurat et talonnage global.
Informations diverses
Ce test a fait lobjet dune prsentation dans le chapitre 5 de ce livre.
2.
Les tests de dominos : D48, D70 et D2000
Prsentation du test
Nom des tests : D48 ; D70 ; D2000

Auteur : versions adaptes dune preuve anglaise de Anstey de 1943.
diteur : ECPA.
Dates ddition et de rnovation : Premire version D48, dite en 1948. Les
noms des versions correspondent aux dates des ditions. La dernire version
D2000 a donc t dite en 2000. Les indications de cette fiche concernent
la version D2000.
Format : papier/crayon.
Type dpreuve : facteur g (intelligence fluide).
Type ditems : quelle que soit la version, D48, D70 ou D2000, il sagit
toujours du mme type de tche : le sujet doit trouver la rgle de progression,
cest--dire dfinir la (ou les) relation(s) existant entre les faces des diffrents
dominos qui constituent une certaine suite logique, puis appliquer cette
(ou ces) rgle(s) de progression afin de dterminer les caractristiques du
domino manquant.
Indicateurs : un score unique.
Populations vises : adulte.
Passation
Temps de passation : 20 minutes (40 items)

Matriel : cahier de passation ; feuille de passation ; manuel (30 pages).
Fiches pratiques
413

talonnages disponibles : un talonnage adulte (N = 682), de niveau BEP
Baccalaurat + 5 (sans distinction du niveau) ; un talonnage concours
dentre niveau Bac (398 sujets)
Ce test a fait lobjet dune prsentation dans le chapitre 4 de ce livre

Publications relatives ce test :
Chartier, P. ( paratre en 2008), Les tests dominos (D70 et D2000) :
comment dpasser le constat du seul score total ? Exemples danalyses des
rponses, Pratiques Psychologiques.
Dickes, P., et Martin, R. (1998). Les composantes de lintelligence gnrale
du D70 . Psychologie et Psychomtrie, 19 (1), 27-51.
Rmy, L. & Gilles, P-Y. (1999). Stratgies de rsolution spatiale et numrique du D70. In M. Huteau & J. Lautrey (Eds), Approches diffrentielles en
Psychologie. Rennes : P.U.R.
3.
Les tests NNAT
Prsentation du test
Nom du test : NNAT (Test dAptitude Non Verbal de Nagliri).

Auteur : J. A. Naglieri.
diteur : ECPA.
Dates ddition et de rnovation : Le test NNAT a t dit aux tats-Unis
en 1996 et adapt en France en 1998.
Type dpreuve : facteur g (intelligence fluide).
Type ditems : Le test NNAT est dclin en 7 formes, correspondant
7 niveaux de difficult : de la forme A (lves de lcole maternelle) la
forme G (lves de Lyce). Les tches sont proches des matrices de Raven :
slectionner llment qui vient continuer une srie propose. La spcificit
de ce test rside dans la distinction de plusieurs types de raisonnement dans
lpreuve : reprsentation spatiale, raisonnement analogique et raisonnement
414
en srie. Chaque forme du NNAT comporte 38 items, avec cependant une

rpartition diffrente des diffrents types ditems selon les formes.
Indicateurs : un score total et 3 sous-scores (relatifs aux 3 types de raisonnement).
Populations vises : enfants et adultes.
Passation

Matriel : pour chaque forme : cahier de passation ; feuille de rponse
auto-scorable. Le manuel (81 pages) est commun aux 7 formes.
talonnages disponibles : Il faut signaler ici la possibilit dinterprter la
performance du sujet de deux manires : par un talonnage selon le niveau
scolaire, par un talonnage selon lge.
4.
Le test R2000 (R85)
Prsentation du test
Nom du test : Raisonnement 2000

Noms de lauteur : P. Rennes
diteur : ECPA.
Dates ddition et de rnovation : La version R2000 est la version dite en
2000 du test R85 de 1985, issu de lpreuve de raisonnement de Rennes de
1952.
Type dpreuve : facteur g (intelligence fluide) et flexibilit cognitive.
Type ditems : Le test R2000 comporte des items de raisonnement sur des
supports varis : verbal, numrique et mixte. La pluralit des supports et des
tches (trouver lintrus dune srie de mots, suites numriques...) permet
Fiches pratiques
415
dvaluer une capacit de flexibilit mentale. Le test comporte 40 items. Ce

test est assez difficile.
Indicateurs : un score total.
Populations vises : adultes de niveau de formation Bac + 2 minimum.
Passation

Matriel : cahier de passation ; feuille de rponse ; manuel (31 pages).
talonnages disponibles : deux talonnages disponibles :
un talonnage global, avec distinction selon le sexe,
un talonnage de candidats un concours (sans autre prcision).
5.
Les tests de Raven : la version SPM
Prsentation du test
Nom du test : Standard Progressive Matrices (SPM)

Auteur : John C. Raven
diteur : EAP.
Dates ddition et de rnovation : La premire version de lpreuve date de
1938 (connue sous lappellation PM38). La dernire version dite en France
date de 1998.
Type dpreuve : facteur g (intelligence fluide)
Type ditems : la version SPM comporte 60 items, organiss en cinq sries de
12 items. Les sries sont prsentes selon leur niveau de difficult. Il sagit
toujours du mme type de tche : slectionner llment qui vient continuer
une srie. Pour pouvoir russir, le sujet doit trouver la rgle de progression,
416
cest--dire dfinir les relations existant entre les diffrents lments dune
matrice afin de slectionner llment qui vient complter la srie propose.
Indicateurs : un score unique
Populations vises : adolescents et adultes de niveau de formation jusqu bac
+2 (au-del il est prfrable dutiliser la version APM).
Passation
Temps de passation : variable selon ltalonnage : de 20 30 minutes.

Possibilit galement de passation en temps libre.
Modalits de passation : collective ou individuelle.
Matriel : cahier de passation ; feuille de rponse auto-scorable. Deux
manuels : lun commun avec les autres tests de Raven (manuel section 1
de 96 pages) qui constitue une introduction aux diffrents tests, lautre
spcifique cette version SPM (manuel section 3 de 80 pages).
talonnages disponibles : les talonnages sont nombreux mais trs varis
tant au niveau des populations (enfants, scolaires, adultes, de diffrentes
nationalits...) quau niveau des conditions de passation (temps limit 20
ou 30 minutes, temps libre...). Le praticien devra reprer, avant de faire
passer lpreuve, ltalonnage qui lui semble le plus adapt afin de respecter
les conditions de passation de celui-ci (en particulier le temps de passation).
Notons quil existe un complment dtalonnage diffus en 2003.
Ce test a fait lobjet dune prsentation dans le chapitre 4 de ce livre. Il existe

une version plus difficile : les APM.
Principales publications relatives ce test :
De nombreuses rfrences de publications figurent dans le manuel.
On peut citer galement, en langue franaise :
Raven, J. (2001), Les Progressives Matrices de Raven. Changement et
stabilit travers les cultures et le temps, In M. Huteau, Les figures de
lintelligence. Paris : EAP.
Vigneau, F., Douglas, A. B. et Stokes, T. L. (2001), La multidimensionnalit
dun test de facteur g ? Vers une approche exprimentale du test des Matrices
de Raven, In A. Flieller, C. Bocran, J-L. Kop, E. Thibaut, A-M. Toniolo
et J. Tournois (Eds.), Questions de psychologie diffrentielle. Rennes : PUR.
Fiches pratiques
6.
417
Les tests de Raven : la version APM
Prsentation du test
Nom du test : Advanced Progressive Matrices (APM)

Auteur : John C. Raven.
diteur : EAP.
Dates ddition et de rnovation : La premire version de lpreuve date de
1943, rnove en 1947 (connue sous lappellation PM47). La dernire
version a t dite en France en 1998.
Type dpreuve : test de facteur g (intelligence fluide).
Type ditems : la version APM comporte deux sries ditems dont lune,
le set 1, est destine familiariser le sujet avec la situation dvaluation.
La seconde srie (set II), qui constitue rellement le test APM, comporte
36 items Les items sont prsents selon leur niveau de difficult. Il sagit de
tches analogues celles de la version SPM (certains items sont communs) :
slectionner llment qui vient continuer une srie. Pour pouvoir russir,
le sujet doit trouver la rgle de progression, cest--dire dfinir les relations
existant entre les diffrents lments dune matrice afin de slectionner
llment qui vient complter la srie propose.
Indicateurs : un score unique
Populations vises : Cette version, plus difficile que la version SPM, concerne
les adultes de niveau minimum Bac + 2.
Passation
Temps de passation : 40 minutes ou en temps libre (en fonction de

ltalonnage slectionn).
Matriel : cahier de passation ; feuille de rponse auto-scorable. Deux
manuels : lun commun avec les autres tests de Raven (manuel section 1
de 96 pages), lautre spcifique cette version SPM (manuel section 4
de 126 pages).
talonnages disponibles : comme pour la version SPM les talonnages sont
nombreux mais assez htrognes. Le praticien devra reprer, avant de faire
418
passer lpreuve, ltalonnage qui lui semble le plus adapt afin de dfinir
les conditions de passation (en particulier le temps de passation).

De nombreuses rfrences de publications figurent dans le manuel.
Raven, J. (2001), Les Progressives Matrices de Raven. Changement et
stabilit travers les cultures et le temps, In M. Huteau, Les figures de
lintelligence. Paris : EAP.
7.
Le test Samuel
Prsentation du test
Nom du test : SAMUEL

Noms des auteurs : Rozencwajg, P., Corroyer, D. et Altman, P.
diteur : Delta Expert.
Dates ddition : Le test SAMUEL a t dit en 1999.
Format : preuve informatise
Type dpreuve : test cognitif : analyse des stratgies de rsolution.
Type ditems : Il sagit dune adaptation informatise de la tche des cubes de
Kohs : le sujet doit reproduire sur lcran de lordinateur une configuration
modle laide de plusieurs faces de carrs (unicolores et bicolores) quil
manipule laide de la souris.
Indicateurs : Le psychologue dispose de deux types dindicateurs :
en terme de niveau de russite,
en terme de stratgie de rsolution.
Concernant le niveau de russite, les indicateurs sont nombreux : qualit
globale de la construction, indice danticipation, vitesse dexcution...
Pour les indices stratgitaires, le psychologue dispose de la stratgie mise
en uvre par le sujet dans chaque item (stratgie globale, analytique ou
synthtique) et de la stratgie la plus frquente sur lensemble de lpreuve
(possibilit danalyse de la variabilit inter et intra-individuelle).
Populations vises : adolescents et adultes.
Fiches pratiques
419
Passation
Temps de passation : environ 15 minutes.

Modalits de passation : individuelle.
Matriel : logiciel ; manuel (108 pages).
Modalits de cotation : rapide et automatique.
talonnages disponibles : par classe dge : de 9 ans lge adulte.

Rozencwajg, P. (2005). Pour une approche intgrative de lintelligence. Un
sicle aprs Binet. Paris : LHarmattan.
Rozencwajg, P. (2001). Prsentation dun test cognitif informatis :
SAMUEL , in A. Flieller, C. Bocran, J.L. Kop, E. Thibaut, A.M. Toniolo
et J. Tournois (Eds.). Questions de Psychologie Diffrentielle (pages 107-111),
Rennes, PUR.
8.
Le test TEDE 6
Prsentation du test
Nom du test : TEDE6

Auteur : Daniel Pasquier
diteur : ECPA
Dates ddition : Le TEDE6 est la 6e version du test TEDE. Premire version
en 1989.
Type dpreuve : test dvaluation dynamique satur en facteur G (intelligence
fluide, potentiel dapprentissage)
Type ditems : Il sagit dune adaptation du test des longueurs de Faverge
(1955). Lpreuve comprend 12 items dapprentissage et 18 items de test.
Chaque item comprend un double aspect : logico-mathmatique dune part
(le sujet doit composer une galit de longueurs de segments de droite
selon la structure additive de type A=B+C) et visuo-projectif dautre part (le
420
sujet doit montrer que lgalit est vraie par superposition des segments en
oprant les projections ncessaires).
Populations vises : populations adultes, apprentis ou candidats apprentis
sachant lire le franais.
Passation
Temps de passation : 2 heures (apprentissage : 1 heure + pause de 15 minutes

+ test : 45 minutes).
Matriel : Deux livrets (le livret dapprentissage et le livret de test), un
dossier dinstructions et un logiciel de correction.
Correction : Le temps de correction est denviron 5 minutes laide du
logiciel de correction. Ce programme donne accs diffrents traitements :
positionnement au regard de ltalonnage adapt, calcul de diffrents
profils du sujet.
talonnages disponibles :
2 talonnages : population dadultes et population dapprentis.
Des talonnages spcifiques sont en outre proposs :
pour la population adulte selon 4 niveaux de qualification :
groupe 1 : les hommes et femmes de niveau II et ID, les hommes de
niveau IV, tous ges confondus.
groupe 2 : les hommes juniors (16-29 ans) de niveau V et les femmes juniors
(16-29 ans) de niveau IV
groupe 3 : les femmes de niveau V, les hommes seniors (29-58 ans) de
niveau V et les femmes seniors (29-58 ans) de niveau IV
groupe 4 : les hommes et femmes de niveau VI, tous ges confondus.
pour la population des apprentis et candidats apprentis, selon 4 niveaux
de qualification des diplmes prpars : CAP, BEP, BP, Bac

Pasquier D. (1994). Le test dvaluation dynamique de lducabilit
(T.E.D.E.), in Huteau M. (Ed.). Les techniques dvaluation des personnes.
Issy-les-Moulineaux : EAP.
Fiches pratiques
421
Pasquier, D. (1995). Le T.E.D.E. Pdagogies de Mdiations, Documents du

CRU/SE. Poitiers : CUFEP.
Pasquier D., Estebe I., Jaigu J. (2001). Prvoir la russite chez de jeunes
apprentis : approche exploratoire , Pratiques Psychologiques, 1, 99-110.
Pasquier, D. (2005). Manuel dutilisation et dinterprtation du TEDE 4.
Paris : ECPA
9.
Les tests de WECHSLER : le WISC-III
Prsentation du test
Nom du test : Wechsler Intelligence Scale for Children version III (WISC-III)
Auteur : David Wechsler.
diteur : ECPA.
Dates ddition et de rnovation : 3e version de lpreuve de Wechsler pour
enfant. Version adapte en France en 1996.
Format : variable selon les subtests : questionnement du psychologue et tests
de performance.
Type dpreuve : chelle composite dintelligence pour enfant.
Type ditems : la structure du WISC-III comporte deux chelles, une chelle
verbale et une chelle de performance. Chaque chelle est compose de
diffrents subtests qui composent des situations trs varies dvaluation
(approche globale de lintelligence). Pour lchelle verbale (13 subtests)
lenfant doit rpondre oralement des questions poses par le psychologue :
trouver la relation entre deux notions, connaissance de son environnement,
petits problmes arithmtiques... Pour lchelle de performance (7 subtests)
lenfant doit raliser diffrentes tches : constructions laide de cubes,
arrangements dimages en ordre chronologique, assemblages dlments de
type puzzle...
Dans chaque subtest les items sont prsents selon leur niveau de difficult.
Indicateurs : comme toutes les chelles de Wechsler, les performances sont
exprimes sous forme de QI : un QIT (ou QI Total) et un QI pour
chaque chelle (QIV et QIP). Le psychologue dispose galement de scores
standardiss pour chaque subtest (analyse du profil des rsultats).
Pour cette version WISC-III se rajoute la possibilit de calculer 3 indices
factoriels : Indice de comprhension verbale (ICV), indice dorganisation
perceptive (IOP) et indice vitesse de traitement (IVT).
422
Populations vises : enfants et adolescents gs de 6 16 ans.

Passation
Temps de passation : 1 h 15 1 h 45 (variable selon le niveau de russite de

lenfant : rgles darrt).
Matriel : une mallette regroupe lensemble du matriel ncessaire dont un
manuel de 294 pages.
Modalits de cotation : la cotation est assez complexe. Les indications du
manuel seront prcieuses. Certaines rponses sont classiquement cotes 0
ou 1 point tandis que pour dautres (certains subtests de lchelle verbale)
la cotation est plus fine en distinguant les bonnes rponses 1 point des
rponses de qualit suprieures cotes 2 points
Le psychologue calcule une note pour chaque subtest, puis combine ces
notes pour obtenir les QI et les indices factoriels. Attention : 10 subtests
sont obligatoires pour pouvoir calculer un Q.I
talonnages disponibles : talonnages trs prcis, par classe dge de 4 mois, de
type Q.I pour les 3 indicateurs QIT, QIV et QIP comme pour les 3 indices
factoriels. talonnages pour chaque subtest (score de 1 19).

Une version plus rcente (WISC-IV) est diffuse depuis 2005 en France.
Arbisio, C. (2003). Le bilan psychologique avec lenfant. Approche clinique du
WISC-III. Paris : Dunod.
Grgoire, J. (2000a). Lexamen clinique de lintelligence de lenfant. Sprimont :
Mardaga.
Fiches pratiques
423
10. Les tests de WECHSLER : le WISC-IV
Prsentation du test
Nom des tests : Wechsler Intelligence Scale for Children version IV (WISCIV)
Auteurs : David Wechsler.
diteur : ECPA.
enfant. Version adapte en France en 2005.
Format : variable selon les subtests : questionnement du psychologue,
papier/crayon et tests de performance.
Type dpreuve : chelle dintelligence pour enfant.
Type ditems : la structure du WISC-IV est sensiblement diffrente de celles
des anciennes versions du Wechsler pour enfant. En effet disparaissent ici
les deux chelles classiques, lchelle verbale et lchelle de performance, au
profit de quatre indices factoriels : Indice de Comprhension Verbale (ICV),
Indices de Raisonnement Perceptif (IRP), Indice de Mmoire de Travail
(IMT) et Indice de Vitesse de Traitement (IVT). Seul lindicateur QIT est
conserv. Il sagit donc plus dune relle transformation du WISC que dune
simple rnovation.
Chaque indice est compos de diffrents subtests qui sont proches des
subtests de lancienne version WISC-III ou de la version pour adulte
WAIS-III. Ces situations dvaluation restent assez varies : trouver la
relation entre deux notions, comprhension de situations de la vie courante,
devinettes, petits problmes arithmtiques, constructions laide de cubes,
matrices analogiques... Dans chaque subtest les items sont prsents selon
leur niveau de difficult.
Au total le WISC-IV comporte 15 subtests, certains dentre eux tant
optionnels.
Indicateurs : par rapport aux versions prcdentes seul lindicateur QIT
(quotient intellectuel total) est conserv. Le psychologue dispose de
4 indicateurs relatifs aux indices ICV, IRP, IMT et IVT (exprims dans la
mme mtrique que le QI) ainsi que des indicateurs normaliss pour chaque
subtest (analyse du profil des rsultats).
Populations vises : enfants et adolescents gs de 6 16 ans 1/2.
424
Passation
Temps de passation : 1 h 15 1 h 45 (variable selon le niveau de russite de

lenfant : rgles darrt).
Matriel : une mallette regroupe lensemble du matriel ncessaire. Deux
manuels accompagnent lpreuve, lun destin la passation et la cotation
(273 pages), lautre centr sur les qualits psychomtriques de lpreuve et
les lments dinterprtation des scores (123 pages).
Modalits de cotation : la cotation est assez complexe. Les indications du
manuel seront prcieuses. Certaines rponses sont classiquement cotes 0
ou 1 point tandis que pour dautres (certains subtests de lchelle verbale)
la cotation est plus fine en distinguant les bonnes rponses 1 point des
rponses de qualit suprieures cotes 2 points.
notes pour obtenir les QI et les indices.
Il existe un Cd-rom daide la cotation.
talonnages disponibles : talonnages trs prcis, par classe dge de 4 mois,
dans une mtrique de type Q.I (m=100 et cart type de 15) pour le QIT et
les quatre indices (ICV, IRP, IMT et IVT). talonnage pour les notes aux
subtests

Grgoire, J. (2006). Lexamen clinique de lintelligence de lenfant. Fondements
et pratique du WISC-IV. Sprimont : Mardaga.
Rozencwajg, P. (2006). Quelques rflexions sur lvaluation de lintelligence
gnrale : un retour Binet, Pratiques Psychologiques, 12 (3), 395-410
11. Les tests de WECHSLER : la WAIS-III

Prsentation du test
Nom du test : Wechsler Adult Intelligence Scale version III (WAIS-III)
Fiches pratiques
425
Auteur : David Wechsler.

diteur : ECPA.
adultes. Version adapte en France en 2000.
Format :
Variable selon les subtests : questionnement du psychologue, papier/crayon
et tests de performance.
Type dpreuve : chelle dintelligence pour adulte.
Type(s) ditems : la structure de la WAIS-III est comparable celle du
WISC-III : une chelle totale (QIT) et deux sous chelles, verbale (QIV)
et performance (QIP). On retrouve galement la possibilit de calculer des
indices factoriels, ici au nombre de quatre : Comprhension Verbale (I.C.V),
Organisation Perceptive (I.O.P), Mmoire de Travail (MT) et Vitesse de
Traitement (IVT).
Chaque indicateur (Q.I ou indice factoriel), prend appui sur diffrents
subtests. Les situations dvaluation sont varies : trouver la dfinition dun
mot, la similitude entre deux notions, comprhension de situations de la vie
courante, petits problmes arithmtiques, constructions laide de cubes,
matrices analogiques... Au total, la version WAIS-III comporte 14 subtests.
Dans chaque subtest les items sont prsents selon leur niveau de difficult.
Indicateurs :
Le psychologue dispose dun total de 7 indicateurs : les 3 indicateurs de type
Q.I (QIT, QIV et QIP) et les 4 indices factoriels (ICV, IOP, IMT et IVT).
Il dispose galement dindicateurs plus spcifiques concernant le niveau de
russite dans chaque subtest (analyse du profil des rsultats).
Populations vises : adolescents et adultes gs de 16 89 ans.
Passation
Temps de passation : 1 h 15 1 h 45 (variable en fonction du niveau de

russite : rgles darrt).
Matriel : une mallette regroupe lensemble du matriel ncessaire. Le
manuel est compos de 357 pages.
Modalits de cotation : comme les autres chelles de Wechsler la cotation est
assez complexe et le psychologue non expriment suivra scrupuleusement
les indications (nombreuses) du manuel. On retrouve dans certaines subtests
la cotation en trois niveaux : 0, 1 ou 2 points.
426
notes pour obtenir les QI et les indices.
talonnages disponibles : talonnages trs prcis, par classe dge, dans une
mtrique de type Q.I (m=100 et cart type de 15) pour les QI et les quatre
indices. talonnage pour les notes aux subtests.

Castro, D. (2006). Pratique de lexamen psychologique en clinique adulte.
Paris : Dunod
Grgoire, J. (2004). Lexamen clinique de lintelligence de ladulte. Sprimont :
Mardaga.
12. Le test NV5-R

Prsentation du test
Nom du test : NV5-R

Auteurs : Robert Simonet (1987) puis Thibaut, E et Bidan-Fortier (2003).
diteur : EAP.
Dates ddition et de rnovation : version rnove de lpreuve NV5 publie
en 1987, la version NV5-R a t dite en 2003.
Type dpreuve : batterie factorielle.
Type ditems : la NV5-R est compose de plusieurs tests indpendants. Plus
prcisment elle comporte 9 preuves : Raisonnement gnral, Raisonnement inductif, Raisonnement spatial, Raisonnement pratique/technique,
Comprhension verbale, Vocabulaire, Orthographe, Calcul et Attention.
Chaque preuve comporte des items reprsentatifs de laptitude value.
Lpreuve de Raisonnement gnral est un peu atypique ici car elle est
compose de diffrents types ditems.
Indicateurs : Le psychologue dispose dun score pour chaque aptitude.
partir de ces scores il peut procder deux types danalyse en dterminant :
1 un profil daptitude qui comporte 4 scores (aptitude gnrale, verbale,
Fiches pratiques
427
spatiale et numrique), 2 un profil cognitif, qui repose sur le modle

thorique du radex, avec distinction de trois niveaux de raisonnement
(gnral, intermdiaire, spcifique).
Populations vises : adultes de niveau minimum Baccalaurat (utiliser la
version NV7 pour des niveaux plus faibles).
Passation
Temps de passation : variable selon les preuves. Pour une passation de toutes
les preuves il faut prvoir un temps total de 1 h 45 2 heures environ.
Modalits de passation : individuelle ou collective.
Matriel : cahier de passation ; feuille de rponse auto-scorable ; manuel
(108 pages).
talonnages disponibles : un talonnage htrogne avec sparation par niveau
dtude.

Publications relatives ce test :
Thibaut, E. et Richoux, V. (2005), lments de validit prdictive des
scores la batterie daptitudes cognitives NV5-R, Pratiques Psychologiques,
11, 404-416.
13. Le test NV7

Prsentation du test
Nom du test : NV7.

Auteurs : Il sagit dune laboration dun collectif (Bernaud, Priou et Simonet)
partir de la slection de tests existants.
diteur : EAP.
Dates ddition : version dite en 1993.
Type dpreuve : batterie factorielle.
428
Type ditems : la NV7 est compose de dix preuves indpendantes :

Raisonnement dductif, Raisonnement inductif, Raisonnement analogique,
Raisonnement pratique/technique, Spatial, Problmes, Oprations, Attention, Orthographe et Comprhension verbale. Chaque preuve comporte
des items reprsentatifs de laptitude value.
Indicateurs : Le psychologue dispose dun score pour chaque preuve ainsi
que de deux scores composites : Efficience Intellectuelle Gnrale (EIG) et
Efficience Scolaire (ES). Il dispose galement dindicateurs concernant la
rapidit des rponses et leur prcision.
Populations vises : adolescents et adultes de bas niveau de qualification
(infrieur au Baccalaurat).
Passation
Temps de passation : variable selon les preuves. Pour une passation de toutes
les preuves il faut prvoir un temps total de 1 h 45 environ.
Modalits de passation : individuelle ou collective.
Matriel : cahier de passation ; feuille de rponse auto-scorable ; manuel (64
pages).
talonnages disponibles : jeunes peu qualifis ; adultes faiblement qualifis ;
jeunes apprentis.
Annexes
1.
Code de dontologie des psychologues praticiens1
Prambule
Le prsent Code de Dontologie est destin servir de rgle professionnelle

aux hommes et aux femmes qui ont le titre de psychologue, quels que soient
leur mode dexercice et leur cadre professionnel, y compris leurs activits
denseignement et de recherche.
Sa finalit est avant tout de protger le public et les psychologues contre
les msusages de la psychologie et contre lusage de mthodes et techniques
se rclamant abusivement de la psychologie.
Les organisations professionnelles signataires du prsent Code semploient
le faire connatre et respecter. Elles apportent, dans cette perspective,
soutien et assistance leurs membres. Ladhsion des psychologues ces
organisations implique leur engagement respecter les dispositions du Code.
Titre I. Principes gnraux
La complexit des situations psychologiques soppose la simple application

systmatique de rgles pratiques. Le respect des rgles du prsent Code de
Dontologie repose sur une rflexion thique et une capacit de discernement,
dans lobservance des grands principes suivants :
1. Code sign par lAssociation des Enseignants de Psychologie des Universits (AEPU), lAssociation
Nationale des Organisations de Psychologues (ANOP), la Socit Franaise de Psychologie (SFP) le
22 mars 1996.
430
1. Respect des droits de la personne

Le psychologue rfre son exercice aux principes dicts par les lgislations
nationale, europenne et internationale sur le respect des droits fondamentaux des personnes, et spcialement de leur dignit, de leur libert et
de leur protection. Il nintervient quavec le consentement libre et clair
des personnes concernes. Rciproquement, toute personne doit pouvoir
sadresser directement et librement un psychologue. Le psychologue
prserve la vie prive des personnes en garantissant le respect du secret
professionnel, y compris entre collgues. Il respecte le principe fondamental
que nul nest tenu de rvler quoi que ce soit sur lui-mme.
2. Comptence
Le psychologue tient ses comptences de connaissances thoriques rgulirement mises jour, dune formation continue et dune formation
discerner son implication personnelle dans la comprhension dautrui.
Chaque psychologue est garant de ses qualifications particulires et dfinit
ses limites propres, compte tenu de sa formation et de son exprience. Il
refuse toute intervention lorsquil sait ne pas avoir les comptences requises.
3. Responsabilit
Outre les responsabilits dfinies par la loi commune, le psychologue a
une responsabilit professionnelle. Il sattache ce que ses interventions se
conforment aux rgles du prsent Code. Dans le cadre de ses comptences
professionnelles, le psychologue dcide du choix et de lapplication des
mthodes et techniques psychologiques quil conoit et met en uvre. Il
rpond donc personnellement de ses choix et des consquences directes de
ses actions et avis professionnels.
4. Probit
Le psychologue a un devoir de probit dans toutes ses relations professionnelles. Ce devoir fonde lobservance des rgles dontologiques et son effort
continu pour affiner ses interventions, prciser ses mthodes et dfinir ses
buts.
Annexes
431
5. Qualit scientifique
Les modes dintervention choisis par le psychologue doivent pouvoir faire
lobjet dune explicitation raisonne de leurs fondements thoriques et de
leur construction. Toute valuation ou tout rsultat doit pouvoir faire lobjet
dun dbat contradictoire des professionnels entre eux.
6. Respect du but assign

Les dispositifs mthodologiques mis en place par le psychologue rpondent
aux motifs de ses interventions, et eux seulement. Tout en construisant son
intervention dans le respect du but assign, le psychologue doit donc prendre
en considration les utilisations possibles qui peuvent ventuellement en
tre faites par des tiers.
7. Indpendance professionnelle
Le psychologue ne peut aliner lindpendance ncessaire lexercice de sa
profession sous quelque forme que ce soit.
Clause de conscience
Dans toutes les circonstances o le psychologue estime ne pas pouvoir
respecter ces principes, il est en droit de faire jouer la clause de conscience.
Titre II. Lexercice professionnel
Chapitre 1. Le titre de psychologue et la dfinition de la profession

Article 1
Lusage du titre de psychologue est dfini par la loi n 85-772 du 25 juillet

1985 publie au J.O. du 26 juillet 1985. Sont psychologues les personnes
qui remplissent les conditions de qualification requises dans cette loi. Toute
forme dusurpation du titre est passible de poursuites.
Article 2
Lexercice professionnel de la psychologie requiert le titre et le statut de

psychologue.
432
Article 3
La mission fondamentale du psychologue est de faire reconnatre et

respecter la personne dans sa dimension psychique. Son activit porte
sur la composante psychique des individus, considrs isolment ou
collectivement.
Article 4
Le psychologue peut exercer diffrentes fonctions titre libral, salari ou

dagent public. Il peut remplir diffrentes missions, quil distingue et fait
distinguer, comme le conseil, lenseignement de la psychologie, lvaluation,
lexpertise, la formation, la psychothrapie, la recherche, etc. Ces missions
peuvent sexercer dans divers secteurs professionnels.
Chapitre 2. Les conditions de lexercice de la profession

Article 5
Le psychologue exerce dans les domaines lis sa qualification, laquelle

sapprcie notamment par sa formation universitaire fondamentale et
applique de haut niveau en psychologie, par des formations spcifiques, par
son exprience pratique et ses travaux de recherche. Il dtermine lindication
et procde la ralisation dactes qui relvent de sa comptence.
Article 6
Le psychologue fait respecter la spcificit de son exercice et son autonomie

technique. Il respecte celles des autres professionnels.
Article 7
Le psychologue accepte les missions quil estime compatibles avec ses

comptences, sa technique, ses fonctions, et qui ne contreviennent ni aux
dispositions du prsent Code, ni aux dispositions lgales en vigueur.
Article 8
Le fait pour un psychologue dtre li dans son exercice professionnel par

un contrat ou un statut toute entreprise prive ou tout organisme public,
ne modifie pas ses devoirs professionnels, et en particulier ses obligations
concernant le secret professionnel et lindpendance du choix de ses mthodes
et de ses dcisions. Il fait tat du Code de Dontologie dans ltablissement
de ses contrats et sy rfre dans ses liens professionnels.
Annexes
433
Article 9
Avant toute intervention, le psychologue sassure du consentement de ceux

qui le consultent ou participent une valuation, une recherche ou une
expertise. Il les informe des modalits, des objectifs et des limites de son
intervention. Les avis du psychologue peuvent concerner des dossiers ou
des situations qui lui sont rapportes. Mais son valuation ne peut porter
que sur des personnes ou des situations quil a pu examiner lui-mme.
Dans toutes les situations dvaluation, quel que soit le demandeur, le
psychologue rappelle aux personnes concernes leur droit demander une
contre-valuation. Dans les situations de recherche, il les informe de leur
droit sen retirer tout moment. Dans les situations dexpertise judiciaire,
le psychologue traite de faon quitable avec chacune des parties et sait que
sa mission a pour but dclairer la justice sur la question qui lui est pose et
non dapporter des preuves.
Article 10
Le psychologue peut recevoir, leur demande, des mineurs ou des majeurs

protgs par la loi. Son intervention auprs deux tient compte de leur
statut, de leur situation et des dispositions lgales en vigueur. Lorsque
la consultation pour des mineurs ou des majeurs protgs par la loi est
demande par un tiers, le psychologue requiert leur consentement clair,
ainsi que celui des dtenteurs de lautorit parentale ou de la tutelle.
Article 11
Le psychologue nuse pas de sa position des fins personnelles, de

proslytisme ou dalination dautrui. Il ne rpond pas la demande
dun tiers qui recherche un avantage illicite ou immoral, ou qui fait acte
dautorit abusive dans le recours ses services. Le psychologue nengage
pas dvaluation ou de traitement impliquant des personnes auxquelles il
serait dj personnellement li.
Article 12
Le psychologue est seul responsable de ses conclusions. Il fait tat des

mthodes et outils sur lesquels il les fonde, et il les prsente de faon adapte
ses diffrents interlocuteurs, de manire prserver le secret professionnel.
Les intresss ont le droit dobtenir un compte rendu comprhensible des
valuations les concernant, quels quen soient les destinataires. Lorsque ces
conclusions sont prsentes des tiers, elles ne rpondent qu la question
pose et ne comportent les lments dordre psychologique qui les fondent
que si ncessaire.
434
Article 13
Le psychologue ne peut se prvaloir de sa fonction pour cautionner un acte

illgal, et son titre ne le dispense pas des obligations de la loi commune.
Conformment aux dispositions de la loi pnale en matire de non-assistance
personne en danger, il lui est donc fait obligation de signaler aux autorits
judiciaires charges de lapplication de la Loi toute situation quil sait mettre
en danger lintgrit des personnes. Dans le cas particulier o ce sont
des informations caractre confidentiel qui lui indiquent des situations
susceptibles de porter atteinte lintgrit psychique ou physique de la
personne qui le consulte ou celle dun tiers, le psychologue value en
conscience la conduite tenir, en tenant compte des prescriptions lgales
en matire de secret professionnel et dassistance personne en danger. Le
psychologue peut clairer sa dcision en prenant conseil auprs de collgues
expriments.
Article 14
Les documents manant dun psychologue (attestation, bilan, certificat,

courrier, rapport, etc.) portent son nom, lidentification de sa fonction ainsi
que ses coordonnes professionnelles, sa signature et la mention prcise
du destinataire. Le psychologue naccepte pas que dautres que lui-mme
modifient, signent ou annulent les documents relevant de son activit
professionnelle. Il naccepte pas que ses comptes rendus soient transmis sans
son accord explicite, et il fait respecter la confidentialit de son courrier.
Article 15
Le psychologue dispose sur le lieu de son exercice professionnel dune

installation convenable, de locaux adquats pour permettre le respect du
secret professionnel, et de moyens techniques suffisants en rapport avec la
nature de ses actes professionnels et des personnes qui le consultent.
Article 16
Dans le cas o le psychologue est empch de poursuivre son intervention,

il prend les mesures appropries pour que la continuit de son action
professionnelle soit assure par un collgue avec laccord des personnes
concernes, et sous rserve que cette nouvelle intervention soit fonde et
dontologiquement possible.
Annexes
435
Chapitre 3 : Les modalits techniques de lexercice professionnel

Article 17
La pratique du psychologue ne se rduit pas aux mthodes et aux techniques

quil met en uvre. Elle est indissociable dune apprciation critique et
dune mise en perspective thorique de ces techniques.
Article 18
Les techniques utilises par le psychologue pour lvaluation, des fins

directes de diagnostic, dorientation ou de slection, doivent avoir t
scientifiquement valides.
Article 19
Le psychologue est averti du caractre relatif de ses valuations et interprtations. Il ne tire pas de conclusions rductrices ou dfinitives sur les aptitudes
ou la personnalit des individus, notamment lorsque ces conclusions peuvent
avoir une influence directe sur leur existence.
Article 20
Le psychologue connat les dispositions lgales et rglementaires issues de la

loi du 6 janvier 1978 relative linformatique, aux fichiers et aux liberts. En
consquence, il recueille, traite, classe, archive et conserve les informations
et donnes affrentes son activit selon les dispositions en vigueur. Lorsque
ces donnes sont utilises des fins denseignement, de recherche, de
publication, ou de communication, elles sont imprativement traites dans le
respect absolu de lanonymat, par la suppression de tout lment permettant
lidentification directe ou indirecte des personnes concernes, ceci toujours
en conformit avec les dispositions lgales concernant les informations
nominatives.
Chapitre 4. Les devoirs du psychologue envers ses collgues

Article 21
Le psychologue soutient ses collgues dans lexercice de leur profession et

dans lapplication et la dfense du prsent Code. Il rpond favorablement
leurs demandes de conseil et les aide dans les situations difficiles, notamment
en contribuant la rsolution des problmes dontologiques.
Article 22
Le psychologue respecte les conceptions et les pratiques de ses collgues pour

autant quelles ne contreviennent pas aux principes gnraux du prsent
Code ; ceci nexclut pas la critique fonde.
436
Article 23
Le psychologue ne concurrence pas abusivement ses collgues et fait appel

eux sil estime quils sont plus mme que lui de rpondre une demande.
Article 24
Lorsque le psychologue remplit une mission daudit ou dexpertise vis--vis

de collgues ou dinstitutions, il le fait dans le respect des exigences de sa
dontologie.
Chapitre 5. Le psychologue et la diffusion de la psychologie

Article 25
Le psychologue a une responsabilit dans la diffusion de la psychologie

auprs du public et des mdias. Il fait de la psychologie et de ses applications
une prsentation en accord avec les rgles dontologiques de la profession. Il
use de son droit de rectification pour contribuer au srieux des informations
communiques au public.
Article 26
Le psychologue nentre pas dans le dtail des mthodes et techniques

psychologiques quil prsente au public, et il linforme des dangers potentiels
dune utilisation incontrle de ces techniques.
Titre III. La formation du psychologue
Chapitre 1. Les principes de la formation

Article 27
Lenseignement de la psychologie destination des futurs psychologues

respecte les rgles dontologiques du prsent Code. En consquence, les
institutions de formation :
diffusent le Code de Dontologie des Psychologues aux tudiants ds le
dbut des tudes ;

sassurent de lexistence de conditions permettant que se dveloppe
la rflexion sur les questions dthique lies aux diffrentes pratiques :
enseignement et formation, pratique professionnelle, recherche.
Annexes
437
Article 28
Lenseignement prsente les diffrents champs dtude de la psychologie,

ainsi que la pluralit des cadres thoriques, des mthodes et des pratiques,
dans un souci de mise en perspective et de confrontation critique. Il bannit
ncessairement lendoctrinement et le sectarisme.
Article 29
Lenseignement de la psychologie fait une place aux disciplines qui

contribuent la connaissance de lhomme et au respect de ses droits, afin
de prparer les tudiants aborder les questions lies leur futur exercice
dans le respect des connaissances disponibles et des valeurs thiques.
Chapitre 2. Conception de la formation

Article 30
Le psychologue enseignant la psychologie ne participe pas des formations

noffrant pas de garanties sur le srieux des finalits et des moyens.
Les enseignements de psychologie destins la formation continue des
psychologues ne peuvent concerner que des personnes ayant le titre de
psychologue. Les enseignements de psychologie destins la formation de
professionnels non-psychologues observent les mmes rgles dontologiques
que celles nonces aux Articles 27, 28 et 32 du prsent Code.
Article 31
Le psychologue enseignant la psychologie veille ce que ses pratiques,

de mme que les exigences universitaires (mmoires de recherche, stages
professionnels, recrutement de sujets, etc.), soient compatibles avec la
dontologie professionnelle. Il traite les informations concernant les
tudiants, acquises loccasion des activits denseignement, de formation
ou de stage, dans le respect des Articles du Code concernant les personnes.
Article 32
Il est enseign aux tudiants que les procdures psychologiques concernant

lvaluation des individus et des groupes requirent la plus grande rigueur
scientifique et thique dans leur maniement (prudence, vrification) et leur
utilisation (secret professionnel et devoir de rserve), et que les prsentations
de cas se font dans le respect de la libert de consentir ou de refuser, de la
dignit et du bien-tre des personnes prsentes.
438
Article 33
Les psychologues qui encadrent les stages, lUniversit et sur le terrain,

veillent ce que les stagiaires appliquent les dispositions du Code,
notamment celles qui portent sur la confidentialit, le secret professionnel,
le consentement clair. Ils sopposent ce que les stagiaires soient employs
comme des professionnels non rmunrs. Ils ont pour mission de former
professionnellement les tudiants, et non dintervenir sur leur personnalit.
Article 34
Conformment aux dispositions lgales, le psychologue enseignant la

psychologie naccepte aucune rmunration de la part dune personne
qui a droit ses services au titre de sa fonction universitaire. Il nexige pas
des tudiants quils suivent des formations extra-universitaires payantes ou
non, pour lobtention de leur diplme. Il ne tient pas les tudiants pour des
patients ou des clients. Il nexige pas leur participation gratuite ou non, ses
autres activits, lorsquelles ne font pas explicitement partie du programme
de formation dans lequel sont engags les tudiants.
Article 35
La validation des connaissances acquises au cours de la formation initiale se

fait selon des modalits officielles. Elle porte sur les disciplines enseignes
lUniversit, sur les capacits critiques et dauto-valuation des candidats, et
elle requiert la rfrence aux exigences thiques et aux rgles dontologiques
des psychologues.
Code sign par lAssociation des Enseignants de Psychologie des Universits (AEPU), lAssociation Nationale des Organisations de Psychologues
(ANOP), la Socit Franaise de Psychologie (SFP) le 22 mars 1996.
439
Annexes
2.
Recommandations internationales sur lutilisation

des tests [extrait]1
Introduction et contexte dorigine
Le besoin de Recommandations internationales

Lobjectif essentiel vis par la Commission Internationale des Tests (en
abrg CIT) travers ce projet de Recommandations est de promouvoir
une bonne utilisation des tests et dencourager des pratiques exemplaires
dans le domaine de lvaluation. Le travail ralis jusqu maintenant par la
CIT pour permettre un haut niveau de qualit dans ladaptation des tests
(Hambleton, 1994 ; Van de Vijver F. & Hambleton R., 1996) constitue
une tape importante vers une homognisation de leur qualit, en vue de
leur utilisation dans diffrentes langues et diffrentes cultures. Lors de sa
runion Athnes en 1995, le conseil de la CIT a adopt une proposition
visant largir cette proccupation, en incluant des Recommandations sur
une utilisation des tests qui soit quitable et conforme lthique. De ces
Recommandations peuvent tre tires des normes pour la dfinition des
comptences des utilisateurs de tests et leur formation.
Il existe un certain nombre de raisons pour lesquelles le besoin de
recommandations sur lutilisation des tests au niveau international se
manifeste :
Les diffrents pays prsentent des disparits importantes en ce qui
concerne le niveau de contrle lgal, ventuel, quils peuvent exercer

sur lutilisation du testing et ses consquences pour ceux qui sont
tests. Certaines organisations professionnelles nationales pratiquent un
enregistrement lgal des psychologues, dautres non ; certaines disposent
de procdures pour contrler les normes dutilisation des tests par des
non-psychologues, dautres nen ont pas. Lexistence dun ensemble de
recommandations, acceptes au niveau international, peut fournir aux
associations nationales de psychologues et autres corps de professionnels
concerns, une aide la mise en place de normes, dans les pays o de
telles normes sont soit actuellement dficientes, dune manire ou dune
autre, soit totalement inexistantes.
1. Publi avec laimable autorisation de la Socit Franaise de Psychologie (SFP). Le texte dans son
entier est consultable sur le site de la SFP : www.sfpsy.org.
440
Lorganisation de laccs aux tests, en termes de droits dacquisition ou
dutilisation de ces instruments, varie de manire importante dun pays

lautre. Dans certains pays, cet accs est restreint aux seuls psychologues ;
dans dautres, aux utilisateurs rpertoris par les diffuseurs nationaux
formellement autoriss ; dans dautres encore, les utilisateurs peuvent
accder librement au matriel sans restriction auprs des diffuseurs dans
leur pays ou directement auprs de diffuseurs domicilis ltranger.
Un certain nombre dinstruments bien connus sont apparus sur internet
en violation des lois sur la proprit intellectuelle (copyright), sans
lautorisation des auteurs ou des diteurs des tests, et sans considration
pour les questions de scurit des tests.
Dans le domaine du testing en psychologie du travail, la plus grande
mobilit internationale du travail a accru la demande de tests utilisables
avec des candidats un emploi venant de pays diffrents, les tests tant
souvent administrs dans un pays pour le compte dun employeur dun
autre pays.
Un travail de dveloppement est actuellement ralis aux tats-Unis et
en Grande-Bretagne en vue de permettre une utilisation dInternet pour
une valuation distance dans les domaines professionnel et ducatif.
Ce phnomne soulve une foule de questions concernant les normes
dadministration et le contrle du processus de testing, y compris le
problme de la scurit du test.
But et objectifs
Le but long terme de ce projet comprend la production dun ensemble
de recommandations qui se rapportent aux comptences (connaissances,
capacits, savoir-faire et autres caractristiques personnelles) requises des
utilisateurs de tests. Ces comptences sont dfinies en termes de critres de
performance valuables. Ces critres fournissent la base pour dvelopper des
normes de comptence exigible de tout candidat une qualification en tant
quutilisateur de tests. Lanalyse de telles comptences doit inclure la prise
en compte de questions telles que :
Les normes professionnelles et thiques dans le testing,
Les droits de la personne teste et des autres parties concernes par le
processus de testing,
Le choix et lvaluation du test parmi un ensemble dpreuves similaires,
Ladministration, la cotation et linterprtation du test,
Annexes
441
Le compte rendu crit et la communication des rsultats.
Dans la mesure o elles sont directement lies lutilisation des tests, les
Recommandations ont galement des implications pour :
Les normes respecter pour la construction des tests,
Les normes pour la documentation lusage des utilisateurs par exemple,
manuel de lutilisateur, manuel technique,

Les normes pour rguler lachat et la disponibilit des tests, ainsi que
linformation sur les tests.
Ces Recommandations reprsentent le travail de spcialistes dans le
domaine du testing psychologique et ducatif (cest--dire psychologues,
psychomtriciens, diteurs de tests, auteurs de tests) issus dun certain
nombre de pays. Lintention de ce document nest pas dinventer de
nouvelles recommandations, mais de rassembler les tendances communes
qui parcourent les recommandations existantes, les codes de dontologie, les
noncs de normes et autres documents pertinents, pour crer une structure
cohrente lintrieur de laquelle ces lments puissent tre compris et mis
en uvre.
Mise au point des recommandations

Les Recommandations doivent tre considres comme des rfrences par
rapport auxquelles les normes locales existantes peuvent tre compares en
ce qui concerne ltendue de leur prise en charge, ainsi que leur qualit au
niveau international. En utilisant les Recommandations comme rfrences
ou comme bases pour dvelopper des documents valables localement (par
exemple, normes, codes de dontologie, dclarations sur les droits des
personnes testes), on favorisera laccs un haut niveau dhomognit
transnationale.
Le travail sur les recommandations a dbut en rassemblant les documents
se rapportant aux normes sur les tests, codes de dontologie, dutilisation des
tests, etc., dans un grand nombre de pays1 . Bien que tirant parti de toutes
ces sources, ces Recommandations ont t plus particulirement influences
par :
1. Une liste de tous les documents qui ont aliment ce processus peut tre obtenue sur demande
adresse aux auteurs.
442
The Australian Psychological Society (APS) Supplement to guidelines on the
use of Psychological Tests (Kendall et al., 1997).

The British Psychological Society (BPS) Level A and Level B standards for
occupational test use (Bartram, 1995, 1996).
The American Educational Research Association (AERA), American Psychological Association (APA), & National Council on Measurement in Education
(NCME) (1985) Standards for educational and psychological testing.
American Association for Counselling and Development (AACD) Responsibilities of Users of Standardized Tests (Schafer, W. D, 1992).
The CPA (Canadian Psychological Association, 1987) Guidelines for
Educational and Psychological Testing.
Le document de lAPS a t prcieux car il rassemble la plus grande

partie de ce qui est contenu dans les publications de la BPS et les
publications amricaines, en tirant parti galement des publications du
South African National Institute for Psychological Research (NIPR), et des
conseils lintention des utilisateurs de tests publis par les diteurs de tests.
Il intgre galement beaucoup de ce qui provient des travaux fondateurs du
Joint Committee on Testing Practices (JCTP) Test User Qualifications Working
Groups (TUQWG), travaux partir dune approche base sur des donnes
denqute pour promouvoir une bonne utilisation des tests (par exemple,
Eyde et al., 1988, 1993 ; Morelandetal, 1995), et le travail du JCTP sur le
Code of Fair Testing Practices in Education (JCTP, 1988 ; Fremer, Diamond,
& Camara, 1989). Lannexe B a tir davantage parti des travaux plus rcents
du JCTP (JCTP, 2000) sur les droits et responsabilits des personnes testes.
Le contenu des sources primaires a t analys et les dclarations
classes selon quatorze sections principales. Lorsque ctait appropri, des
dclarations uniques ont t rdiges pour prendre en compte, en les
synthtisant, un certain nombre de dclarations provenant de diffrentes
sources. Les dclarations ont galement t modifies selon un format tel
quil se prsente comme la complmentation dune phrase commune (par
exemple, Les utilisateurs de tests comptents feront tout leur possible
pour... , ou Les utilisateurs de tests comptents peuvent... ).
Cette structure initiale de quatorze sections principales et de leur contenu
a t intgre dans lavant-projet de document de travail.
Celui-ci a constitu le matriel pour un atelier international qui sest tenu
Dublin en juillet 1997. Lintention de latelier de la CIT tait dtudier
et dvaluer de manire critique tous les aspects du document de cadrage,
en ayant pour objectif de produire une premire version dun ensemble
Annexes
443
de recommandations qui auraient une crdibilit et une reconnaissance

internationales. Pendant latelier, le document de cadrage a t examin en
dtail, et des amliorations ont t proposes en termes de forme, de structure
et de contenu. la suite de latelier, le document a t compltement revu
(version 2.0) et a circul parmi tous ceux qui lavaient comment. Un
avant-projet de document de consultation (version 3.1) a t prpar, qui
prenait en compte tous les commentaires et suggestions proposs pour la
version 2.0.
Des copies de la version 3.1 du document de consultation et une grille de
rponse structure ont t largement diffuses aux personnes et organisationscl, pour commentaire. Un total de deux cents exemplaires a t distribu.
Un total de vingt-huit rponses dtailles a t reu, incluant des rponses
dorganisations telles que lAPA, la BPS, la SFP et quelques autres associations
professionnelles europennes. Durant lt 1998, les Recommandations ont
t revues la lumire de ces commentaires, et 200 exemplaires (version 4.1)
ont t envoys pour une autre consultation. Un total de 18 rponses
circonstancies ont t reues pour cette seconde srie de consultations. De
plus, des commentaires informels de soutien ont t fournis par de nombreux
destinataires du document de consultation par courrier lectronique ou lors
de rencontres.
En mettant au point la prsente version des Recommandations (Version 2000), tous les efforts ont t faits pour prendre en compte toutes ces
rponses. Les rponses taient, sans exception, utiles et constructives1 .
Ces Recommandations doivent tre considres comme une aide plutt
que comme une contrainte. Il est ncessaire de sassurer que les Recommandations rassemblent les principes de base universels dune pratique
correcte des tests, sans chercher imposer une uniformit l o existent des
diffrences lgitimes, dun pays ou dune zone dapplication lautre,
en ce qui concerne les fonctions ou les pratiques.
La structure propose distingue trois principaux aspects des comptences :
1. Les normes professionnelles et thiques de bonne pratique, qui
concernent la faon selon laquelle le processus de testing est conduit, et la
faon dont les utilisateurs de tests interagissent avec les autres personnes
impliques dans le processus.
1. Un compte rendu dtaill sur ces rsultats de la premire consultation a t soumis la runion du
conseil de la CIT en aot 1998. Un compte rendu de la seconde consultation joint la Version 5.0 des
recommandations a t soumis au conseil de la CIT lors de sa runion de juin 1999. La Version 2000
contient des modifications de rdaction mineures par rapport la Version 5.0.
444
2. Les connaissances, la comprhension et les savoir-faire relatifs au

processus de testing : ce que les utilisateurs de test doivent tre capables
de faire.
3. Les connaissances et la comprhension qui sont ncessaires pour matriser
le processus de testing et ltayer.
Ces trois composantes diffrent, et sont pourtant inextricablement lies
dans la pratique.
Les Recommandations proviennent dun objectif-cl. Celui-ci peut tre
caractris comme lordre de mission de lutilisateur de tests. Il constitue
la base partir de laquelle les Recommandations sont dveloppes. Chaque
recommandation dfinit lune des facettes de comptence des utilisateurs
de tests qui contribue lobjectif cl.
Joint lobjectif cl, le champ dapplication des Recommandations dcrit
les personnes auxquelles elles sappliquent, les formes dvaluation auxquelles
elles se rapportent et les contextes dvaluation.
Ce document contient :
1. Lobjectif cl et le champ dapplication des Recommandations.
2. La dfinition des comptences des utilisateurs de tests, en relation avec
une approche thique des tests.
3. La dfinition des comptences des utilisateurs de tests, en relation avec
une pratique correcte de lutilisation des tests.
Les Recommandations
Objectif-cl
Un utilisateur de tests comptent utilise les tests de manire approprie, de
manire professionnelle, et de manire thique, en prenant en considration les
besoins et les droits de ceux qui sont impliqus dans le processus de passation des
tests, les justifications de la passation, et le contexte, au sens large, dans lequel la
passation se droule.
On permettra quil en soit ainsi en sassurant que les utilisateurs de
tests disposent des comptences ncessaires pour mener bien une telle
procdure, ainsi que les connaissances et une comprhension des tests et de
leur utilisation suffisantes pour clairer et tayer ce processus.
445
Annexes
Champ dapplication
Toute tentative pour fournir une dfinition prcise dun test ou du testing en
tant que processus chouera vraisemblablement parce quelle risque dexclure
certaines procdures qui devraient en faire partie, et den inclure dautres
qui devraient en tre exclues. Pour les besoins de ces Recommandations, les
termes tests et testing doivent tre interprts au sens large. Le fait quune
procdure dvaluation soit ou non qualifie de test reste peu probant.
Ces Recommandations sont pertinentes pour de nombreuses procdures
dvaluation qui ne sont pas appeles des tests ou pour lesquelles on cherche
viter cette appellation. Plutt que de fournir une dfinition unique, les
propositions suivantes sont une tentative pour organiser le domaine couvert
par les Recommandations.
La passation de tests comprend une large gamme de procdures destines
tre employes dans lvaluation psychologique, professionnelle et

ducative.
La passation de tests comprend des procdures permettant la mesure
des comportements normaux ou pathologiques, voire des dysfonctionnements.
Les procdures de passation de tests sont habituellement construites
pour tre administres selon des conditions soigneusement contrles ou
standardises, qui incluent des protocoles cots de manire systmatique.
Ces procdures fournissent des mesures de la performance et amnent
tirer des infrences partir dchantillons du comportement.
Elles comprennent galement des procdures qui peuvent aboutir
catgoriser ou classer les personnes (par exemple, en termes de types
psychologiques).
Toute procdure utilise pour tester , au sens dfini ci-dessus, devrait

tre considre comme un test, sans tenir compte de son mode dadministration, ni du fait quil a t, ou non, construit par un auteur de
test professionnel, ni encore du fait quil comprendrait des ensembles de
questions ou quil demande de raliser des performances de tches ou
doprations. (par exemple, chantillon de tches professionnelles, tests
psychomoteurs de poursuite ).
Les tests devraient sappuyer sur des constats de leur fidlit et de leur
validit en relation avec les objectifs poursuivis. Des preuves devraient tre
fournies pour appuyer les infrences qui sont tires des scores au test. Ces
preuves devraient tre accessibles aux utilisateurs de tests, et disponibles
446
pour tre examines et values de manire indpendante. Lorsque de

telles informations importantes sont publies dans des rapports techniques
difficilement accessibles, des rsums comprenant les rfrences compltes
devraient tre fournis par le diffuseur du test.
Les Recommandations sur lutilisation des tests doivent tre considres
comme sappliquant toutes les procdures semblables quelles soient ou non
dsignes explicitement comme tests psychologiques ou tests ducatifs
et quelles soient ou non confirmes par des constats techniques disponibles.
La plupart de ces Recommandations sappliqueront aussi des procdures
dvaluation situes en dehors du domaine des tests. Elles peuvent tre
pertinentes pour toute procdure dvaluation utilise dans des situations o
lvaluation des personnes se fait dans un but srieux et significatif et qui, mal
utilise, pourrait aboutir des dommages aux personnes ou des souffrances
psychologiques (par exemple, les entretiens de slection professionnelle, les
valuations des performances professionnelles, lvaluation diagnostique des
besoins daide aux apprentissages scolaires/cognitifs).
Les Recommandations ne sappliquent pas lutilisation de matriels qui
peuvent avoir une ressemblance superficielle avec les tests, mais que tous les
participants reconnaissent comme destins tre utiliss seulement des
fins de distraction ou damusement (par exemple, questionnaires de style de
vie dans les magazines et les journaux).
qui sadressent les Recommandations ?

Les Recommandations sappliquent lutilisation des tests dans une pratique
professionnelle. En tant que telles, elles sadressent dabord :
aux personnes qui acquirent ou qui dtiennent des matriels de test ;
ceux qui ont la responsabilit de choisir des tests et de dterminer lusage
qui en sera fait ;

ceux qui administrent, cotent ou interprtent les tests ;
ceux qui fournissent des avis aux autres sur la base des rsultats aux
tests (par exemple, psychologues cliniciens, psychologues du travail,
psychologues scolaires, conseillers dorientation-psychologues, etc.) ;
ceux qui ont la charge de rendre compte des rsultats aux tests et de
communiquer leurs rsultats aux personnes qui ont pass des tests.
Annexes
447
Les Recommandations sont galement pertinentes pour dautres personnes impliques dans lutilisation des tests telle quelle a t dfinie
ci-dessus. Celles-ci comprennent :
les constructeurs (auteurs) de tests,
les diteurs de tests,
ceux qui sont partie prenante dans la formation des utilisateurs de tests,
ceux qui sont tests, ainsi que leur entourage (parents, pouse, partenaires
de vie),
les organisations professionnelles et les autres associations qui sont
concernes par lutilisation des tests psychologiques et ducatifs,
les dcideurs et les lgislateurs.
Bien que destines au dpart aux pratiques professionnelles, les Recommandations seront galement pertinentes pour ceux qui utilisent les tests
uniquement des fins de recherche.
Les Recommandations nont pas pour but de couvrir tous les types de
techniques dvaluation (par exemple, les entretiens structurs ou semistructurs, lvaluation des activits de groupe), ou toutes les situations dans
lesquelles une valuation a lieu (par exemple, les centres dvaluation pour
lemploi [assessment centers]). Cependant, plusieurs des Recommandations
peuvent vraisemblablement sappliquer dans des situations dvaluation
et pour des objectifs plus gnraux que ceux observs en premier lieu
dans le testing psychologique et ducatif (par exemple, lutilisation des
centres de bilan pour le placement ou la slection des salaris, les entretiens
structurs ou semi-structurs, ou lvaluation pour la slection, lorientation
professionnelle et le conseil en carrire).
Facteurs contextuels
Les Recommandations sappliquent au niveau international. Elles peuvent
tre utilises pour dvelopper des normes spcifiques et locales (par exemple,
nationales) en passant par un processus de contextualisation. Il est admis que
de nombreux facteurs affectent la manire dont les normes de qualit peuvent
tre gres et mises en place dans la pratique. Ces facteurs contextuels doivent
tre pris en considration au niveau local (national) lorsquon interprte
les Recommandations et quon cherche dfinir ce quelles veulent dire de
manire pratique dans un environnement particulier.
448
Les facteurs qui doivent tre pris en considration, lorsquon transforme

les Recommandations en normes spcifiques, comprennent :
les diffrences sociales, politiques, institutionnelles, linguistiques et
culturelles entre les cadres dvaluation ;

les lois des pays o se droule le testing ;
les Recommandations nationales existantes et les normes de qualit
labores par des associations et des organisations professionnelles de
psychologues ;
les diffrences se rapportant aux valuations individuelles et aux valuations de groupe ;
les diffrences se rapportant au domaine du test (ducatif, clinique, travail
et autres champs dvaluation) ;
les principaux destinataires des rsultats des tests (par exemple les
personnes testes, leurs parents ou leur tuteur, le commanditaire du
test, un employeur ou un tiers) ;
les diffrences relatives lutilisation des rsultats du test (e.g., pour
prendre une dcision lissue dun examen de slection, ou pour fournir
des informations dans le cadre dune activit de conseil) ;
les variations dans le degr auquel la situation fournira la possibilit
de vrifier lexactitude de linterprtation la lumire dinformations
ultrieures et de la modifier si ncessaire.
Connaissances, comprhension et savoir-faire

Connaissances, comprhension et savoir-faire tayent toutes les comptences
des utilisateurs de tests. La nature de leur contenu et leur niveau de dtail
peuvent varier selon les pays, les domaines dapplication, et le niveau de
comptence requis pour utiliser un test.
Les Recommandations ne comportent pas de description dtaille de
ces lments. Cependant, lorsquon applique les Recommandations dans
des situations spcifiques, les connaissances pertinentes, les aptitudes,
comptences et autres caractristiques personnelles devront tre spcifies.
Cette spcification fait partie du processus de contextualisation par lequel des
recommandations gnriques sont dveloppes dans des normes spcifiques.
Les descriptions des principaux domaines de connaissances, comprhension,
savoir-faire doivent comprendre les points suivants.
Annexes
449
Connaissances dclaratives pertinentes

Connaissance des principes et procdures de base de la psychomtrie,
et des exigences techniques des tests (par exemple, fidlit, validit,

standardisation) ;
Connaissance suffisante des tests et de la mesure, pour permettre une
comprhension approprie des rsultats des tests ;
Connaissance et comprhension des thories pertinentes et des modles
des aptitudes, de la personnalit et dautres construits psychologiques
ou de la psychopathologie, autant que ncessaire pour sinformer sur le
choix des tests et linterprtation des rsultats ;
Connaissance des tests et des fournisseurs de tests dans le secteur
dapplication o on intervient.
Connaissances pratiques et comptences
Connaissances et comptences relatives aux procdures spcifiques
dvaluation ou aux instruments, y compris lutilisation des procdures

dvaluation assiste par ordinateur ;
Connaissances spcialises et comptences pratiques ncessaires pour
une bonne utilisation des tests situs lintrieur du rpertoire doutils
dvaluation de chacun ;
Connaissances et comprhension de la ou des thorie(s) sous-jacente(s)
aux scores au test, lorsque cest important si lon veut tre en mesure de
tirer des infrences valides partir des rsultats au test.
Les recommandations couvrent :

Des comptences gnrales et personnelles relatives aux tches
La ralisation dactivits pertinentes telles que ladministration des tests,
le compte rendu et la prparation de la communication des rsultats aux

personnes testes et aux autres clients ;
Des comptences suffisantes en communication crite et orale pour une
prparation approprie des personnes testes, ladministration des tests,
la rdaction de comptes rendus des rsultats aux tests, et pour interagir
avec les autres personnes concernes (parents, ou dcideurs dans les
organisations) ;
Des comptences relationnelles suffisantes pour une prparation approprie des personnes testes, ladministration des tests, et la prparation
de la communication des rsultats.
450
Des connaissances et comptences contextuelles

Savoir quand utiliser ou ne pas utiliser les tests ;
Savoir comment intgrer le testing avec dautres composantes moins
formelles de la situation dvaluation (par exemple donnes biographiques,

entretiens non structurs et rfrences, etc.) ;
Connaissance des questions dactualit professionnelle, lgale et thique
concernant lutilisation des tests, et de leurs implications pratiques pour
lutilisation des tests.
Des savoir-faire dans la gestion des tches
Connaissance des rgles de dontologie et de pratique correcte concernant
lutilisation des tests et de leurs rsultats, la prparation dun compte

rendu, sa production et son archivage, le stockage en scurit des matriels
de tests et des donnes de tests ;
Connaissance des contextes sociaux, culturels et politiques dans lesquels
le test est utilis, et des modalits selon lesquelles ces facteurs peuvent
avoir un effet sur les rsultats, leur interprtation et lutilisation qui en
est faite.
Des comptences quant la gestion des imprvus
Savoir comment grer les problmes, difficults et interruptions en cours
de droulement ;
Savoir comment grer les questions poses par une personne teste
pendant ladministration du test, etc.
Savoir comment grer des situations dans lesquelles il existe une possibilit
de mauvais usage des tests ou un risque de mauvaise interprtation des
scores au test.
Prendre ses responsabilits pour un usage thique des tests
Les utilisateurs de tests comptents devraient :

1.1. Agir de faon professionnelle et thique.
1.1.1. Promouvoir et maintenir des normes professionnelles et thiques.
1.1.2. tre capables de mettre en pratique une comprhension des
questions professionnelles et thiques actuelles et des dbats concernant
lutilisation des tests et leur champ dapplication.
Annexes
451
1.1.3. Mettre en place un systme de rgles explicite sur le testing et

lutilisation des tests1 .
1.1.4. Sassurer que les personnes travaillant pour, ou avec eux, adhrent
aux normes thiques et dontologiques.
1.1.5. Diriger les communications de rsultats en prenant en compte les
sensibilits des personnes testes et des tierces parties concernes.
1.1.6. Prsenter les tests et le testing de faon positive et quitable dans
les communications avec et partir des mdias.
1.1.7. viter les situations o ils peuvent avoir ou tre perus comme
ayant un intrt personnel dans les rsultats de lvaluation, ou dans
lesquelles lvaluation risque de nuire la relation avec leur client.
1.2. Sassurer quils ont les comptences pour utiliser les tests.
1.2.1. Travailler dans les limites des principes scientifiques et de
lexprience tablie.
1.2.2. Atteindre et maintenir un haut niveau dexigences quant leurs
comptences personnelles.
1.2.3. Connatre les limites de leurs propres comptences et travailler
lintrieur de ces limites.
1.2.4. Suivre les volutions pertinentes et les progrs concernant lutilisation des tests, et le dveloppement des tests, y compris les changements
lgislatifs et politiques qui peuvent avoir un impact sur les tests et lutilisation
des tests.
1.3. Prendre leurs responsabilits pour lutilisation quils font des
tests.
1.3.1. Ne proposer que les activits de testing et nutiliser que les tests
pour lesquels ils sont qualifis.
1.3.2. Assumer ses responsabilits pour le choix des tests utiliss et pour
les conseils formuls.
1.3.3. Fournir, aux participants au processus de testing, des informations
claires et adquates sur les rgles dthique et les dispositions lgales rgissant
le testing psychologique.
1.3.4. Sassurer que le contenu du contrat entre la personne teste et la
personne qui fait passer les tests est clair et bien compris2 .
1.3.5. tre vigilant pour dtecter toute consquence inattendue de lusage
des tests.
1. Un exemple dbauche de systme de rgles est prsent en annexe A.
2. On trouvera un exemple de contrat entre la personne teste et la personne faisant passer les
tests en annexe B.
452
1.3.6. Faire tout son possible pour viter de nuire ou de causer une
souffrance ceux qui sont impliqus dans le processus de test.
1.4. Sassurer que le matriel de test est conserv en scurit.
1.4.1. Scuriser le stockage du matriel de test et en contrler laccs.
1.4.2. Respecter les lois sur la proprit intellectuelle et les accords qui
existent en ce qui concerne le test, incluant les interdictions de reproduction,
ou la transmission du matriel au format lectronique ou autre dautres
personnes, que celles-ci soient ou non qualifies.
1.4.3. Protger lintgrit des tests en sabstenant de donner un entranement aux sujets sur du matriel de test ayant cours, ou un autre matriel
dentranement dont lusage pourrait influencer de manire inquitable leurs
performances aux tests.
1.4.4. Sassurer que les techniques de tests ne sont pas dcrites publiquement dune faon telle que leur utilit en soit affecte.
1.5. Sassurer que les rsultats aux tests sont traits confidentiellement.
1.5.1. Prciser qui aura accs aux rsultats et dfinir des niveaux de
confidentialit.
1.5.2. Expliquer les niveaux de confidentialit aux personnes avant que
les tests ne soient administrs.
1.5.3. Limiter laccs aux rsultats ceux qui y sont autoriss.
1.5.4. Obtenir un consentement clair avant de communiquer les
rsultats dautres personnes.
1.5.5. Protger les donnes stockes sur fichier lectronique de telle
manire que seules les personnes autorises puissent y accder.
1.5.6. tablir des rgles claires concernant la dure pendant laquelle les
donnes de tests sont conserves dans des fichiers.
1.5.7. ter les noms et autres identifiants personnels des bases de
donnes contenant des rsultats qui sont archivs des fins de recherches,
dlaboration de normes (talonnages), ou dautres traitements statistiques.
Assurer une pratique correcte dans lutilisation des tests
2.1. Estimer lintrt ventuel dune utilisation des tests dans une
situation dvaluation donne.
Les utilisateurs de tests comptents devront :
2.1.1. Produire une justification argumente de lutilisation de tests.
Annexes
453
2.1.2. Sassurer quil a t procd une analyse approfondie des besoins

du client, des motifs de la consultation, ou du type de diagnostic, de
situation, ou demploi vis par cette valuation.
2.1.3. tablir que les connaissances, savoir-faire, comptences, aptitudes
ou autres caractristiques, que le test est cens mesurer, sont des indicateurs
des comportements pertinents dans le contexte partir duquel on fera des
infrences.
2.1.4. Rechercher dautres sources collatrales dinformations pertinentes.
2.1.5. Estimer les avantages et les inconvnients de lutilisation de tests,
par comparaison avec dautres sources dinformations.
2.1.6. Sassurer quun plein usage est fait de toutes les sources dinformations collatrales.
2.2. Choisir des tests techniquement fiables et appropris la
situation.
Les utilisateurs de tests comptents devront :
2.2.1. Examiner linformation actualise couvrant lensemble des tests
potentiellement pertinents (par exemple partir de jeux de spcimens,
dtudes indpendantes, de conseils dexperts), avant de choisir un test
utiliser.
2.2.2. Dterminer si la documentation technique et le manuel de
lutilisateur fournissent des informations suffisantes pour apprcier les points
suivants :
a) Porte ou couverture et reprsentativit du contenu du test, pertinence
des talonnages, niveau de difficult du contenu, etc. ;
b) Prcision de la mesure et fidlit dmontres en ce qui concerne les

populations de rfrences ;
c) Validit (en ce qui concerne les populations de rfrence) et pertinence
pour lusage requis ;
d) Absence de biais systmatiques au dtriment de lun des groupes de
sujets auxquels le test sera administr ;
e) Caractre acceptable pour ceux qui seront impliqus dans son utilisation,
prenant en compte lquit et la pertinence perues ;
f) Faisabilit, tenant compte de la dure, du cot et des besoins en gnral.
2.2.3. Se garder de lutilisation de tests qui ont une documentation
technique inadapte ou peu claire.
2.2.4. Nutiliser des tests que dans les situations pour lesquelles des
preuves de validit pertinentes et appropries sont disponibles.
454
2.2.5. Se garder de porter un jugement sur un test seulement sur la base

de sa validit apparente, des tmoignages des utilisateurs, ou du conseil de
personnes qui y ont des intrts commerciaux.
2.2.6. Rpondre aux demandes de toutes les parties (par exemple, les
personnes testes, les parents, les responsables hirarchiques), en leur
fournissant une information suffisante pour leur permettre de comprendre
pourquoi le test a t choisi.
2.3. Prendre effectivement en compte les questions dquit dans
lutilisation des tests.
Lorsquon utilise des tests avec des personnes appartenant diffrents
groupes (par exemple, en termes de sexe, dorigine culturelle, dducation, ou
dge), les utilisateurs de tests comptents sassureront, autant que possible,
que :
2.3.1. Les tests ne sont pas biaiss et sont adapts pour les diffrents
groupes qui vont tre tests.
2.3.2. Les dimensions qui sont values, sont significatives dans chacun
des groupes en prsence.
2.3.3. Des donnes sont disponibles sur lexistence de diffrences possibles
dans les performances des groupes au test.
2.3.4. Des constats concernant le Fonctionnement Diffrentiel des Items
(FDI1 ) sont disponibles, lorsque cest pertinent.
2.3.5. On dispose de donnes confirmant la validit du test, compte tenu
de son utilisation prvue pour les diffrents groupes.
2.3.6. Les effets des diffrences intergroupes non pertinentes par rapport
lobjectif principal de lvaluation (par exemple diffrences de motivation
pour rpondre, ou comptences en lecture) sont minimiss.
2.3.7. Dans tous les cas, les Recommandations concernant lusage
quitable des tests sont interprtes la lumire du contexte des politiques
et des lgislations nationales.
Lorsque les tests utiliss sont administrs dans plusieurs langues (
lintrieur dun mme pays ou entre plusieurs pays), les utilisateurs de
tests comptents sassureront, autant que possible, que :
1. Note des traducteurs : Le FDI est traditionnellement appel biais ditem ou biais item/test. le
FDI se manifeste lorsquun item mesure une autre variable que la variable quil est cens mesurer et
que cette variable parasite favorise ou dfavorise un des groupes en prsence. Une nuisance
est ainsi introduite dans la mesure. Pour une revue de questions rcente sur les biais dans les tests
et le FDI, on peut consulter Vrignaud, P. (2002). Les biais de mesure : savoir les identifier pour y
remdier. Bulletin de Psychologie, 55(6), 625-634.
Annexes
455
2.3.8. La version dans chacune des langues ou dialectes a t mise au point

selon une mthodologie rigoureuse et rpondant un niveau dexigence de
qualit lev.
2.3.9. Les constructeurs ont t attentifs aux questions de contenu, de
culture et de langue.
2.3.10. Ceux qui administreront les tests peuvent communiquer clairement dans la langue dans laquelle le test doit tre administr.
2.3.11. Le niveau de comptence des sujets, pour la langue dans laquelle
le test sera administr, est contrl de manire systmatique, et, selon ce qui
est le plus adquat, le sujet est valu avec une version du test dans sa langue
ou selon une procdure bilingue.
Quand on prvoit dutiliser les tests avec des personnes handicapes, les
utilisateurs de tests comptents sassureront, autant que possible, que :
2.3.12. On a recherch les avis dexperts comptents concernant les effets
potentiels des diffrents handicaps sur la performance aux tests.
2.3.13. On a demand leur avis aux personnes susceptibles de passer
le test, et leurs besoins et souhaits sont pris en considration de manire
approprie.
2.3.14. Les amnagements adquats ont t prvus lorsquil y a parmi les
personnes testes des personnes ayant des difficults daudition, de vision,
de motricit, ou dautres handicaps (par exemple, difficults dapprentissage,
dyslexie).
2.3.15. Lutilisation dautres instruments dvaluation, plutt que des
modifications des tests eux-mmes, a t envisage (par exemple, dautres
tests plus adapts, ou dautres formes structures dvaluation).
2.3.16. Lavis de spcialistes comptents a t demand si limportance
des modifications requises pour lutilisation avec les personnes handicapes
dpasse lexprience de lutilisateur de tests.
2.3.17. Les modifications, si ncessaires, sont adaptes la nature du
handicap et sont mises en uvre pour minimiser son impact sur la validit
des scores.
2.3.18. Les informations concernant la nature de toutes les modifications
faites un test ou une procdure de test sont communiques ceux qui
interprtent ou travaillent partir des scores aux tests, chaque fois que la
rtention dune telle information pourrait conduire une interprtation
biaise ou une dcision inquitable.
2.4. Faire les prparations requises pour la sance de tests.
Les utilisateurs de tests comptents devront faire tous les efforts
raisonnables pour tre srs de :
456
2.4.1. Fournir aux parties concernes, en temps opportun, une information claire concernant lobjectif de lutilisation de tests, la faon dont ils
peuvent le mieux se prparer la sance de tests et la procdure suivre.
2.4.2. Informer les personnes testes, de la langue ou du dialecte pour
lesquels le test est considr comme appropri.
2.4.3. Envoyer aux personnes testes des exercices dentranement,
chantillons, ou documents de prparation, lorsque ceux-ci sont disponibles
et lorsquune telle pratique est cohrente avec les usages recommands pour
les tests concerns.
2.4.4. Expliquer clairement aux personnes testes leurs droits et leurs
responsabilits1 .
2.4.5. Recueillir laccord explicite des personnes testes ou de leurs
reprsentants lgaux avant toute administration de test.
2.4.6. Expliquer aux parties concernes, lorsque la passation des tests est
facultative, les consquences dune acceptation ou dun refus de passer les
tests, de sorte quelles puissent faire leur choix en connaissance de cause.
2.4.7. Effectuer les amnagements matriels ncessaires en sassurant que :
a) Les prparatifs sont conformes ceux qui sont prescrits dans le manuel
de lditeur.
b) Les lieux et les installations pour la passation des tests ont t prpars
suffisamment lavance, lenvironnement physique est accessible, sr,
tranquille, ne gnant pas la concentration, et appropri lobjectif vis.
c) Les documents, en nombre suffisant, sont disponibles et ont t vrifis
afin de sassurer quaucune trace na t laisse par les utilisateurs
prcdents sur les livrets de questions ou sur les feuilles de rponse.
d) Le personnel qui sera impliqu dans ladministration est comptent ;
e) Des amnagements appropris ont t prvus pour tester les personnes
prsentant un handicap.
2.4.8. Anticiper les problmes possibles et y remdier par une prparation
minutieuse du matriel et des instructions.
2.5. Administrer les tests de manire approprie.
2.5.1. tablir un climat favorable en accueillant les personnes tester et
en les informant de manire positive.
1. Voir annexe B.
Annexes
457
2.5.2. Agir pour rduire lanxit des personnes testes et viter de crer
ou de renforcer une anxit inutile.
2.5.3. Sassurer que les facteurs de distraction potentiels (par exemple, les
alarmes de montre, les tlphones portables, les bippeurs) ont t neutraliss.
2.5.4. Sassurer avant le dbut de la sance que les personnes testes ont
en leur possession le matriel ncessaire pour passer le test.
2.5.5. Administrer les tests selon des conditions de surveillance appropries.
2.5.6. Dans la mesure du possible, donner les consignes du test dans la
langue principale des personnes testes, mme quand le contenu du test a t
conu pour fournir des informations sur les connaissances et les comptences
dans une seconde langue.
2.5.7. Suivre strictement les indications et les instructions telles quelles
sont spcifies dans le manuel du test, et prvoir des amnagements
raisonnables pour les personnes handicapes.
2.5.8. Lire les instructions clairement et calmement.
2.5.9. Laisser assez de temps pour terminer les exemples.
2.5.10. Observer et noter les divergences par rapport la procdure de
passation du test.
2.5.11. Surveiller et noter les temps de rponse avec prcision, lorsque
cest prvu dans la procdure.
2.5.12. Sassurer que tout le matriel a t rcupr la fin de chaque
passation de tests.
2.5.13. Administrer les tests en sassurant dun niveau adquat de
surveillance et dauthentification de lidentit des personnes testes.
2.5.14. Sassurer que ceux qui aident ladministration des tests ont reu
une formation approprie.
2.5.15. Sassurer que les personnes testes ne restent pas sans surveillance
ou que des facteurs extrieurs ne les distraient pendant une sance de tests
surveille.
2.5.16. Fournir une assistance approprie aux personnes testes qui
montrent des signes de dtresse ou danxit excessifs.
2.6. Corriger et analyser les tests avec exactitude. Les utilisateurs de
tests comptents devront :
2.6.1. Se conformer strictement aux procdures standardises pour tablir
les scores.
2.6.2. Effectuer la transformation approprie des notes brutes en dautres
types dchelles pertinentes.
458
2.6.3. Choisir des types dchelles appropris lusage que lon se propose
de faire des scores au test.
2.6.4. Vrifier lexactitude de la conversion des scores en dautres chelles
et de toutes les autres procdures de calcul.
2.6.5. Sassurer que des conclusions invalides ne sont pas tires de la
comparaison de scores avec des normes inadaptes aux personnes testes, ou
primes.
2.6.6. Calculer, lorsque cest appropri, des scores composites en utilisant
les formules et les quations standards.
2.6.7. Mettre en uvre des procdures pour reprer des scores improbables
ou aberrants parmi les rsultats des tests.
2.6.8. Porter clairement et prcisment les noms des chelles dans les
comptes rendus et fournir des lments dinformation clairs sur les normes,
les types dchelles et les quations utilises.
2.7. Interprter les rsultats de manire approprie.
2.7.1. Matriser la comprhension des fondements thoriques et conceptuels du test, la documentation technique, et les directives pour lutilisation
et linterprtation des chelles.
2.7.2. Bien comprendre les chelles utilises, les caractristiques des
normes ou des groupes de rfrence et les limites des scores.
2.7.3. Prendre des mesures pour minimiser les effets sur linterprtation
du test des biais ventuels que lutilisateur pourrait introduire lencontre
des membres du groupe culturel auquel appartient la personne teste.
2.7.4. Utiliser des normes ou des groupes de rfrence appropris lorsquils
sont disponibles.
2.7.5. Interprter les rsultats la lumire des informations disponibles
sur les personnes testes (par exemple, lge, le sexe, le niveau dducation,
la culture et autres facteurs) en prenant en compte, de manire adquate,
les limitations techniques du test, du contexte dvaluation, et des besoins
de ceux qui ont un intrt lgitime dans les rsultats du processus.
2.7.6. viter de gnraliser outrance les rsultats dun test jusqu des
traits ou des caractristiques humaines qui ne sont pas mesures par le test.
2.7.7. Prendre en considration, lorsquon interprte les scores, la fidlit
de chaque chelle, lerreur de mesure et autres caractristiques qui ont pu
modifier artificiellement les scores.
2.7.8. Prendre en compte les critres de validit, concernant la variable
mesure, pour les membres du groupe dmographique auquel appartient la
personne teste (par exemple, groupe culturel, ge, classe sociale, et sexe).
Annexes
459
2.7.9. Dans linterprtation des tests, nutiliser des scores dadmission

que si des preuves de la validit de ces scores dadmission sont disponibles
et valident leur utilisation.
2.7.10. tre attentif aux strotypes sociaux se rapportant au groupe
auquel appartient la personne teste (par exemple, groupe culturel, ge,
classe sociale, et sexe) et viter dinterprter le test dune faon qui perptue
de tels strotypes.
2.7.11. Prendre en compte, au niveau du groupe ou de lindividu, toute
dviation de la procdure standard dans ladministration du test.
2.7.12. Prendre en compte tout indice dune familiarisation antrieure
avec le test lorsquil existe des donnes disponibles concernant leffet dune
telle familiarisation sur la performance au test.
2.8. Communiquer les rsultats clairement et prcisment aux
personnes concernes.
2.8.1. Identifier les parties qui lon peut, de manire lgitime,
communiquer les rsultats aux tests.
2.8.2. Avec le consentement clair des personnes testes, ou de leurs
reprsentants lgaux, produire des comptes rendus crits ou oraux pour les
parties intresses.
2.8.3. Sassurer que les niveaux de technicit et de langage sont adapts
au niveau de comprhension des destinataires.
2.8.4. Souligner le fait que les rsultats des tests ne sont quune source
dinformation et doivent toujours tre considrs en liaison avec dautres
types dinformation.
2.8.5. Expliquer comment limportance des rsultats aux tests doit tre
pondre en relation avec les autres informations sur la personne value.
2.8.6. Utiliser pour le rapport une prsentation et un plan qui soient
appropris au contexte de lvaluation.
2.8.7. Quand cela savre opportun, fournir aux dcideurs des informations sur la manire dont les rsultats peuvent tre utiliss pour clairer leur
dcision.
2.8.8. Expliquer et argumenter lutilisation des rsultats aux tests ayant
servi pour classer les personnes en catgories (par exemple, des fins de
diagnostic ou de slection professionnelle).
2.8.9. Introduire dans les rapports crits des rsums clairs, et, lorsque
cest pertinent, des recommandations spcifiques.
2.8.10. Donner un compte rendu oral aux personnes testes qui soit
constructif et, puisse les aider.
460
2.9. Contrler ladquation du test, et de son utilisation.

2.9.1. Contrler et passer priodiquement en revue les changements qui
se sont produits au cours du temps dans les populations testes, et dans tous
les critres utiliss.
2.9.2. Vrifier si les tests nont pas dventuels impacts ngatifs.
2.9.3. tre attentifs la ncessit de rvaluer lutilisation dun test si
des changements sont apports sa forme, son contenu ou son mode
dadministration.
2.9.4. tre attentifs lopportunit de rvaluer les preuves de validit
du test si lobjectif pour lequel il est utilis, a t modifi.
2.9.5. Lorsque cest possible, chercher valider les tests pour lusage qui
en est fait, ou participer des tudes de validation systmatiques.
2.9.6. Lorsque cest possible, contribuer la mise jour des informations
concernant les normes, la fidlit, et la validit du test, en transmettant aux
constructeurs du test, diteurs ou chercheurs, des donnes pertinentes.
Bibliographie
American Educational Research Associa- Canadian Psychological Association.

tion, American Psychological Associa(1987). Guidelines for Educational and
tion & National Council on MeasurePsychological Testing. Ottawa : Canament in Education. (1985). Standards
dian Psychological Association.
for Educational and Psychological Testing. Washington DC : American Psy- Eyde, L.D., Moreland, K.L. & Robertchological Association.
son, G.J. (1988). Test User Qualifications : A Data-based Approach to PromoBartram, D. (1995).The Development
ting Good Test Use. Report for the Test
of Standards for the Use of PsycholoUser Qualifications Working Group.
gical Tests in Occupational Settings :
Washington DC : American PsycholoThe Competence Approach. The Psygical Association.
chologist, May, 219-223.
Eyde, L.D., Robertson, G.J., Krug, S.E.
Bartram, D. (1996). Test Qualifications
et al (1993). Responsible Test Use : Case
Studies For Assessing Human Behaviour.
and Test Use in the UK : The Competence Approach. European Journal of
Washington DC : American PsycholoPsychological Assessment, 12, 62-71.
gical Association.
Annexes
461
Fremer, J., Diamond, E.E. & Camara, Kendall, I., Jenkinson, J., De Lemos, M.
& Clancy, D. (1997). Supplement to
W.J. (1989). Developing a Code of
Fair Testing Practices in Education.
Guidelines for the use of Psychological
American Psychologist, 44, 1062-1067.
Tests. Australian Psychological Society.
Hambleton, R. (1994).Guidelines for Moreland, K.L., Eyde, L.D., Robertson, G.J., Primoff, E.S. & Most, R.B.
adapting educational and psychologi(1995). Assessment of Test User Qualical tests : A progress report. European
fications : A Research-Based MeasureJournal of Psychological Assessment, 10,
ment Procedure. American Psychologist,
229-244.
50, 14-23.
Joint Committee on Testing Practices. Schafer, W.D. (1992). Responsibilities of
(1988). Code of Fair Testing Practices
Users of Standardized Tests : RUST Stain Education. Washington DC : Joint
tement Revised. Alexandria, VA : AmeCommittee on Testing Practices.
rican Association for Counseling and
Development.
Joint Committee on Testing Practices.
(2000). Rights and Responsibilities of Van de Vijver, F. & Hambleton, R.
Test Takers : Guidelines and Expecta(1996). Translating tests : some practions. Washington DC : Joint Comtical guidelines. European Psychologist,
mittee on Testing Practices.
1, 89-99.
Annexes
Annexe A : Recommandations pour lbauche dune politique sur le testing

Les recommandations suivantes concernent le besoin que peuvent avoir
les organisations de rflchir, de manire systmatique, leur politique de
testing et de sassurer que toute personne concerne a une ide claire de cette
politique. Le besoin dune politique explicite de testing nest pas limit aux
grandes organisations. Les PME et les PMI qui utilisent les tests, aussi bien
que les grandes socits, devraient tre attentives leur politique de testing,
de la mme manire quelles le sont aux questions de sant et de scurit,
la parit, aux handicaps et autres domaines considrs dans le cadre des
pratiques correctes de gestion et de traitement du personnel1 .
1. NDT : En France, la loi du 31 dcembre 1992, encadre les pratiques dvaluation en milieu
professionnel.
462
Bien que les considrations et les obligations suivantes puissent tre

amnages pour tre mises en uvre par les utilisateurs de tests travaillant
comme praticiens indpendants, il nen est pas moins important que ceux-ci
aient une bonne comprhension de leur propre politique et quils doivent
savoir la communiquer leurs partenaires.
Une politique sur le testing est labore afin de :
Sassurer que les objectifs des personnes et des organisations sont atteints ;
Sassurer que les mauvais usages potentiels sont vits ;
Montrer son engagement envers les pratiques correctes ;
Sassurer que lusage des tests est appropri au but poursuivi ;
Sassurer que les tests ne produisent pas de discriminations inquitables ;
Sassurer que les valuations sont bases sur des informations compltes
et pertinentes ;
Sassurer que les tests ne sont utiliss que par des personnels qualifis.
Une politique sur le testing devrait couvrir la plupart, sinon toutes, les
questions suivantes :
Utilisation approprie des tests ;

Mise en scurit des tests et des protocoles ;
Qui peut administrer, coter, et interprter les tests ;
Les conditions de qualification pour ceux qui veulent utiliser les tests ;
La formation des utilisateurs de tests ;
La prparation des personnes testes ;
Laccs au matriel et sa mise en scurit ;
Laccs aux rsultats des tests et aux lments confidentiels des protocoles ;
La communication des rsultats aux personnes testes ;
La responsabilit envers les personnes testes avant, pendant et aprs la
passation des tests ;
Les responsabilits personnelles et institutionnelles de chacune des
personnes utilisatrices.
Toute politique doit tre revue rgulirement et mise jour lorsque des
volutions dans le testing ou des changements dans les pratiques ont lieu.
Les parties concernes doivent pouvoir avoir accs la politique de testing
et en tre informs.
Annexes
463
La responsabilit de la politique de testing de toute organisation devrait

tre dpose auprs dun utilisateur de test qualifi disposant de lautorit
pour sassurer de la mise en place et du respect de cette politique.
Annexe B : Recommandations pour tablir des relations contractuelles

entre les parties concernes par le processus de testing.
Les contrats entre lutilisateur de test et les personnes testes devraient tre
cohrents avec les pratiques correctes, la lgislation et la politique sur le testing
de lutilisateur de test. Les lments suivants sont donns comme exemple
de la nature des questions quun tel contrat devrait aborder. Les dtails
peuvent varier en fonction du contexte de lvaluation (par exemple, travail,
ducation, clinique, recherche) et des lois et dispositions rglementaires
locales ou nationales.
Les contrats entre les utilisateurs de tests, les personnes testes, et les
autres parties, sont souvent implicites et tacites (au moins partiellement).
Clarifier les attentes, les rles et les responsabilits de toutes les parties peut
permettre dviter les malentendus, les dommages et les litiges.
Pour sa part, lutilisateur de test fera tout son possible pour :
b. 1. Informer les personnes testes de leurs droits en ce qui concerne la
manire dont leurs rsultats aux tests seront utiliss et de leurs droits dy
avoir accs1 .
b. 2. Donner un avertissement a priori et prcis sur tous les cots financiers
que peut entraner le processus de testing, qui sera responsable du paiement
et la date laquelle ce paiement sera exigible.
b. 3. Traiter les personnes testes avec courtoisie, respect et impartialit
sans distinction dorigine ethnique, de sexe, dge, de handicap, etc.
b. 4. Utiliser des tests fiables, adapts aux personnes testes et aux objectifs
de lvaluation.
b. 5. Informer les personnes testes avant le testing, sur les objectifs de
lvaluation, la nature des tests utiliss, qui les rsultats seront communiqus
et lutilisation quon envisage de faire de ces rsultats.
b. 6. Avertir de la date laquelle les tests seront administrs, de la date
laquelle les rsultats seront disponibles, et si les personnes testes ou
1. La lgislation sur cette question varie selon les pays. Par exemple, le UK Data Protection Act actuel
donne des droits daccs aux donnes archives sur fichier lectronique diffrents des droits daccs
aux donnes archives dans des dossiers papier. NDT : En France, ces questions sont du ressort de la
Commission Nationale de lInformatique et des Liberts (CNIL). Toute collecte dinformations sur
les personnes est rgie par la Loi Informatique et Liberts de janvier 1971.
464
dautres pourront ou ne pourront pas, avoir une copie des tests, des feuilles
de rponse auxquelles elles ont, elles-mmes, rpondu, et de leurs scores1 .
b. 7. Faire administrer les tests par une personne forme et faire interprter
les rsultats par une personne qualifie.
b. 8. Sassurer que les personnes testes sont informes du caractre
facultatif ventuel dun test et dans un tel cas, des consquences de la
passation ou non de ce test.
b. 9. Sassurer que les personnes testes comprennent les conditions, si
cest le cas, selon lesquelles elles peuvent repasser les tests, demander une
vrification de la cotation des tests quelles ont passs, voire demander
lannulation de leurs scores.
b. 10. Sassurer que les personnes testes savent que leurs rsultats leur
seront expliqus aussi tt que possible aprs la passation du test dans des
termes facilement comprhensibles.
b. 11. Sassurer que les personnes testes comprennent que leurs rsultats
sont confidentiels dans les limites autorises par la loi et les pratiques
correctes.
b. 12. Informer les personnes testes de qui aura accs leurs rsultats et
quelles conditions leurs scores seront communiqus.
b. 13. Sassurer que les personnes testes sont averties des procdures pour
porter plainte ou signaler un problme.
Les utilisateurs de tests informeront les personnes testes quon attend
delles :
b. 14. Quelles traitent les autres avec courtoisie et respect pendant le
processus de testing.
b. 15. Quelles posent des questions avant le dbut du testing, si elles ne
sont pas sres des raisons pour lesquelles le test est administr, de la manire
dont il sera administr, de ce quil faudra faire et de ce quil adviendra des
rsultats.
b. 16. Quelles informent une personne comptente sur tout incident
dont elles croient quil peut rendre les rsultats du test invalides ou quelles
veulent voir pris en considration.
b. 17. Quelles suivent les instructions de celui qui administre les tests.
1. Alors que les tests et les feuilles de rponses ne sont jamais communiqus aux personnes testes,
il existe des diffrences selon les pays dans les pratiques concernant les lments que les personnes
testes ou dautres peuvent obtenir. Quoiquil en soit, il y a davantage de diffrences dans les
attentes des personnes testes en ce qui concerne les informations quon leur donnera. Il est important
que le contrat clarifie ce quelles n auront pas aussi bien que ce quelles auront.
Annexes
465
b. 18. Quelles doivent tre conscientes des consquences de ne pas passer

un test si elles choisissent de ne pas le passer, et tre prtes en accepter les
consquences.
b. 19. Quelles sassurent que, au cas o elles doivent payer pour la
passation des tests, le paiement sera fait la date indique.
Annexe C : Points prendre en considration lorsquon fait

des amnagements pour tester des personnes prsentant des infirmits
ou des handicaps.
Des prcautions considrables et une expertise solide sont requises lorsque
le mode dadministration dun test doit tre modifi pour sadapter aux
besoins de personnes handicapes. Comme toujours, les lois nationales et
locales ainsi que les pratiques1 ont besoin dtre prises en considration, ainsi
que le respect de la vie prive des individus. La demande dinformations
en ce qui concerne les types et le niveau de handicap doit tre limite
la capacit de mettre en uvre les activits demandes pour le test. Une
vigilance particulire doit tre exerce dans le domaine de la slection
professionnelle2 .
Il ny a pas de principe de base simple utilisable pour sassurer quun test
est administr de manire quitable des personnes quel que soit leur type
de handicap. Cest une question de jugement professionnel de savoir sil
vaut mieux utiliser un type dvaluation alternatif ou modifier le test ou
ses conditions dadministration. En pratique, il est rarement possible de
disposer pour des tests modifis de normes sur des chantillons suffisants
de personnes prsentant des handicaps quivalents permettant dassurer la
comparabilit du test avec la version habituelle. Cependant, lorsquil existe
des donnes, par exemple, sur la modification du temps accord, lutilisation
du Braille ou de versions orales enregistres sur bandes magntiques des
tests, de telles donnes devraient guider lutilisateur pour procder aux
amnagements ncessaires. Bien quil ne soit pas toujours possible de raliser
une standardisation complte de la version modifie, une tude pilote sur
de petits chantillons devrait tre conduite chaque fois que cest ralisable.
1. Aux tats-Unis, par exemple, on doit faire attention aux dispositions du Americans with Disabilities
Act (1990). Au Royaume-Uni, le Disability Discrimination Act (1995), Employment Code of Practice
stipule que les employeurs sont tenus de rviser les tests ou la manire dont les rsultats de tels
tests sont valus pour prendre en compte les candidats prsentant des infirmits spcifiques .
2. Pour des conseils dtaills ce sujet aux tats-Unis, voir Eyde, Nestor, Heaton and Nelson (1994).
466
tant donn le manque dinformations sur la performance aux tests

(quil ait t modifi ou non) des personnes prsentant un handicap, il
est souvent plus appropri dutiliser le rsultat au test de manire plutt
qualitative. Ces rsultats peuvent tre utiliss pour fournir des indications
sur les caractristiques values (aptitudes, motivation, personnalit, etc.)
qui peuvent tre compltes et tayes par des informations collectes en
recourant dautres mthodes.
Pour une valuation individuelle, lvaluateur peut habituellement
adapter les procdures dvaluation aux possibilits de la personne value.
Cependant, des questions particulires se posent lors dun testing collectif
(par exemple, pour la slection professionnelle). Dans ce domaine, il peut y
avoir des difficults pratiques rencontres lorsquon introduit des variations
dans le mode dadministration pour certains individus au sein dun dispositif
dadministration en groupe. En outre, toutes les parties peuvent considrer
les diffrences de traitement comme inquitables. Par exemple, si on leur
accorde plus de temps pour terminer le test, ceux qui sont handicaps peuvent
tre conscients du fait quils sont traits diffremment , et ceux qui ne
sont pas handicaps peuvent avoir limpression que ce temps supplmentaire
procure un avantage inquitable.
Des conseils sur les besoins particuliers peuvent en gnral tre recueillis
auprs des organisations de handicaps concernes, aussi bien qu titre
individuel, auprs des personnes testes. Cest gnralement utile (lorsque la
loi lautorise) de demander directement la personne, dune faon rassurante,
si certains lments doivent tre pris en considration1 . Dans la plupart
des cas, une telle consultation permettra deffectuer des modifications
appropries lenvironnement de passation des tests sans ncessiter de
modifications du test lui-mme.
Lbauche de protocole suivante fournit un guide gnral pour le processus
de prise de dcision visant modifier le testing et sur la manire de raliser la
modification2 . Essentiellement, le handicap peut 1) ne contribuer en rien
la variance du test, 2) y contribuer de manire pertinente, ou 3) contribuer
de manire non pertinente la variance du construit mesur. Dans le
premier cas (1), aucune modification nest ncessaire. Dans le dernier cas
(3), lobjectif des modifications devrait tre dter la source de variance non
1. Au Royaume-Uni, the Disability Discrimination Act (1995) rend galement obligatoire pour les
individus de faire connatre leurs besoins.
2. NDT : Aucune modification ne doit tre apporte une procdure de testing sans une autorisation
explicite des ayants droit.
Annexes
467
pertinente ( laide de modifications appropries de lenvironnement de

passation du test ou son remplacement par un test plus appropri). Dans le
second cas (2) (contribution de manire pertinente la variance du construit
mesur), quoiquon fasse, des modifications apportes au test auront un
effet sur la pertinence des scores au test.
c1. Est-il plausible que le handicap ait un effet sur la performance au test ?
De nombreuses personnes ont des handicaps qui ne devraient pas affecter la
performance au test. Dans de tels cas, cela ne serait pas appropri de faire
des amnagements pour elles.
c2. Sil est plausible que le handicap affecte la performance au test, alors
est-ce que leffet sur la performance est secondaire par rapport au construit
mesur ? Par exemple, une personne atteinte darthrose dune main peut
rencontrer des difficults dans un test en temps limit qui fait appel
lcriture. Si laptitude raliser des tches manuelles rapidement fait partie
intgrante du construit mesur, alors le test ne devrait pas tre modifi.
Toutefois, si lobjectif de lvaluation est la vitesse de balayage visuel, alors
un mode de rponse alternatif serait appropri.
c3. Lorsquun handicap particulier est secondaire par rapport au construit
mesur mais peut, de manire plausible, affecter la performance individuelle
au test, alors on peut envisager dapporter des modifications la procdure.
c4. Les utilisateurs devraient toujours consulter le manuel du test ainsi
que lditeur pour des conseils sur les modifications et pour des informations
sur les formats et les procdures alternatives envisageables.
c5. Les utilisateurs devraient galement consulter les organisations de
handicaps pertinentes pour des avis et des conseils sur les implications
possibles dun handicap spcifique, la littrature ou la documentation
pertinente, et les types dadaptations ou damnagements qui peuvent tre
utiles.
c6. Toute modification faite au test ou aux procdures dadministration du
test devrait tre soigneusement consigne et accompagne des justifications
sous-tendant cette modification.
Bibliographie
ARBISIO C. (2003), Le bilan psychologique avec lenfant. Approche clinique

du WISC-III. Paris, Dunod.
AUBRET J. & BLANCHARD S.
(2005), Pratique du bilan personnalis. Paris, Dunod.
BACHER F. (1982), Sur certains problmes soulevs par lutilisation des
tests psychologiques, LAnne Psychologique, 82, 439-455.
BALICCO C. (1997), Les mthodes

dvaluation en ressources humaines.
La fin des marchands de certitude.
Paris, Editions dOrganisation.
BALICCO C. (1999), Approche des
mcanismes de prise de dcision dans
le choix et lutilisation des mthodes
dvaluation et de slection dans le
recrutement des cadres en France,
Doctorat de Psychologie, Paris.
BALINSKY B. (1941), An analysis of
the mental factors in various age
groups from nine to sixty, Psychologica1 Monograph, 23, 191-234.
BALTES P.B. (1987), Theoretical propositions of life-span developmental

psychology, On the dynamics between growth and decline, Developmental Psychology, 23, 611-626.
BALTES P.B., BALTES M.M. (1990),
Successful aging, Perspectives from
the behavioral sciences. Cambridge,
Cambridge University Press.
BALTES P.B., STAUDINGER U.M.
& LINDENBERGER U. (1999),
Lifespan psychology, Theory and
Application to Intellectual Functioning. Annual Reviw of Psychology. 50,
471-507.
BEAUFILS B. (1996a), Statistiques
appliques la psychologie. Tome 1 :
statistiques descriptives. Rosny, Bral.
BEAUFILS B. (1996b), Statistiques
appliques la psychologie. Tome
2 : statistiques infrentielles. Rosny,
Bral.
BERNAUD J-L. (2000a), Tests et thories de lintelligence. Paris Dunod.
470
BERNAUD J-L. (2000b) Ractions au

bilan psychologique le point de vue
de lusager In D. Castro (Ed.) Les
crits en psychologie : rapports expertises bilans. Paris lEsprit du Temps.
BERNAUD J.-L. (2000c), Recrutement et valuation du personnel. In
J.L. Bernaud et C. Lemoine (2000).
Trait de psychologie du travail et
des organisations (pp. 95-132). Paris,
Dunod.
BERNAUD J-L. (2007), Introduction
la psychomtrie. Paris, Dunod.
BERNAUD J-L. PRIOU P. & SIMONET R. (1993), Manuel de la NV7.
Paris, EAP.
BERNIER J-J. & PIETRULEWICZ
B. (1997), La psychomtrie. Trait de
mesure applique. Montral, Gatan
Morin diteur.
BEUSCART-ZPHIR M-C. &
BEUSCART R. (1988), Tests de
pereformance : une mthode danalyse des startgies de rsolution. Un
exemple : le test de cubes du Wisc-R,
European Journal of Psychology of
Education, III-1, 33-51.
BEUSCART-ZPHIR M-C. &
BEUSCART R. (1989), Psychologie cognitive et psychomtrie :
apport de lautomatisation lidentification des processus impliqus
dans les tests daptitudes. In J-M.
Monteil et M. Fayol (Eds.), La psychologie scientifique et ses applications.
Grenoble, Presses Universitaires de
Grenoble.
BEUSCART-ZPHIR
M-C.,
ANCEAUX F., DUHAMEL A. &
QUENTIN S. (1996), Un exemple
dapplication du diagnostic cognitif,
Psychologie Franaise, 41, 1, 65-76.
BINET A. (1911/1973), Les ides
modernes sur les enfants. Paris, Flammarion.
BINET A. & SIMON T. (1905a), La
mesure du dveloppement de lintelligence chez les jeunes enfants. Paris,
Socit A. Binet.
BINET A. & SIMON T. (1905b), Sur
la ncessit dtablir un diagnostic
scientifique des tats infrieurs de
lintelligence, LAnne Psychologique,
onzime anne, 163-244 [Article
rdit en 2004. Paris, LHarmattan].
BLANCHARD S. (2002), De lexamen dorientation professionnelle
au bilan de comptences. Actes du
colloque La place de lvaluation dans
le processus dorientation professionnelle des adultes. Lille, INOIP AFPA.
11-23.
BLANCHARD S. (2007), Lvaluation dans le cadre du conseil
en orientation : lexemple de la
dmarche de bilan de comptences,
Les Dossiers des Sciences de lEducation, 18, 61-70.
BLANCHARD S., SONTAG J-C. &
LESKOW S. (1999), Lutilisation
dpreuves conatives dans le cadre
du bilan de comptences. LOrientation Scolaire et Professionnelle, 28,
2, 275-297.
Bibliographie
BONNARDEL R. (1953), Le test

B 101, Le travail Humain, 3-4, 253266.
BORKOWSKI J.G. & CAVANAUGH J. (1979), Maintenance
and generalisation of skills and strategies by the retarded. In N. Ellis
(Ed.), Handbook of mental deficiency
(pp. 569-617). Hillsdale, NJ, Erlbaum.
BOTWINICK J. (1977), Intellectual
Abilities. In J.E. Birren & K.W
Schaie (Eds), Handbook of the psychology of aging. New york, Van Nostrand Reinhold.
BOURGES S. (1979), Approche gntique et psychanalytique de lenfant.
Tome 1. Neuchtel, Delachaux et
Niestle.
BOURGUIGNON O. (2000), Introduction au n spcial du Bulletin de

Psychologie, 2000, 53 (1) Ethique
en psychologie et dontologie des
psychologues .
BOURGUIGNON O. (2003), Questions thiques en Psychologie. Paris,
Mardaga.
BROWN A. & FERRARA R.A.
(1985), Diagnosing zones of proximal development. In J. Wertsch
(Ed.), Culture, communication, and
cognition, Vygotskian perspectives,
(pp.273-305), Cambridge, MA,
471
BROWN A. & FRENCH L.A. (1979),

The zone of potential development,
Implication for intelligence testing
in the year 2000. In R.J. Sternberg
& D.K. Detterman (Eds.) Human
Intelligence, pp. 217-235. Norwood,
N.J., Ablex.
BRUCHON-SCHWEITZER M.L.
& FERRIEUX D. (1991), Une
enqute sur le recrutement en
France. Revue Europenne de Psychologie Applique, 41, 1, 9-17.
BRUCHON-SCHWEITZER M.L.
& LIEVENS S. (1991), Le recrutement en Europe Recherches et
pratiques. Psychologie et Psychomtrie 12,7-71.
BCHEL F. & PAOUR J.L. (Eds.)
(1990), Assessment of learning and
development potential, Theory and
practices. European Journal of Psychology of Education. 5(2), 89-95.
BCHEL F., DE RIBAUPIERRE A.
& SCHARNHORST U. (1990), Le
diagnostic du potentiel dapprentissage par le LPAD, une tude de la
fidlit. European Journal of Psychology of Education, 5, 135-158.
BCHEL F.P. (ED.) (1995), Lducation cognitive, le dveloppement
de la capacit dapprentissage et son
valuation. Lausanne, Delachaux et
Niestl.
472
BUDOFF M. & CORMAN L.

(1974), Demographic and psychomtric factors related to improved
performance on the Kohs learningpotential procedure. American Journal of Mental Deficiency, 78(5), 578585.
BUDOFF M. & HAMILTON J.L.
(1976), Optimizing test performance of moderately and severelymentally retarded adolescents and
adults. American Journal of Mental
Deficiency, 81, 49-57.
BUDOFF M. (1968), Learning potential as a supplemantary testing procedure. In J. Hellmuth (Evaluation dynamique.), Learning disorders
(vol. 3, pp.295-343). Seattle, Special
Child.
BUDOFF M. (1987), Measures for
assessing learning potential. In C.S.
Lidz (Ed.) Dynamic assessment, (pp.
173-195). New York, The Guilford
Press.
BUTT D.S. & BEISER M. (1987),
Successful aging, a theme for international psychology. Psychology and
Aging, 2, 87-94.
CAMPIONE J.C. & BROWN A.L.
(1987), Linking dynamic assessment
with school achievement. In C.S.
Lidz (Ed.) Dynamic assessment, (pp.
82-115). New York, The Guilford
Press.
CAROFF X. (2004), Lidentification

des enfants haut potentiel : quelles
perspectives pour lapproche psychomtrique ?, Psychologie Franaise, 49,
3, 233-251.
CARPENTER P.A., JUST M.A. &
SHELL P. (1990), What one intelligence test measures : A theorical
account of the processing in the
Raven Progressive Matrice test. Psychological Review, 97, 404-431.
CARROLL J.B. (1962), The prediction of success in intensive foreign
language training. In R. Glaser
(Ed.), Training research and education (pp.87-136). Pittsburgh, University of Pittsburgh Press.,.
CARROLL J.B. (1989), The Carroll
model, A twenty-five year retrospective and prospective view. Educational Researcher, 18 (1), 26-31.
CARROLL J.B. (1993), Human cognitive abilities, A survey of factoranalytical studies. New York, Cambridge University Press.
CASTRO D. (2001), Lexamen psychologique au moyen des tests : de
la pratique professionnelle la formation universitaire, Le journal des
psychologues, 186, 52-55.
CASTRO D. (Ed.), (2000), Les crits
en psychologie : rapports, expertises,
bilans. Paris, lEsprit du Temps.
CASTRO D. (2006), Pratique de lexamen psychologique en clinique adulte.
Paris, Dunod.
Bibliographie
CASTRO D., MOGENET J-L.,

POZZI B., GLATZ N., CARDOSO C., THIEBAULT P. &
PEINTURE S. (2001) Qui doit utiliser les tests psychologiques : psychologues ou non psychologues ?,
Pratiques Psychologiques, 2, 103-118.
CHARTIER P. (2001), Les apports

de la recherche en psychologie aux
tests dintelligence : quelles consquences pour la pratique ? LOrientation Scolaire et Professionnelle, 30,
4, 509-531.
CASTRO D., BERNAUD J-L.

(1996), Quel avenir pour les tests
psychologiques au XXIe sicle, Pratiques Psychologiques, 4, 1-3.
CHARTIER P. (2002a), Lpreuve de

Kohs : validit, adaptations et utilisations, Psychologie et Psychomtrie,
23, 3-4, 21-50.
CASTRO D., MELJAC C., JOUBERT B. (1996), Pratiques et outils

des psychologues cliniciens franais.
Les enseignements dune enqute,
Pratiques Psychologiques, 4, 73-80.
CATTEL R.B. (1971), Abilities, their
structure, growth and action, Boston,
Houghton Mifflin.
473
CHARTIER D. (2002), La place

de lvaluation dans le processus
dorientation de lAFPA. Actes du colloque La place de lvaluation dans
le processus dorientation professionnelle des adultes . Lille, INOIP.
CHARTIER P. (1999), tude de la
variabilit intra et inter-individuelle
dans la rsolution dune preuve du
type cubes de Kohs. In M. Huteau
& J. Lautrey (Eds), Approches diffrentielles en Psychologie. 145-163.
Rennes, P.U.R.
CHARTIER P. (2002b), Vers une valuation de type diagnostic cognitif , Actes du colloque de lAFPA
La place de lvaluation dans le processus dorientation professionnelle
des adultes , p.177-181. AFPA.
CHARTIER P. (2002c), Variabilit

des situations et variabilit des stratgies de rsolution ? Lexemple dune
preuve de type cubes de Kohs. Thse
de doctorat. Universit Ren Descartes Paris V.
CHARTIER P. (2005), Piron et la

docimologie. Quelques recherches
de Piron, et du Service de
Recherche de lINETOP, sur lanalyse de la fiabilit de lvaluation scolaire. LOrientation Scolaire et Professionnelle, 3, hors srie, 257-263.
474
CHARTIER P. (2008b), Exprimentation dune preuve de facteur g

utilisant comme support des cartes
jouer, In E. Loarer, P. Vrignaud,
J-L. Mogenet, F. Cuisinier, H. Gottesdiener et P. Mallet, Perspectives
diffrentielles en psychologie, 39-42.
Rennes, Presses Universitaires de
Rennes.
CHARTIER P. ( paratre, 2008a),
Les tests dominos (D70 et D2000) :
comment dpasser le constat du seul
score total ? Exemples danalyses des
rponses, Pratiques Psychologiques.
CHARTIER D. & LOARER E.
(1994), valuation dynamique de
lintelligence non-verbale par la
procdure aide au cours du test,
application une population nonfrancophone et des adultes de
bas niveau de qualification. In M.
Huteau (Ed.), Les techniques psychologiques dvaluation des personnes.
(pp.141-144), Issy les Moulineaux,
EAP.
COGNET G. (2005), NEMI-2, les

options dune rvision. Communication au colloque international Intelligence de lenfant, Fdration Franaise des Psychologues et de psychologie, Paris, 6-8 Octobre.
COGNET G. (2006), Les psychologues scolaires, In J. Lautrey, Psychologie du dveloppement et psychologie diffrentielle. p.457-470. Paris,
PUF. (Collection dirige par S.
Inonescu et A. Blanchet).
COOK M. (1988), Personnel selection
and productivity, Chichester.
CORROYER D., WOLFF M. (2003),
Lanalyse statistique des donnes en
psychologies. Paris, Armand Colin.
CRAIK F.I., BYRD M. & SWANSON J.M. (1987), Patterns of
memory loss in three elderly samples.
Psychology and Aging, 2, 79-86.
CHI M.T.H. (1978), Knowledge

structure and memory development.
In R. Siegler (Ed.), Childrens thinking, What develop ? Hillsdale, NJ,
Erlbaum, pp. 73-96.
DANY F. & TORCHY V. (1994),

Recruitment and selection in
Europe, policies, practices, and
methods. ln C. Brewster & A. Hegewisch (Eds.). Policy and practice in
European Human Resource Management. Routledge, London.
CIANCIOLO A. & STERNBERG

R.J. (2004), Intelligence, A brief history. Blackwell Publishing.
DAS J.P. (1987), Introduction. In C.S.

Lidz (Ed.), Dynamic assessment (pp.
Vii-xi). New-York, Guilford Press.
Bibliographie
DE RIBAUPIERRE A. (1995), Potentiel dapprentissage et contraintes

structurales, Apports des modles
piagtiens et no-piagtiens. In F.
Bchel (Ed.) Lducation cognitive.
Le dveloppement de la capacit dapprentissage et son valuation. (pp.
135-161). Neuchtel, Delachaux et
Niestl.
DE SHON R-P., CHAN D. &
WEISSBEIN D.A. (1995), Verbal
overshadowing effects on Ravens
Advanced Progressive Matrices : evidence for multidimensional performance determinants, Intelligence,
21, 135-155.
DEVOUCHE E. (2003), Les banques

ditems. Construction dune banque
pour le Test de Connaissance du
Franais, Psychologie et Psychomtrie,
24, 2/3, 89-116.
DICKES P. (1988), Configurations
perceptives et difficult des stimuli
construits daprs la technique de
Kohs, Bulletin de Psychologie, XLII,
388, 210-218.
DICKES P. (1999), Modles de
rponse litem (MRI) et recherche
en psychologie, Psychologie et Psychomtrie, 20, 2/3, 8-18.
DICKES P., HOUSSEMAND C.
& REUTER M. (1996), Modles
pour le contenu des tches dassemblage de faces gomtriques et difficult des items. Psychologie Franaise,
41,1, 47-55.
475
DICKES P., MARTIN R. (1998), Les

composantes de lintelligence gnrale du D70. Psychologie et Psychomtrie, 19, 1, 27-51.
DICKES P., TOURNOIS J., FLIELLER A. & KOP J.L. (1994), La psychomtrie, Paris, PUF.
EAP (1978), Manuel des cubes de Kohs.
Paris, EAP.
ECKERT P., LUDWIG C. & RAFFIN D. (2008), Table ronde francoallemande sur les mthodes et outils
du bilan de comptences. Communication au colloque Autour
des comptences , Universit de
Rouen, 22 mai 2008.
ECPA (1961), Test D48. Manuel dapplication. Paris, ECPA.
ECPA (1970), Test D70. Manuel dapplication. Paris, ECPA.
ECPA (2000a), Test D2000. Manuel
dapplication. Paris, ECPA.
ECPA (2000b), Test R2000. Manuel
dapplication. Paris, ECPA.
EMBRETSON S. E. (1987), Toward
development of a psychometric
approach. In C.S. Lidz (Ed.), Dynamic assessment (pp. 141-170). NewYork, Guilford Press.
EMBRETSON S.E. (1989), Latent
trait models as an informationprocessing approach to testing.
International Journal of Educational
Research, 13, 189-203.
476
EMBRETSON S.E. (1991), A multidimensional latent trait model for

measuring learning and change. Psychometrika, 56 (3), 495-515.
EMBRETSON S.E. (1995), A measurement model for linking individual
learning to processes and knowledge,
Application to mathematical reasoning. Journal of Educational Measurement, 32, 277-294.
FAVERGE J.M. (1955), Calcul
des longueurs, test. Braine-leChteau, Applications des techniques modernes.
FEUERSTEIN R. (1980), Instrumental Enrichment. Baltimore, University Park Press.
FEUERSTEIN R. (1990), Le PEI. In
J. Martin & G. Paravy (Eds.), Pdagogies de la mdiation. Lyon, Chroniques sociales.
FEUERSTEIN P., HOFFMAN M.B.,
JENSEN M.R. &, RAND Y.
(1985), Instrumental enrichment,
an intervention program for structural cognitive modifiability, theory
and practice, In J.W. Segal, S.F.
Chipman & R. Glaser (Eds.), Thinking and learning skills, Vol. 1. Hillsdale, NJ, Erlbaum.
FEUERSTEIN R., RAND Y., HOFFMAN M. & MILLER R. (1979),
Cognitive modifiability in retarded
adolescents. Effects of Instrumental
Enrichment. American Journal for
Mental Deficiency, 83, 539-550.
FEUERSTEIN R., RAND Y. &

HOFFMAN M.B. (1979), The
dynamic assessment of retarded performers, the learning potential assessment
device, theory, instruments, and techniques. Glenview, IL, Scott, Foresman & Co.
FEUERSTEIN R., RAND Y., HOFFMAN M. & MILLER R. (1980),
Instrumental enrichment, an intervention program for cognitive modifiability. Baltimore, MD, University
Park Press.
FEUERSTEIN R., RAND Y., JENSEN M.R. KANIEL S. & TZURIEL D. (1987), Prerequisites for
assessing of learning potential, the
LPAD model. In C.S. Lidz (Ed.)
Dynamic assessment (pp. 35-51).
New York, The Guilford Press.
FLAMMER A. & SCHMID H.
(1982/1995), Tests dapprentissage,
concept, ralisation, valuation. In
F. Bchel (Ed.) Lducation cognitive. Le dveloppement de la capacit
dapprentissage et son valuation. (pp.
179-214). Neuchtel, Delachaux et
Niestl.
FLIELLER A., (1999), Etude dun
texte lexical (dfinitions lacunaires)
par des modles de rponse litem,
Psychologie et Psychomtrie, 20, 2/3,
65-84.
FLIELLER A. (2001), Problmes et
stratgies dans lexplication de leffet Flynn. In M. Huteau (Ed.), Les
figures de lintelligence. Paris, EAP.
Bibliographie
FLIELLER A., (2002), Quelques

remarques sur la mesure en psychologie, Bulletin de Psychologie, 55-6,
555-560.
FLIELLER A., SAINTIGNY N. &
SCHAEFFER R. (1986), Lvolution du niveau intellectuel des
enfants de 8 ans sur une priode de
40 ans (1944-1984). LOrientation
Scolaire et Professionnelle, 15, 61-83.
FLYNN J.R. (1984), The mean IQ
of Americans, massive gains 1932
to 1978, Psychological Bulletin, 95,
29-51.
FLYNN J.R. (1987), Massive gains
in 14 nations, what IQ tests really
measure, Psychological Bulletin, 101,
171-191.
FONTAINE R. (1999), Manuel de

Psychologie du Vieillissement. Paris,
Dunod.
FRAISE J-P. (1991), La psychomtrie
lAFPA : son rle dans lorientation et le recrutement des demandeurs de formation professionnelle,
LOrientation Scolaire et Professionnelle, 20 (1), 127-139.
GARDNER H. (1996), Les intelligences multiples. Paris, Retz.
GARDNER H. (1999), Les formes de
lintelligence (1e d. 1983, Frames of
mind, the theory of multiple intelligences). Paris, Odile Jacob.
477
GAUDRON J-P. (1999), La psychomtrie assiste par ordinateur : problmatiques en question et perspectives de recherches, LOrientation Scolaire et Professionnelle, 28, 1,
31-62.
GAUDRON J-P. (2008), Internet,
diagnostic informatis et bilan de comptences. Communication au colloque Autour des comptences ,
Universit de Rouen, 22 mai 2008.
GAVAND A. (2006), Prvenir la discrimination lembauche. Paris, Editions dOrganisation.
GILLES P-Y. (1991), Etude des diffrences individuelles dans les stratgies de rsolution dune preuve de
visualisation spatiale, Actes des IXes
journes de psychologie diffrentielle,
188-20. Lige, Presses Universitaires
de Lige.
GILLES P-Y. (1993), Etude des diffrences individuelles dans les stratgies
de rsolution de problmes spatiaux.
Thse de doctorat. Universit Ren
Descartes Paris V.
GILLET B. (1987). Aptitudes et capacits cognitives. In C Lvy-Leboyer
et C. Sprandio (Eds.) Trait de Psychologie du Travail. Paris, PUF.
GLASER R. & PELLEGRINO
(1982), Improving the skills of learning. In D.K. Detterman & R.J.
Sternberg (Eds.), How and how
much can intelligence be increased, pp.
197-212. Norwood, N.J., Ablex.
478
GOLDSTEIN K. & SCHEERER

M. (1941), The Goldstein-Scheerer
cube test, Psychological Monographs,
35, 2, 32-56.
GOULD S.J. (1983), La mal-mesure
de lhomme. Paris, Ramsay.
GRGOIRE J. (1996), Grille daide
linterprtation des scores aux diffrents subtests du WISC-III Paris,
ECPA.
GRGOIRE J. (2000a), Lvaluation
clinique de lintelligence de lenfant.
Thorie et pratique du WISC-III.
Lige, Mardaga.
GRGOIRE J. (2000b), Orientation,
valuation et facteurs culturels, in
AFPA, Actes du colloque La place de
lvaluation dans le processus dorientation professionnelle des adultes ,
p.103-112. Montreuil, AFPA.
GRGOIRE J. (2004), Lexamen clinique de lintelligence de ladulte.
Lige, Mardaga.
GRGOIRE J. (2005), Les mtamorphoses des chelles de Wechsler,
Questions dorientation, 4, 53-59.
GRGOIRE J. (2006), Lexamen clinique de lintelligence de lenfant. Fondements et pratique du WISC-IV.
Sprimont, Mardaga.
GRIGORENKO E.L. & STERNBERG R.J. (1998), Dynamic testing. Psychological Bulletin, 124 (1),
75-111.
GUDON M-C. & SAVARD R.

(2000), Tests lappui. Pour une
intervention intgre de la psychomtrie en counseling dorientation. Qubec, les Editions Septembre.
GUGUEN N. (2005), Statistiques
pour psychologues. Paris, Dunod.
GUICHARD J., HUTEAU M. (2006,
2e dition), Psychologie de lorientation. Paris, Dunod.
GUILLEVIC C., VAUTIER S.
(1998), Diagnostic et tests psychologiques. Paris, Nathan.
GUSTAFFSON J.E. (1984), An unifying model for the structure of
intellectual abilities. Intelligence, 8,
179-203.
GUSTAFFSON J.E. (1988), Hierarchical models of individual differences in cognitive abilities. In R.J.
Sternberg (Ed.) Advances in the psychology of human intelligence (Vol.4)
Hillsdale, NJ, Erlbaum.
GUTHKE J. (1982), The learning test
concept, an alternative to the traditional static intelligence test. The
German Journal of Psychology, 6 (4),
306-324.
GUTHKE J. (1990), Les tests dapprentissage comme alternative ou
complment aux tests dintelligence,
un bilan de leur volution. European
Journal of Psychology of Education, 5
(2), 117-133.
Bibliographie
GUTHKE J. (1992), Learning tests,

The concept, main research findings,
problems and trends. Learning and
Individual Differences, 4, 137-151.
GUTHKE, J. & BECKMANN J.F
(2000), The learning test concept
and itt application in practice. In
C.S. Litz & J.G. Elliot (Eds.), Dynamic assessment: Prevailing models
and applications (pp.17-69). Oxford,
England, Elsevier.
GUTHKE J. & BECKMANN J.F. &
DOBAT H. (1997), Dynamic testing, problems, uses, trends and evidence of validity. Educational and
Child Psychology, 14 (4) 17-32.
GUTHKE J. & WINGENFELD S.

(1992), The learning test concept,
Origin, state of the art, and trends.
In H.C. Haywood & D. Tzuriel
(Eds.) Interactive Assessment, pp. 6494. New York, Springer.
GUTTMAN L. (1957), Empirical
Verification of the Radex Structure
of Mental Abilities and Personality
Trait, Educational and Psychological
Measurement, 17, 391-407.
GUTTMAN L. (1965), The Structure
of interrelations among intelligence
tests. Invitational Conference on
Testing Problems. Princeton, New
Jersey, Educational Testing Service,
25-36.
GUTTMAN L. & LVY S. (1991),
Two structural laws for intelligence
tests. Intelligence, 15, 79-103.
479
HAMBLETON R.K. & SLATER

S. (1997), Item response theory
models and testing practices, current international status and futur
directions. European Journal of Psychological Assessment, 13(1), 21-28.
HAMBLETON R.K., SWAMINATHAN H. & ROGERS H.J.
(1991), Fundamentals of item response theory, Newbury Park, Ca,
Sage.
HARTIGAN J.A. & WIGDOR A.K.
(1989), Fairness in employment testing, Validity generalization, minority
issues and the General Aptitude Test
Battery. Washington, DC, National
Academy Press.
HAYWOOD H.C. & TZURIEL D.
(Eds.) (1992), Interactive testing.
New York, Springer Verlag.
HERTZOG C., SCHAIE K.W. &
GRIBBIN K. (1978), Cardiovascular disease and changes in intellectual functioning from middle to
old age. Journal of Gerontology, 33,
872-883.
HORN J.L. (1970), Organization of
data on life-span development of
human abilities. In L.R. Goulet et
P. B. Baltes (Eds.) Life-span developmental psychology. New york, Academic Press.
HORN J. L. & CATTELL R.B.
(1966), Refinement and test of the
theory of fluid and crystallized intelligence. Journal of Educational Psychology, 57, 253-270.
480
HOUSSEMAND C. (1999a), Adaptabilit stratgitaire dans la rsolution

des cubes de Kohs. Thse de doctorat,
Universit Nancy 2.
HOUSSEMAND
C.
(1999b),
Approche mthodologique pour
ltude et lanalyse des stratgies de
rsolution. Lexemple des cubes de
Kohs. In M. Huteau & J. Lautrey
(Eds), Approches diffrentielles en Psychologie. 213-218. Rennes, P.U.R.
HUNT E. (1974), Quote the Raven
? Nevermore ! In J. Gregg (Ed.),
Knowledge and Cognition, Hillsdale
N.J., Erlbaum, 129-157.
HUNTER J.E., HUNTER R.F.
(1984), Validity and utility of alternate predictors,of job performance.
Psychological Bulletin, 96, 72-98.
HUNTER J.E., SCHMIDT F.L.
(1996), Intelligence and job performance, economic and social implications. Psychology, Public Policy,
and Law, 2, 447472.
HURTIG M. (I995), Constat dacquisition ou pronostic dapprentissage. Peut-on dynamiser la psychomtrie ? In F. Bchel (Ed.) Lducation cognitive. Le dveloppement de
la capacit dapprentissage et son valuation. (pp. 165-178). Neuchtel,
Delachaux et Niestl.
HUTEAU M. (1985), Dimensions

des diffrences individuelles dans
le domaine intellectuel et processus
de traitement de linformation. In J.
Drevillon, M. Huteau, F. Longeot,
M. Moscato et T. Ohlmann, Fonctionnement cognitif et individualit,
41-87. Bruxelles, Pierre Mardaga.
HUTEAU M. (1994), Lvaluation
psychologique des personnes : problmes et enjeux actuels, in M.
Huteau (d.), Les techniques psychologiques dvaluation des personnes.
Issy-les-Monlineaux, EAP.
HUTEAU M. (1996), Lvaluation
par les notes et par les tests. In Lieury,
Manuel de psychologie de lducation
et de la formation. Paris, Dunod.
HUTEAU M. (2002, 2e d.), Psychologie diffrentielle. Cours et exercices.
Paris, Dunod.
HUTEAU M. (2005), criture et personnalit. Approche critique de la graphologie. Paris, Dunod.
HUTEAU M. (2006) Les conseillers
dorientation, In J. Lautrey, Psychologie du dveloppement et psychologie diffrentielle. pp. 483-494.
Paris, PUF. (Collection dirige par
S. Inonescu et A. Blanchet).
HUTEAU M. (Ed.). (2001), Les figures
de lintelligence. Paris, EAP.
HUTEAU M. & LAUTREY J. (1975),
Artefact et ralit dans la mesure
de lintelligence ( propos du livre
de Michel Tort, le QI). LOrientation Scolaire et Professionnelle, 4,
169-187.
Bibliographie

Les tests dintelligence. Paris, La
dcouverte.
HUTEAU M. & LAUTREY J.
(1999a), Evaluer lintelligence. Psychomtrie cognitive. Paris, PUF.
(1999b) (Eds), Approches diffrentielles en Psychologie. Rennes, P.U.R.
Les tests dintelligence. Paris, Editions
La Dcouverte.
HUTEAU M. & LOARER E. (1992),
Comment valuer les mthodes
dducabilit cognitive ? LOrientation Scolaire et Professionnelle, 21 (1),
47-74.
IONESCU S. & JOURDANIONESCU C. (1984/85), Lvaluation du potentiel dapprentissage

1- Utilisation du test des cubes.
Bulletin de Psychologie, 38 (372),
919-927.
IONESCU
S.,
JOURDANIONESCU C., ALAIN S.
(1986/87), Lvaluation du potentiel dapprentissage 2- Une nouvelle
mthode de quantification. Bulletin
de Psychologie, 40 (380), 481-487.
JENSEN M.R., FEUERSTEIN R.
(1987), The learning potential
assessment device, from philosophy
to practice. In C.S. Lidz (Ed.) Dynamic assessment (pp. 379-402), New
York, The Guilford Press.
481
JONES H.E. & CONRAD H.S.

(1933), The growth and decline of
intelligence, A study of a homogeneous group between the ages of ten
and sixty. Genetic Psychology Monographs, 13, 223-298.a.
JUHEL J. (1999), Coordination du
numro spcial sur les modles MRI,
8-18.
JUHEL J. (2005), La psychomtrie:
la recherche et lvaluation des
comptences qui caractrisent lintelligence. In J. Lautrey et J.F.
Richard (Dir.), Lintelligence. Trait
des Sciences cognitives, pp.23-39.
Paris, Herms.
KAUFMAN A. (2001), Tendances
actuelles dans le domaine de lvaluation de lintelligence, Psychologie
Franaise, 46, 3, 271-280.
KAUFMAN A. (2005), Capacit dapprentissage, capacit de planification
et le nouveau KABC-II. Communication au colloque international Intelligence de lenfant, Fdration Franaise des Psychologues et de psychologie, Paris, 6-8 Octobre.
KAUFMAN A. & KAUFMAN N.
(1993), Manuel du K-ABC. Paris,
ECPA.
KLAUER K.J. (1990), A process
theory of inductive reasoning tested
by the teaching of domain-specific
thinking strategies. European Journal of Psychology of Education. 5 (2),
191-206.
482
KLAUER K.J. (1995), Les effets dentranement de la pense sont-ils

gnraux ou spcifiques ? Un apport
la vrification de la thorie prescriptive de la pense inductive. In
F.P. Bchel (Ed.), Lducation cognitive, le dveloppement de la capacit
dapprentissage et son valuation. (pp.
285-305). Lausanne, Delachaux et
Niestl.
KREUTZ M. (1934), Comment
remdier linconstance des tests.
Archives de Psychologie, 227-244.
LABERON S., LAGABRIELLE C. &
VONTHRON A.M. (2005), Examen des mthodes dvaluation dans
les pratiques de slection et dorientation professionnelles, le cas du
recrutement et du bilan de comptences. Revue Internationale de Psychologie du Travail et des Organisations, l (11), 3-14.
LAUGHTON P. (1990), The dynamic Assessment of intelligence, a

review of three approaches. School
Psychology Review, 19(4), 459-470.
LAUTREY J. (1994), Lvaluation du
potentiel dapprentissage, tat de
la question. In M. Huteau (Ed.)
Les techniques psychologiques dvaluation des personnes. (pp.134-140),
Issy les Moulineaux, EAP.
LAUTREY J. (1995), Les apports de
la psychologie cognitive la comprhension des diffrences en matire
dintelligence et de russite scolaire,
in Blanchet. G et al., Intelligences,
scolarit et russite. Paris, La pense
sauvage.
LAUTREY J. (1999), Histoire et volution de la psychologie diffrentielle.
In P-Y. Gilles (Ed.), Psychologie Diffrentielle. Rosny, Bral.
LARCEBEAU S. (1967). volution

de la structure factorielle des aptitudes au cours du cycle dobservation, BINOP, 23, 261-277.
LAUTREY J. (2001), Lvaluation de

lintelligence : tat actuel et tentatives de renouvellement. In M.
Huteau, (Ed.), Les figures de lintelligence. Paris, EAP.
LAROCHE J.L. (1956), Lanalyse des

erreurs sur le Matrix 38. Bulletin du
Centre dEtudes et Recherches Psychotechniques, 6 (2), 161-174.
LAUTREY J. (2004), Etat de la

recherche sur la prcocit intellectuelle, Psychologie Franaise, 49, 3,
219-352.
LATHOUD S. (1997), Lexamen dexpertise auprs des commissions de

lducation spciale, In Guillard et
Guillemard (Eds.), Manuel pratique
de psychologie en milieu ducatif.
Paris, Masson.
LAUTREY J. (2007), Pour labandon

du QI, les raisons du succs dun
concept dpass. In M. Duru-Bellat
et M. Fournier (Eds.), LIntelligence
de lenfant. Lempreinte du social.
Sciences Humaines ditions.
Bibliographie
LAUTREY J., DE RIBAUPIERRE

A. & RIEBEN L. (1986), Les diffrences dans la forme du dveloppement cognitif valu avec des
preuves piagtiennes, une application de lanalyse des correspondances. Cahiers de Psychologie Cognitive, 6, 575-613.
LAUTREY J. & RICHARD J.F.

(2005), Lintelligence. Trait des
Sciences cognitives. Paris, Herms,
17-20.
483
LVY-LEBOYER
C.
(1996),
valuation du personnel, Quels
objectifs ? Quelles mthodes ? Paris,
Eyrolles.
LVY-LEBOYER
C.
(2002),
valuation du personnel, Quels objectifs ? Quelles mthodes ? Paris, Editions dorganisation.
LHOTTELIER A. (2000), Lacte de
tenir conseil. LOrientation Scolaire
et Professionnelle, 29, 1, 27-50.
LAVEAULT D. & GRGOIRE J.

(1997), Introduction aux thories des
tests en sciences humaines. Paris, De
Boeck.
LIDZ C.S. (1991), Practitioners guide

to dynamic testing. New York, Guilford Press.

tests en sciences humaines. Bruxelles,
De Boeck Universit.
LIDZ C.S. (Ed.) (1987), Dynamic

assessment, an interactional approach
to evaluating learning potential. New

tests. Paris, De Boeck.
LIDZ C.S. & THOMAS C. (1987),

The preschool learning assessment device, extention of a static
approach. In C.S. Lidz (Ed.) Dynamic assessment (pp. 288-326). New
LEMAIRE P. & BEHRER L. (2005),

Psychologie du vieillissement, une
perspective cognitive. Bruxelles, De
Boeck.
LVY-LEBOYER C. (1987), Problmes thiques poss par lusage des
tests, In C., Lvy-Leboyer et J-C.,
Sprendio (Eds.), Trait de psychologie du travail, 473-485. Paris, PUF.
LINDENBERGER U. & BALTES

P.B. (1997), Intellectual functioning in old and very old age, crosssectional results from the Berlin
Aging Study. Psychology and Aging,
12(3), 410-432.
LVY-LEBOYER C. (1990), Evaluation du personnel. Quelles mthodes

choisir ? Paris, Les ditions dOrganisation.
LOARER E. (1998), Lducation cognitive, modles et mthodes pour

apprendre penser. Revue Franaise
de Pdagogie, 122 (1), 121-161.
484
LOARER E. (2000), La plasticit cognitive. Apprentissage et dveloppement

cognitif chez ladulte, une approche
diffrentielle. Synthse dHabilitation Diriger des Recherches. Paris,
Universit !ren Descartes.
LOARER E. (2001), Lvaluation
dynamique comme moyen de limiter les biais culturels dans les tests
dintelligence. In M. Huteau (Ed.),
Les figures de lintelligence. Paris,
EAP.
LOARER E. & CHARTIER D.

(1996b), Etude de validation dune
preuve de potentiel dapprentissage
utilisable pour pronostiquer ladaptation scolaire des jeunes trangers nouvellement arrivs en France. Rapport
au Ministre de lEducation Nationale, Rectorat de Paris et au Fonds
dAction Sociale (F.A.S.) (24 p.).
LOARER E., CHARTIER D.,
(1995a), Peut-on duquer lintelligence ? Lvaluation dune mthode
dducation cognitive. Berne, Peter
Lang.
LOARER E. (2005), Lintelligence

sociale et lintelligence motionnelle.
In J. Lautrey et J.F. Richard (Dir.),
Lintelligence. Trait des Sciences cognitives. Paris, Herms, 91-107.
LOARER E., LAUTREY J.,

HUTEAU M. & CHARTIER D.
(1995b), Effets dune mthode de
remdiation cognitive sur une population dadultes faiblement qualifis.
Enfance, 2, 263-271.

(1994), Le potentiel dapprentissage est-il gnral ou spcifique
au domaine dapprentissage ? In
M. Huteau (Ed.) Actes du Colloque
international "Les techniques psychologiques dvaluation des personnes".
Paris (25-27 mai 1993), (pp. 150154). Paris, EAP.
LOARER, E., VRIGNAUD P.,

MOGENET J-L., CUISINIER F.,
GOTTESDIENER H. & MALLET P. (2008), Perspectives diffrentielles en psychologie. Rennes, Presses
Universitaires de Rennes.

(1996a), Lvaluation dynamique
des aptitudes, rvolution ou gadget
? In J.F. Richard (Ed.) Numro spcial sur le diagnostic cognitif. Psychologie Franaise, 41(1), 35-46.
LOHMAN D.F. (2000), Complex

information processing and intelligence. In R.J. Sternberg (Ed.).
Handbook of intelligence, pp. 285340. Cambridge, Cambridge University Press.
LUBART T. (Ed.) (2006), Enfants
exceptionnels. Prcocit intellectuelle,
haut potentiel et talents. Rosny-sousBois, Bral.
Bibliographie
485
MARQUER J. & PEREIRA M.

(1987), Evolution long terme des
stratgies dans une tche de comparaison phrase-dessin, LAnne Psychologique, 87, 329-343.
NELSON E.A. & ANNEFER D.

(1992), Aged heterogeneity, fact or
fiction ? The fate of diversity in
gerontological research. The Gerontologist, 32, 17-23.
MARQUER J. & PEREIRA M.

(1990), Les stratgies dans la vrification phrase-dessin. In M. Reuchlin, F. Longeot, C. Marendaz et
T. Ohlmann (Eds.), Connatre diffremment. Nancy, Presses Universitaires de Nancy..
NESSELROADE J.R. & THOMPSON W.W. (1995), Selection and

related threats to group comparisons, an example comparing factorial structures of higher and lower
ability groups of adult twins. Psychological Bulletin 117, 271-84.
MARQUI J.-C. (1997), Vieillissement cognitif et exprience, lhypothse de la prservation, Psychologie

Franaise, 42(4), 333-344.
NGUYEN-XUAN A. (1969). Etude

par le modle factoriel dune hypothse sur les processus de dveloppement, BINOP, 25.
MARTIN R. (2003), Le testing adaptatif par ordinateur dans la mesure en

ducation : potentialits et limites,
89-116.
NOIZET G. & CAVERNI J-P.

(1978), Psychologie de lvaluation
scolaire. Paris, PUF.
Mc GHEE R. (1993), Fluid and

crystallized intelligence, Confirmatory factor analyses of the Differential Ability Scales, Detroit
Tests of Learning Aptitude-3,
and Woodcock-Johnson PsychoEducational Battery-Revised. Journal of Psychoeducational Assessment.
MILES C.C. & MILES W.R. (1932),
The correlation of intelligence scores
and chronological age from early to
late maturity. American Journal of
Psychology, 44, 44-78.
NAGLIERI J.A. (1998), Manuel du
NNAT. Paris, ECPA.
OHLMANN T. (1990a), Les systmes

perceptifs vicariants. In M. Reuchlin, J. Lautrey, C. Marendaz et T.
Ohlmann, Cognition : lindividuel et
luniversel. Paris, PUF.
OHLMANN T. (1990b), Affordances
et vicariances mises en jeu par la
rgulation posturale. In Collectif
(Eds.), Informatique et diffrences
individuelles. Lyon, Presses Universitaires de Lyon.
OHLMANN T. (1991), La variabilit intra-individuelle provoque :
quelques pistes mthodologiques,
Actes des IXes journes de psychologie
diffrentielle, 211-231. Lige, Presses
Universitaires de Lige.
486
OHLMANN T. (1995), Processus

vicariants et thorie neutraliste de
lvolution : une ncessaire convergence. In J. Lautrey (Ed.), Universel et diffrentiel en psychologie. Paris,
PUF.
OHLMANN T. (2000), Contraintes
situationnelles et plasticit individuelle. Communication au colloque
Invariants et variabilit dans les
sciences cognitives : comptences
des systmes vicariants . Paris, 28
novembre.
PAOUR J.L., JAUME J. & DE
ROBILLARD O. (1995), De lvaluation dynamique lducation
cognitive, repres et questions. In
F.P. Bchel (Ed.), Lducation cognitive, le dveloppement de la capacit dapprentissage et son valuation.
(pp. 9-44). Lausanne, Delachaux et
Niestl.
PASQUIER D. (2003), Test dEvaluation Dynamique de lEducabilit,
Paris, EAP.
PERLMUTTER M. & NYQUIST
L. (1990), Relationship between
self-reported physical and mental
health and intelligence performance
across adulthood. Journal of Gerontology, 45, 145-155.
PICHOT P. (1997, 15e d. refondue),
Les tests mentaux. Paris, PUF (Que
sais-je ? n 626).
PIRON H. (1963), Examens et docimologie. Paris, PUF.
POITRENAUD J, (1972). Structure

des aptitudes cognitives et vieillissement. Cahiers de la Fondation Nationale de Grontologie, 3-83.
RAVEN J. (1981), Manuel des Matrices
de Raven. Issy les Moulineaux, EAP.
RAVEN J. (2001), Les matrices progressives de Raven : changement et
stabilit travers les cultures et le
temps. In M. Huteau (Ed.), Les
figures de lintelligence. Paris, EAP.
REE M.J. & CARRETTA TR.
(1998), General cognitive ability
and occupational performance. ln,
C.L. Cooper & L.T. Robertson
(Eds.), International Review of Industrial and Organizational Psychology,
Volume 13. Wiley et Sons Ltd, Chichester, pp. 159-184.
REE M.J., EARLES J.A. & TEACHOUT M.S., (1994), Predicting
job performance, not much more
than g. Journal of Applied Psychology,
79, 518-524.
RMY L. & GILLES P-Y. (1999),
Stratgies de rsolution spatiale et
numrique du D70. In M. Huteau
& J. Lautrey (Eds), Approches diffrentielles en Psychologie. Rennes,
P.U.R.
REMY L. (2001a), tude des stratgies de rsolution dune preuve dintelligence gnrale : variabilit intraindividuelle et diffrences interindividuelles. Thse de doctorat. Universit de Provence Aix-Marseille I.
Bibliographie
RMY L. (2001b), Les aptitudes des

sujets sont-elles lies aux stratgies
utilises lors de la rsolution dune
preuve de facteur g ?, In A. Flieller,
C. Bocran, J-L. Kop, E. Thibaut,
A-M. Toniolo et J. Tournois (Eds.),
Questions de psychologie diffrentielle.
Rennes, PUR.
RMY L. (2008), Validation clinique
de trois formes abrges de la WAISIII avec un chantillon de patients
crbro-lss. Communication aux
XVIIIe journes Internationales de
Psychologie Diffrentielle, Universit de Genve, 27-29 Aot.
REUCHLIN M. (1978), Processus vicariants et diffrences individuelles, Journal de Psychologie Normale et Pathologique, 2, 133-145.
REUCHLIN M. (1991), Les diffrences
individuelles lcole. Paris, PUF.
REUCHLIN M. (1997), La psychologie diffrentielle. Paris, PUF.
REUCHLIN M. & BACHER F.
(1989), Les diffrences individuelles
dans le dveloppement cognitif de lenfant. Paris, PUF.
REY A. (1934), Dun procd pour
valuer lducabilit. Archives de Psychologie, XXIV (96), 297-337.
RICHARD J-F. & AL. (1996), Le
diagnostic cognitif, Psychologie Franaise, 41-1.
RICHARD J-F. (1996), Les diffrentes approches de lanalyse des
comptences cognitives, Psychologie
Franaise, 41, 1, 3-8.
487
RICHARD J-F., ZAMANI M. (1996),

Lapplication des modles de rsolution de problmes lanalyse des
tests, Psychologie Franaise, 41, 1,
77-88.
ROBERTSON I.T., SMITH J.M.
(1989), Personal selection methods,
in Robertson, I.T., Smith J.M.
(Eds), Advances in Selection and
Assessment, Wiley, Chichester.
ROBERTSON L.T., SMITH M.
(2001), Personnel selection. Journal
of Occupational and Organizational
ROGERS W.A. & FISK A.D. (1999),
Human factors, applied cognition,
and aging. In F.I. Craik & T.A. Salthouse (Eds.), The handbook of aging
and cognition. 2nd ed. Mahwah, NJ.
Lawrence Erlbaum.
ROGOFF B. & WERTSCH J.V.
(1984), Childrens learning in the
"zone of proximal development". San
Francisco, Jossey-Bass.
ROLLAND J-P. (2001), Comment
valuer un test ? In Levy Leboyer et
al. (Eds.), R.H. Les apports de la psychologie du travail, p.35-52. Edition
dorganisation.
ROLLAND J.-P. (2004), Lvaluation
de la personnalit. Le modle des cinq
facteurs. Sprimont Belgique, Mardaga.
488
ROSENTHAL R & DIMATTEO

M.R (2001), Meta-analysis, recent
developments in quantitative
methods for literature reviews.
Annual Review of Psychology, 52,
59-82.
ROSENTHAL R. & RUBIN D.B.
(1982), A simple, general purpose
display of magnitude of experimental effect. Journal of Educational Psychology, 74, 166-169.
ROZENCWAJG P. (2003), Les stratgies de rsolution de problmes :
une valuation qualitative et intgrative de lintelligence, Psychologie et
psychomtrie, 24-4, 37-62.
ROZENCWAJG P. (2005), Pour
une approche intgrative de lintelligence, Un sicle aprs Binet. Collection Mouvement des Savoirs. Paris,
LHarmattan.
ROZENCWAJG P. (2006), Quelques
rflexions sur lvaluation de lintelligence gnrale : un retour Binet ?,
Pratiques Psychologiques, 12, 3, 395410.
ROZENCWAJG P. & FRANCEQUIN G. (1999), Contributions de
lanalyse des stratgies de rsolution
de problmes lexamen psychologique, LOrientation Scolaire et Professionnelle, 28, 1, 63-82.
ROZENCWAJG P. & HUTEAU M.
(1996), Les stratgies globale, analytique et synthtique dans les cubes
de Kohs. Psychologie Franaise, 41,
1, 57-64.
ROZENCWAJG P., CHERFI M.,

FERRANDEZ A-M., LAUTREY
J., LEMOINE C. & LOARER E.
(2005), Age related changes in the
strategies used by middle aged adults
to solve a block design task. The
International Journal of Aging and
Human Development, 60-2, 159182.
ROZENCWAJG P., CORROYER
D. & ALTMAN P. (1999/2002),
Samuel : Diagnostic du fonctionnement cognitif (manuel), Cergy, Delta
Expert.
RUBTSOV V.V. (1981), The role
of cooperation in the development
of intelligence. Soviet Psychology, 19
(4), 41-62.
S.F.P (2003), Recommandations Internationales sur lutilisation des tests,
Pratiques Psychologiques, numro
spcial hors srie.
S.F.P (non dat), La problmatique de
lutilisation des tests, document en
ligne sur le site de la SFP www.sfpsy.
org (consult en mai 2008).
SALGADO J.F. (1999), Personnel
selection methods. ln, C.L. Cooper,
L.T. Robertson (Eds.), International
Review ofIndustrial and Organizational Psychology, Volume 14. Wiley
et Sons Lld, Chichester, pp. 1-54.
SALGADO J.F. (2001), Pourquoi
faut-il utiliser des preuves dAptitude Mentale Gnrale en Recrutement ? In Levy-Leboyer et al. (Eds.),
R.H. Les apports de la psychologie du
travail. Edition dorganisation.
Bibliographie
SALGADO LF., ANDERSON N.,

MOSCOSO S., BERTUA C., DE
FRUYT F., ROLLAND J.P., 2003,
A meta-analytic study of general
mental ability validity for different
occupations in the European Community. Journal of Applied Psychology, 88, 1068-1081.
SALOVEY P. & MAYER J. D. (1990),
Emotional Intelligence. Imagination, Cognition and Personality, 9 (3),
185-211.
SALTHOUSE T.A. (1994), The
nature of the inflence of speed on
adult age differences in cognition.
Psychological Review, 30, 240-257.
SALTHOUSE T. A. (1996), The processing speed theory of adult age difference in cognition. Psychological
Review, 103, 403-428.
SARRAZIN G. (Ed), (2003), Normes
de Pratique du Testing en psychologie
et en ducation. Montral, Institut
de recherches psychologiques.
SCHAIE K. W. (1979), The Primary
Mental Abilities in adulthood, An
exploration in the development of
psychometric intelligence. In P.B.
Baltes & O.G. Brim, Jr (Eds.), Lifespan development and behavior (Vol.
2). New York, Academic Press.
SCHAIE K. W. (1983), The Seattle Longitudinal Study, A 21-year
exploration of psychometric intelligence in adulthood. In K.W. Schaie
(Ed.), Longitudinal studies of adult
psychological development. New York,
Guilford.
489
SCHAIE K. W. (1994), The course

of adult intellectual development.
American Psychologist, 49, 304-313.
SCHAIE K.W. (1990), The optimization of cognitive functioning
in old age, predictions based on
cohort-sequential and longitudinal
data. In P.B. Baltes & M.M. Baltes
(Eds.), Successful aging, perspectives
from behavioral sciences (pp. 94-117).
New York, Cambridge University
Press.
SCHAIE K.W. (1996), Intellect development in adulthood. The Seattle longitudinal study. Cambridge,
SCHMIDT F.L., HUNTER J.E.,
(1998), The validity and utility of
selection methods in personnel psychology, practical and theoretical
implications of 85 years of research
findings. Psychological Bulletin, 124,
262-274.
SCHMIDT F.L., HUNTER L,
(1993), Tacit knowledge, practical
intelligence, gencrai mental ability,
and job knowledge. Current Directions in Psychological Science 2, 8-9.
SCHMIDT F.L., HUNTER J.,
PEARLMAN K., (1981), Task differences as moderators of aptitude test
validity in selection, a red hening.
Journal of Applied Psychology, 66,
166-185.
490
SCHORR D., BOWER G. H. &

KIERNAN R. (1982), Stimulus
variables in the block design task,
Journal of Consulting and Clinical
Psychology, 50, 4, 479-487.
SEWELL T.E. (1979), Intelligence
and learning tasks as predictors of
scholastic achievement in black and
white first-grade children. Journal of
School Psychology, 17, 325-332.
SEWELL T.E. (1987), Dynamic
assessment as a nondiscriminatory
procedure. In C.S. Lidz (Ed.) Dynamic testing (pp. 425-443). New
York, Guilford Press.
SKA B., POISSANT A. & JOANETTE Y. (1997), La variabilit
interindividuelle dans les modifications cognitives 1ies Ige. LAnne Grontologique, Numro Spcial,
Vieillir avec Succs.
SNOW R.E., KYLLONEN P.C. &
MARSHALEK B. (1984), The topography of ability and learning correlations. In R.J. Sternberg (Ed.),
Advances in the psychology of human
intelligence (vol. 2, pp. 47-104). Hillsdale, NJ, Erlbaum.
SNOW R.E. & LOHMAN D.F.
(1989), Implications of cognitive
psychology for educational measurement. In R. L. Linn (Ed.), Educational measurement (3rd ed., pp.
263-331).
SNYDERMAN M., ROTHMAN S.

(1987), Survey of expert opinion
on intelligence and aptitude testing. American Psychologist, 42, 2,
308-311.
SPEARMAN C.E. (1904), General
intelligence objectively measured and
determined. American Journal of
SPEARMAN C.E. (1927), The abilities of man, their nature and measurement. New York, Macmillan.
SPEECE D.L., COOPER D.H. &
KIBLER J.M. (1990), Dynamic testing. Individual differences and academic achievement. Learning and
Individual Differences, 2, 113-127.
SPELBERG H. (1987), Problemsolving strategies on the blockdesign task, Perceptual and Motor
Skills, 65, 99-104.
STERNBERG R. J. (1985), Beyond
IQ, A triarchic theory of human intelligence. New York, Cambridge University Press.
STERNBERG R. & DETTERMAN
D. (1986), What is intelligence. New
Jersey, Ablex Publishing Corporation.
STERNBERG R.J., FORSYTHE
G.B., HEDLUND J.H., HORVATH J.A., WAGNER R.K.,
WILLIAMS W.M., SNOOK S.A.
& GRIGORENKO E.L. (2000),
Practical Intelligence in Everyday Life.
New York, Cambridge University
Press.
Bibliographie
STERNBERG R.J., GRIGORENKO

E.L. & JARVIN L. (1997), Schoolbased tests of the triarchic theory
of intelligence, three settings, three
samples, three syllabi. Joumal of Educational Psychology.
TERMAN L.M., (1916), The measurement of intelligence. Boston, Houghton Mifflin.
THIEBAUT E. (2000), Lintelligence
et sa mesure. Introduction aux tests de
Bonnardel. Paris, EAP.
THIEBAUT E. & BIDANFORTIER C. (2003), Manuel de la
batterie NV5-R. Paris, EAP.
THIBAUT E. & RICHOUX V.
(2005), Elments de validit prdictive des scores la batterie daptitudes cognitives NV5-R, Pratiques
Psychologiques, 11, 404-416.
THORNDIKE E. L. (1920), Intelligence and its use. Harpers Magazine,
140, 227-235.
THURSTONE L.L. (1935), The vectors of the mind Chicago, Univ. Chicago Press.
THURSTONE L.L. (1938), Primary
Mental Abilities. Chicago, Chicago
University Press.
THURSTONE L.L. & THURSTONE T.G. (1941), Factorial studies of intelligence, Psychometric
Monographs, n 2.
TORT M. (1974), Le Quotient Intellectuel. La Dcouverte, Paris, Maspero.
ULLMO J. (1969), La pense scientifique moderne. Paris, Flammarion.
491
VAN DE VIJVER F. & POORTINGA Y. (1997), Towards an Integrated Analysis of Bias in CrossCultural Assessment. European Journal of Psychological Assessment, 13,
29-37.
VERNON P.E. (1950), Structure of
human abilities. London, Methuen.
VERNON P.E. (1952), La structure
des aptitudes humaines, Paris, PUF.
VIGNEAU F., DOUGLAS A. B. &
STOKES T. L. (2001), La multidimensionnalit dun test de facteur
g ? Vers une approche exprimentale
du test des Matrices de Raven, In A.
Flieller, C. Bocran, J-L. Kop, E.
Thibaut, A-M. Toniolo et J. Tournois (Eds.), Questions de psychologie
diffrentielle. Rennes, PUR.
VOM HOFE A. & LEVY-LEBOYER
C. (1993), Evaluation of the use of
personality tests in personel selection in france. Revue Europenne de
Psychologie Applique, 43 (3), 221227.
VRIGNAUD P. (1994), Mthodologie de lvaluation. In M. Huteau
(Ed.) Actes du Colloque international
"Les techniques psychologiques dvaluation des personnes" (pp. 62-67).
Issy-les-Moulineaux, EAP.
VRIGNAUD P. (1996), Les tests au
XXIe sicle. Que peut-on attendre
des volutions mthodologiques et
technologiques dans le domaine de
lvaluation psychologique des personnes ? Pratiques Psychologiques, 4,
5-27.
492
VRIGNAUD P. (1996), Les tests

au XXIme sicle. Que peut-on
attendre des volutions mthodologiques et technologiques dans le
domaine de lvaluation psychologique des personnes ? Pratiques Psychologiques, 4, 5-27.
VRIGNAUD P. (2000), Psychological
Assessment, An Overview of FrenchLanguage Theory and Methods. In
M. R. Rozenzweig & K. Pawlik
(Eds). The International Handbook
of Psychology. (pp. 387-392). London, Sage.
VRIGNAUD P. (2001), valuation
sans frontires : comparaisons interculturelles et valuations dans le
domaine de la cognition, In M.
Huteau, Les figures de lintelligence.
Paris, EAP.
VRIGNAUD P. (2002a), Les biais de
mesure, savoir les identifier pour
y remdier. Bulletin de Psychologie,
55(6), 625-634.
VRIGNAUD P. (2002b), Psychomtrie et validation de la mesure. In
A. Vallet, G.Bonnet, J.-C. Emin,
J. Levasseur, T. Rocher, A. Blum,
F. Gurin-Pace, P. Vrignaud, X.
dHaultfoeuille, F. Murat,D. Verger, P. Zamora (Eds), Enqute
mthodologique Information et Vie
Quotidienne . Tome 1 : Bilan du test
1. Collection Mthodologie Statistique de lINSEE, 0202. pp 35-49.
Paris, Institut National de la Statistique et des Etudes Economiques.
VRIGNAUD P. & BERNAUD J-L.,

Eds (2005), Lvaluation des intrts
professionnels. Paris, Mardaga.
VRIGNAUD P. & CHARTIER P.
(2003), Apport de lanalyse des
squences ltude des processus
cognitifs, Psychologie et Psychomtrie,
24(4), 77-114.
VRIGNAUD P. & LOARER, E.
(2008), Tests et recrutement. In
S. Ionescu et A. Blanchet (Eds.)
Nouveau cours de psychologie, volume
Psychologie sociale et ressources
humaines coordonn par M. Bromberg et A. Trognon. Paris, PUF.
VRIGNAUD P. (2003), Objectivit et
authenticit dans lvaluation. Avantages et inconvnients des Questions
Choix Multiples et des Questions
Rponses Complexes pour lvaluation des comptences verbales.
147-188.
VYGOTSKI L.S. (1934/1985), Pense
et langage. Paris, Editions Sociales.
VYGOTSKI L.S. (1985), Le problme
de lenseignement et du dveloppement mental lge scolaire. In B.
Schneuwly & J.P. Bronckart (Eds.),
Vygotski aujourdhui. Neuchatel Paris, Delachaux et Niestl.
WAGNER R.K. & STERNBERG
R.J. (1984), Alternative conceptions
of intelligence and their implications
for education, Review of educational
Research, 54(2), 179-223.
Bibliographie
WECHSLER D. (1939), The measurement of adult intelligence. Baltimore,

Williams & Wilkins.
WECHSLER D. (1956), La mesure de
lintelligence de ladulte. Paris, PUF.
WESCHLER D. (1958), The measurement and appraisal of adult intelligence (4th ed.). Baltimore, MD, The
Williams & Wilkins Company.
WECHSLER D. (1996), Manuel du
WISC-III. Paris, ECPA.
WECHSLER D. (2000), Manuel de la
WAIS-III. Paris, ECPA.
WECHSLER D. (2005a), WISC-IV.
Manuel dadministration et de cotation. Paris, ECPA.
WECHSLER D. (2005b), WISCIV. Manuel dinterprtation. Paris,
ECPA.
493
WERTSCH J.V. (1984), The zone

of proximal development, some
conceptual issues. In B. Rogoff &
J.V. Wertsch, (Eds.), Chidrens learning in the zone of proximal development (pp. 7-18). San Francisco,
Jossey-Bass.
WERTSCH J.V. & TULVISTE P.
(1992), L.S. Vygotsky and contemporary developmental psychology.
Developmental Psychology, 28, 548557.
ZAZZO R., GILLY M. & VERBARAD M. (1966), Nouvelle chelle
mtrique de lintelligence. Paris,
Colin.
ZURFLUH J. (1976), Les tests mentaux. Paris, Delarge.
LES OUTILS DU PSYCHOLOGUE

Philippe Chartier
Even Loarer
VALUER LINTELLIGENCE
LOGIQUE
Choix des preuves Passation
Interprtation Restitution
Conu comme un support la pratique, cet ouvrage rappelle les
rgles et les prcautions prendre pour parvenir une mesure valide
de lintelligence. Il propose une synthse des diffrentes approches
de lintelligence logique et dcrit, avec de nombreux exemples, les
mthodes utilises pour la mesurer.
Il prsente galement des approches plus rcentes de lvaluation :
lanalyse des stratgies de rsolution et la mesure dun potentiel
dapprentissage.
Chacun des grands types dpreuves fait lobjet :
dune description de son cadre thorique et des conditions de
sa validit ;
dune analyse dtaille de sa construction ;
dindications pour sa mise en uvre, son interprtation et sa
restitution.
Cet ouvrage est principalement destin aux psychologues praticiens,
ainsi quaux tudiants en psychologie soucieux de se former la
pratique de lvaluation des capacits intellectuelles dans le respect
des rgles de dontologie et de validit scientifique.
chelles dintelligence. Les chelles de Wechsler :
WISC-III, WISC-IV, WAIS-III.
Tests de facteur g
Matrices de Raven, NNAT, D48, D70 et D2000, R85/R2000.
Batteries factorielles
NV7, NV5-R, DAT 5.
preuves de Potentiel dapprentissage :
le TEDE 6.
Analyse des stratgies :
le logiciel SAMUEL.
ISBN 978-2-10-053535-4
www.dunod.com
PHILIPPE CHARTIER
est matre de confrences en
psychologie diffrentielle
lINETOP (CNAM, Paris).
EVEN LOARER
est professeur de psychologie
du travail lUniversit Paris
Ouest-Nanterre La Dfense.

Evaluer L'intelligence Logique - Approche Cognitive Et Dynamique

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Evaluer L'intelligence Logique - Approche Cognitive Et Dynamique

Transféré par

Droits d'auteur :

Formats disponibles

Philippe Chartier

Table des matires

TABLE DES MATIRES . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

Premire partie Aspects historiques, thoriques et mthodologiques

Dunod La photocopie non autorise est un dlit

Dfinir et mesurer lintelligence . . . . . . . . . . . . . . . . . . . . . . . . . . .

Les premiers tests mentaux . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

De la mesure des processus lmentaires celle des fonctions suprieures . . . .

Lapproche factorielle de lintelligence . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

Principaux repres actuels de la psychomtrie

La structure factorielle de lintelligence : modles de synthse . . . . . . . . . . . .

Le niveau intellectuel est-il stable dune gnration lautre ? . . . . . . . . . . . .

Le niveau intellectuel est-il stable chez ladulte ? . . . . . . . . . . . . . . . . . . . . . .

valuer lintelligence logique

Une ou plusieurs intelligences ? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

CHAPITRE 2 DFINITION ET PROPRITS DES TESTS . . . . . . . .

Quest-ce quun test ? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

Comment se prsente un test ? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

Comment passer dun comportement un score ? . . . . . . . . . . . . . . . . . . . . .

Les diffrents types de tests . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

Peut-on amliorer la fidlit dun test ? . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

Les diffrentes formes de fidlit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

Diffrents types de validit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

Lanalyse des items . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

Quest-ce quun biais ? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

Diffrents types de biais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

Conclusion sur la notion de biais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

Table des matires

Plusieurs types dtalonnage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

Conclusion sur la notion dtalonnage . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

Comment valuer un test ? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

Les volutions des modles psychomtriques . . . . . . . . . . . . . .

Prsentation gnrale de lapproche des modles MRI . . . . . . . . . . . . . . . . . .

Les trois modles MRI . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

Intrts et limites des modles MRI . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

Conclusion sur les modles MRI . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

Deuxime partie Les principaux tests dintelligence

Dunod La photocopie non autorise est un dlit

De lchelle mtrique de Binet & Simon

Lchelle Mtrique dIntelligence de Binet & Simon . . . . . . . . . . . . . . . . . . .

Les chelles de Wechsler . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

Les talonnages disponibles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

Les qualits psychomtriques du WISC-III . . . . . . . . . . . . . . . . . . . . . . . . . . .

Les bases de linterprtation du WISC-III . . . . . . . . . . . . . . . . . . . . . . . . . . .

Une version abrge du WISC-III . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

Conclusion sur le WISC-III . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

valuer lintelligence logique

Pourquoi une nouvelle version du WISC ? . . . . . . . . . . . . . . . . . . . . . . . . . .

Les talonnages disponibles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

Les qualits psychomtriques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

Les bases de linterprtation du WISC-IV . . . . . . . . . . . . . . . . . . . . . . . . . . .

Conclusion sur le WISC-IV . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

Les qualits psychomtriques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

Les bases de linterprtation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

Conclusion sur la WAIS-III . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

CHAPITRE 4 LES TESTS DE FACTEUR G (ET DINTELLIGENCE

Les tests de Raven . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

Prsentation de la version SPM de Raven . . . . . . . . . . . . . . . . . . . . . . . . . . .

La version APM des matrices de Raven . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

Conclusions gnrales sur les tests de Raven (versions SPM et APM) . . . . . . .

Le test NNAT (Test dAptitude Non Verbal de Nagliri) . . . . . .

Les qualits psychomtriques du NNAT . . . . . . . . . . . . . . . . . . . . . . . . . . . .

Les bases de linterprtation du ou des scores . . . . . . . . . . . . . . . . . . . . . . . . .